Utvecklingen inom språktekniken har accelererat kraftigt. Det påverkar inte bara de som lever av översättningar, som tolkar och översättare, utan alla verksamheter som förhåller sig till olika språk. Ligger de nordiska länderna i täten av utvecklingen eller håller de stora IT-bolagen som Google, Apple och Microsoft att ta kontrollen över viktiga delar av våra språk?
Att kunna översätta med hjälp av datorer verkade länge vara en ouppnåelig dröm. De första försöken inleddes redan på 50-talet med regelbaserad maskininlärning. Men ord är något annat än siffror. Som den danska språknämnden formulerar det i inledningen av rapporten ”Dansk sprogteknologi i verdensklasse”:
- En stor del av vår kunskap är formulerat i ett språk. Det mesta vi vet om Danmark, om danska förhållanden och om varandra, är formulerat på danska. Artificiell intelligens baseras vanligtvis på analys av stora datamängder. Det ger goda resultat när dessa data är siffror, men det är en mycket större utmaning när data består av språk i form av text och ljud. Siffror är entydiga och passar in i det sätt som datorerna är organiserade på. Språk är mångtydigt och mycket mer komplext eftersom det är en del av vår existens och tätt sammanvävt med det sätt som våra samhällen är uppbyggda på och den kultur vi växt upp i.
På 1990-talet trodde man sig kunna hoppa bock över problemet genom att satsa på statistisk maskinöversättning. Med de enorma textmängder som fanns på Internet gällde det bara att hitta någon som översatt något liknande tidigare, var tanken.
Men många ord har olika betydelser och vet man inte något om sammanhanget blir det ändå ofta fel. Google translate hade länge ett mycket dåligt rykte. Men översättningstjänsten har förbättrats kraftigt, speciellt mellan de stora språken, som mellan engelska och spanska och engelska och franska.
- Google och andra aktörer införde för några år sedan en ny teknik i sin utveckling av översättningsprogram. Den maskininlärning som nu tillämpas innebär att maskiner ska lära sig känna igen mönster genom exempel, snarare än att de programmeras för översättning av enskilda ord, påpekas det i den svenska utredningen ”Att förstå och bli förstådd” (SOU 2018:83).
- Man har gått från statistisk översättning till en modell baserad på djupinlärning. Systemet kan då bättre förstå sammanhang, vilket gör att översättningarna blir bättre. Stora mängder data analyseras där datorerna söker efter mönster och successivt lär sig känna igen dem. Det har möjliggjort översättningar som skiljer sig avsevärt i kvalitet från de översättningstjänster som presenterades för ett tiotal år sedan. En avgörande fråga är hur bra de maskinella systemen kan bli. Det finns forskare som hävdar att det knappast finns gränser för detta.
Språkteknik handlar inte bara om att översätta texter. Det har uppstått en rik flora av olika tekniker som sedan kan kombineras med varandra:
Utvecklingen går också mot att dessa system fungerar i realtid, så att TV-nyheter textas samtidigt som de sänds, eller att sökmotorn gissar vad du letar efter att du bara skrivit några få bokstäver.
I Danmark kom en av de första succéerna inom språkteknik med ett röstigenkänningsprogram som användes av läkare, berättade Peter Juel Henrichsen, på de nordiska språkdagarna, som i år handlade om språkteknologi. Läkarna kunde göra sina rapporter muntligt och få dessa utskrivna som text av programmet, vilket sparade tid och gjorde att de kunde klara sig utan läkarsekreterare.
Därför står taligenkänning idag för 50 procent av omsättningen för språkföretagen i Danmark.
- Senare försökte man använda samma program i danska kommuner, men där fungerade det inte lika bra. Det var många olika grupper inom kommunerna som skulle använda verktyget och det är stor skillnad på vad en jurist och en socionom gör, säger Peter Juel Henrichsen.
Av de 60 danska kommuner som använde taligenkänningsprogrammet var det ingen som hade ett positivt business case.
En ny stor kundgrupp är företag som Netflix, HBO och Disney som strömmar TV-program och filmer. De erbjuder tusentals program och behöver kunna dubba dessa eller ge dem undertexter på hundratals olika språk. Och det är inte bara åt det ena hållet så att engelska program översätts till andra språk. Vi kan idag se t ex koreanska serier textade på vårt eget språk.
Den koreanska serien Squid Game blev på bara nio dagar den största succén på Netflix med ett annat orginalspråk än engelska. Foto: Youngkyu Park/Netflix
Att använda taligenkänningsprogram för att texta och översätta utländska filmer räcker inte, berättade Michael Stormbom på finska Lingsoft på de nordiska språkdagarna:
- Att texta en film handlar också om att placera in texten vid rätt tidpunkt, och med tidskoder ange hur länge den ska vara i bild. Eftersom det går snabbare att lyssna än att läsa måste också undertexterna förkortas och granskas av människor.
Det svenska företaget Plint, som startades 2002 och som specialiserade sig på undertexter till företagsfilmer och svensk filmindustri, fick en kraftig ökad marknad när Netflix började strömma filmer. Företagets omsättning ökade från 11 miljoner kronor 2015 till 241 miljoner kronor 2019. Redan nästa år kan omsättningen överstiga 500 miljoner kronor, enligt företagets vd Örjan Serner, i en intervju med breakit.se.
Norden har idag sju av de 100 största språkteknikföretagen i världen:
Källa: https://www.nimdzi.com/nimdzi-100-top-lsp/#nimdzi-100
Antalet anställda ger inte en rättvis bild av hur många personer företagen sysselsätter, eftersom så mycket av arbetet är frilansbaserat. Både Semantix och det danska LanguageWire, hävdar att de har ett nätverk på 7 000 språkspecialister och att de översätter mellan nästan 250 språk, medan Plint har ett nätverk på tusen översättare.
Den mängd översättningar som görs har redan överskridit det som skulle vara möjligt att genomföra enbart med människor. Men de behövs fortfarande för att kontrollera och rätta de översättningar som görs. Det kommer alltid finnas ett behov av översättare av skönlitterära verk och de som har kunskap om det muntliga språket, som utvecklas snabbare än ordböckerna.
Hittills vet man inte mycket om hur villkoren för tolkar och översättare har förändras av tekniken och hur dessa plattformsbaserade jobb organiseras. Inte heller vet man vad som sker för språken. Kommer utvecklingen att ge mindre språk en möjlighet att blomstra eller kommer engelskan att bli ännu mer dominerande?
En av de största köparna av översättningstjänster är EU, som översätter 2 miljoner sidor varje år, med hjälp av 2 000 egna översättare och stödpersonal, i tillägg till tusentals frilansare.
Lagtexter och førarbeten till lagar står för nästan hälften av alla översättningar som görs inom EU. En större version av statistiken finns här:
När det som blev EU stiftades 1958 fanns det fyra officiella språk: franska, tyska, nederländska och italienska. Varje nytt medlemsland har fått sina språk godkända som officiella språk, vilket innebär att allt nu översätts till 28 språk.
Innan Brexit talade 13 procent av EU:s invånare engelska. Idag är det mindre än en procent som gör det – Irland och Malta är de enda länderna som har engelska som huvudspråk. 38 procent av EU:s invånare har visserligen engelska som sitt andra språk, men bara en femtedel av dessa anser att deras kunskaper i engelska är ”mycket bra”. Inte mer än en fjärdedel av EU:s invånare säger sig kunna förstå vad som sägs i en radiosändning eller TV-nyheterna om de ær på engelska.
Trots de bristande kunskaperna är det ingenting som tyder på att Brexit får som följd att engelskan försvagas inom EU:s institutioner. Tvärt om, anser Alice Neal, som själv arbetat som tolk inom EU och som i år gav ut boken ”English and translation in the European Union” (Routledge).
Hon påpekar att det språk som används i förarbetet till lagstiftningen nu nästan uteslutande är engelska. 1997 gjordes 45 procent av utkasten till nya lagar och förordningar på engelska. Tio år senare hade det ökat till 62 procent, för att 2020 nå upp i 85 procent.
Om arbetsspråket ändå är engelska varför då använda 350 miljoner euro (3,5 miljarder kronor) på att översätta till de andra språken?
Svaret är att det inte finns ett huvudspråk som EU:s lagar skrivs på. Alla språken har lika stor tyngd och ingen språkversion är förmer än någon annan. Vid tvister i EU-domstolen, liksom alla andra EU-rätter, måste domarna förhålla sig till att alla språkversioner är lika riktiga.
- När alla språkversioner är original, så suddas gränserna mellan vad som är original och översättningar ut och den lingvistiska hierarkin döljs, skriver Alice Beal.
För maltesiska, som är ett arabiskt språk skrivet med latinska bokstäver, har EU-medlemskapet inneburit ett kraftigt lyft för språket. Det har utvecklats en egen "Brysselmaltesiska" som innehåller ord som inte används i vardagsspråket. Andra, mycket större språk som katalanska, baskiska och romani har inte fått samma översättningsstöd för maltesiskan.
Mycket av diskussionen bland språkforskarna i Norden handlar idag om att det är viktigt för länderna att själva se till att behålla kontrollen över utvecklingen och underhållet av nationella termdatabaser. Det är viktigt att också se över hur konfidentialiteten och integriteten upprätthålls när ny språkteknik används. Det kanske inte är så smart att översätta hemliga dokument eller privata brev med kontouppgifter eller annan känslig information med vilken översättartjänst som helst på nätet.
Det behövs bara en halv timmes vandring i centrum av den svenska staden Uppsala för att se hur många språk som finns på skyltarna - ofta i en blandning av flera språk som i "My Gyros - svensk och grekisk fastfood, eller som i ordleken Su shi fu - The amasian catch. Just ordlekar är något av det svåraste att översätta.