Trust me, I’m a machine

Tekstin tai puheen kääntäminen on vaikeaa ihmiselle. Onko se yhtään sen helpompaa koneelle? Tuleeko kone korvaamaan ihmiskääntäjät? Lyhyt vastaus: kyllä ja ei. Ihmiskieli on kaikessa kauneudessaan ja kirjavuudessaan monimutkaista monellakin tapaa, josta aiheutuu monenlaisia erilaisia haasteita niin ihmisille kuin koneillekin käännettäessä kieltä toiseksi.

Kielen monitulkintaisuus on yksi kääntämisen suurimmista ongelmista. Jotta voit kääntää (tai ylipäätään tulkita) sanat “kuusi palaa”, täytyy ensin tietää missä yhteydessä ne esiintyvät. Onko kyseessä esimerkiksi kuusi palaa leipää, liekehtivä kuusipuu vai sci-fi-romaani jossa taivaankappaleet tulevat ja menevät?

Tai sanamuoto “alusta” - onko kyseessä “alusta”-substantiivi perusmuodossa, “alku”-sanan elatiivi (“aloitetaan alusta”), “alus”-sanan partitiivi (“armeija osti kolme alusta”), vai mahdollisesti “alustaa”-verbin imperatiivi (“Alusta tuo kovalevy!”)? Vaiko kenties “alunen”-sanan partitiivi (“Tarvitsemme teekupeille kolme alusta”)?

Monitulkintaisuuden lisäksi erityisesti idiomit ja sanonnat, joiden merkitys on kuvaannollinen eikä kirjaimellinen, aiheuttavat koneelle ongelmia. Samoin puhekieliset ilmaisut, slangi, murteet ja kirjoitusvirheet hämmentävät usein konekääntäjää.

Usein oikea käännös riippuu oleellisesti myös tosimaailman ominaisuuksista: onko jokin asia elollinen vai eloton, onko se kulkuväline vai huonekalu vai syötävä… Joskus koneen väärin kääntämät tulokset ovat huvittavia, joskus enemmänkin karmaisevia.

Kolmas ongelma on konteksti – kieli on riippuvaista tilanteesta, kulttuurista, puhujista ja lauseyhteydestä. Konekääntimet analysoivat tekstiä yleensä lause kerrallaan, eivätkä siis tiedä mitään edes edellisissä lauseissa mainituista asioista, saati sitten muusta laajemmasta kontekstista.

Mihin konekääntäminen perustuu?

Konekääntimiä on erilaisia: osa perustuu käsin kirjoitettuihin sääntöihin, osa tilastollisiin menetelmiin ja osa neuroverkkoihin. Kaikissa on omat hyvät ja huonot puolensa.

Sääntöpohjaiset järjestelmät jäsentävät tekstin ensin osasiin ja kääntävät sen sitten kohdekielelle sanakirjan ja erilaisten sääntöjen perusteella. Niiden ongelma on lähinnä siinä, että on mahdotonta kuvata säännöillä kaikkia mahdollisia kielen ilmiöitä. Tiettyyn pisteeseen asti ne kuitenkin toimivat erittäin hyvin.

Tilastollisiin menetelmiin perustuvat konekääntäjät sen sijaan käyttävät hyväksi suuria tekstimassoja, joissa sama teksti on käännetty usealle kielelle. Tilastolliset kääntimet kääntävät laadukkaasti sellaisia tekstejä, jotka ovat niille tuttuja. Ongelmana on löytää tarpeeksi laajoja ja laadukkaita tekstimassoja. Käytetyissä teksteissä myös heijastuu tosimaailman ongelmat ja asenteet. Tästä johtuu esimerkiksi se, että Google Translate kääntää suomen kielen sukupuolineutraalin “hän”-pronominin englanniksi välillä “he” ja välillä “she” riippuen siitä, kumpi on sen analysoimissa tekstimassoissa ollut yleisempi samantyyppisissä yhteyksissä.

Neuroverkkopohjaisissa kääntäjissä yhdistyvät säännöt sekä tekstimassojen käyttö pohjana käännöksille, että myös koneoppiminen - koneelle voidaan opettaa, mitkä käännökset ovat hyviä ja mitkä huonoja, ja sen perusteella laatu jatkuvasti paranee. Tämäntyyppiset kääntäjät ovat viime vuosina yleistyneet ja niissä onkin suurin potentiaali parantaa konekäännöksen laatua jatkossa.

Sanakirja tarjoaa useita vaihtoehtoja

Konekääntäjä on yhtä aikaa tyhmä ja fiksu. Se antaa parhaan arvauksensa käännökseksi, mutta mitään varmuutta sen oikeellisuudesta ei ole. Arvaus perustuu niihin sääntöihin ja niihin tekstimassoihin, joita kääntäjälle on opetettu.

Konekäännöksen vaara verrattuna sanakirjaan onkin siinä, että huonokin sanakirja yleensä tarjoaa useita käännösvaihtoehtoja, joista hyvällä tuurilla ja pienellä päättelyllä voi valita oikean. Konekäännin sen sijaan tarjoaa ainoastaan yhden mielestään parhaan käännöksen, usein kertomatta mitä muita mahdollisia käännöksiä olisi voinut olla, tai miksi se päätyi tähän käännökseen. On vaikeaa tietää, mikä menee pieleen ja miksi käännöksessä ei joskus tunnu olevan mitään järkeä. Jos käännettävää kieltä ei osaa kovin sujuvasti, on myös hankalaa arvioida, onko käännös oikeasti hyvä vai ei.

Milloin kone sitten kääntää tekstiä yhtä hyvin kuin ihminen? Jo tänään, ja ehkä ei ikinä.

Konekäännös on erittäin hyvä työkalu varsinkin säännönmukaisille teksteille, ja vaikkapa auttamaan tekstin ymmärtämisessä. Jo nyt konekääntäjät ovat suureksi avuksi esimerkiksi käyttöoppaiden ja teknisten materiaalien kääntämisessä.

Sen sijaan kaunokirjallisuus ja muut luovuutta vaativat tekstityypit tulevat vielä pitkään, ehkä ikuisesti, vaatimaan ihmistä. Tekstiä voi mekaanisesti kääntää, mutta voiko tekstin sielua?

– Elina Söderblom, pääkieliteknologi