Hívás! Skype!

A gépi fordítás

A gépi (vagy automatikus) fordítás (ang. Machine Translation, MT) a szövegek szoftveres, automatikusan történő fordítását jelenti. A gépi fordítás a mesterséges intelligencia (ang. Artificial Intelligence, AI) részterülete. Míg az ember által történő fordítással az alkalmazott nyelvészet foglalkozik, addig a gépi fordítást leginkább az informatika és a számítástechnikai nyelvészet területén kutatják.

Története

Az ember régi álma, hogy megértse azokat a nyelveket is, amelyeken sohasem tanult (vö. Bábel tornya, a Pünkösdi csoda, a interlingua nyelv, a numerikus timerio nyelv vagy a Bábel-hal). A számítástechnika megjelenése és a modern nyelvtudomány első alkalommal ad szolgáltat konkrét lehetőségeket a régi álom megvalósítására. A gépi fordítás fejlődését végigkísérte a katonai érdeklődés. A legelső projektek egyike egy orosz-angol fordítóprogram volt az Egyesült Államok hadserege számára. Rossz minősége ellenére a program népszerű volt a katonai vezetők körében, akik betekintést nyerhettek az orosz dokumentumok körülbelüli tartalmába.
Az 1966-ban az Egyesült Államok Védelmi Minisztériuma számára készült ALPAC-jelentés[1] kimondta, hogy a gépi fordítás alapvetően kivitelezhetetlen, így a kutatás majdnem 20 évre megszűnt.
Újabb kutatásokba csak az 1980-as években kezdtek olyan elektronikai gyártók, mint a Siemens AG (METAL-Projekt). A németországi Saarföldi Egyetemen 1972-ben pedig kifejlesztették SUSY-t „aki” képes volt oroszról, angolról és franciáról németre és vissza fordítani[2]. A kutatócsoport másik rendszere volt az 1986-os ASCOF francia-német fordító, amely a fordításhoz morfo-szintaktikai és szemantikai elemzést is végzett.[3] A japán kormány ekkoriban elindított Ötödik Generáció Projektjének keretében készült egy angol-japán fordítóprogram Prolog nyelven. Az egyetemek, elektronikai gyártók és a kormány együttműködése vezetett el az első PC-kre írt, tömegeknek szánt fordítóprogramokhoz, ami Japánt egy csapásra a gépi fordítás-kutatás vezetőjévé tette. Az 1990-es években a német oktatási minisztérium által folytatott Verbmobil projekt célja német, angol és japán nyelven folytatott párbeszédek tolmácsolása volt. A Verbmobil felismerte a spontán beszédet, elemezte a bevitelt, lefordította és mondatokat szerkesztett belőle, amelyeket ki is mondott[4].
A 2000-es években kezdtek el fejlettebb statisztikai eljárásokat használni. A Google statisztikai fordítórendszere 2006 óta érhető el, és 104 nyelv mindegyikéről mindegyikére képes fordítani[5]. Továbbfejlesztették a szabályalapú megközelítéseket is. Az ismertebb kutatási projektek egyike az Apertium ingyenes fordítószoftver, amelyet a spanyol és a katalón kormány finanszíroz, és az Alicantei Egyetem fejleszt.
A gépi fordítók iránti igény növekedésének több oka is van:

▪ Egyre több a digitális – számítógéppel közvetlenül feldolgozható – szöveg, ill. egyre több szöveg jelenik meg csak digitálisan.

▪ A globalizáció egyre több szöveg fordítását teszi szükségessé, a fordítási piac négyévente megduplázódik. Ezalatt a fordító- és tolmács-szakma népszerűsége azonos maradt.

▪ Nőtt azon nyelvek fontossága, amelyet kevés európai / amerikai ember beszél, és amelyek beszélői éppoly kevéssé beszélnek nyugati nyelveket:

            ▪ kereskedelmileg fontos a kínai, korei, japán és a thai

            ▪ katonailag fontosak pl. a közel-keleti nyelvek

2003-ban több olyan Egyesült Államok-beli szoftvercég is kiadott arab és pastu fordítóprogramokat (afganisztáni és pakisztáni használatra). Ugyancsak 2003-ban a DARPA végzett vak-kísérletet ismeretlen forrásnyelvek felismerésére. A 2011 végén indult BOLT-program célja kínai és arab szövegek angolra fordítása.[6][7]

Fordítási módszerek

Szótár-módszer

A gépi fordítás legrégibb és legegyszerűbb módszere, amely pl. az említett orosz-angol fordítóprogram alapja volt. A forrásszöveg szavait egy szótár alapján lefordítja a célnyelvi megfelelőkre, amelyek sorban egymás után – forrásnyelvi szórendben – kerülnek kiadásra. Ezt követően a program a célnyelv mondatszerkesztési szabályai szerint rendezi a szavakat és alkalmazza a ragokat (jól-rosszul).

Transzfer-módszer

A klasszikus három lépésből álló gépi fordítási módszer: elemzés, transzfer, generálás. Mindenekelőtt a forrás-mondatok nyelvtani struktúráját elemzi, gyakran fa-struktúrában. Ebből a választott transzfermódszertől függően szemantikai struktúrát vezet le. A struktúrákat ezt követően viszik át (transzferálják) a célnyelvre. Végül a célnyelv nyelvtani szabályainak megfelelően mondatok keletkeznek, és így képződik (generálódik) a célszöveg.

Interlingua-módszer

Elsőként a forrásszöveg nyelvtani információtartalmát elemzi, és ezt meghatározott szabályok szerint transzferálja egy köztes nyelvre (interlingua). A célnyelvi nyelvtani információ ebből a köztes nyelvből képződik. Az interlingua-módszer különösen jól működik a többértelmű kifejezéseknél.
Vegyük például a németül köznyelven megfogalmazott
„Wenn ich arbeiten würde, würde ich mir ein Auto kaufen / zulegen.”
vagy
„Würde ich arbeiten, würde ich mir ein Auto kaufen / zulegen.”
mondatot, ami irodalmi megfogalmazásban inkább
„Wenn ich arbeitete, kaufte ich mir ein Auto.”
lenne.

Ennek a mondatnak a würde módbeli segédigéjét nem lenne helyes egyszerű transzfer-szabállyal wouldra fordítani:
„If I would work, I would buy a car”
mert az angolban az if-mondatokban a would nem használható. Az interlinguában azonban a würde-információ az elvont ’irreális feltételre’ fordulna, majd az angolban szövegkörnyezettől függően woulddal vagy anélkül realizálódna.

Példaalapú gépi fordítás (Example-Based Machine Translation)

A példaalapú gépi fordítás magva egy fordítói mondattár, amelyben visszatérő mondatok, tagmondatok, szószerkezetek és ezek fordításai vannak elmentve. Information Retrieval-módszerekkel számítják ki, hogy a forrásszöveg mondatához a fordítástár mely bejegyzései a leghasonlóbbak. A végső fordítási javaslat a legjobban hasonlító mondatok fordításaiból áll össze.

Statisztikai gépi fordítás (Statistics-Based Machine Translation)

Mielőtt bármit is lefordítana, a program kielemzi a kétnyelvű szövegek lehető nagyobb szövegkorpuszát, pl. parlamenti jegyzőkönyvekét, amilyen a kanadai Hansard Corpus. Ilyenkor a forrás- és célnyelvi szavak és nyelvtani képletek gyakoriság és kölcsönös közelség szerint rendeltetnek egymáshoz, és így egy szótár és egy nyelvtan-átviteli szabályzat is létrejön. A szövegek ennek alapján fordíttatnak le. A statisztikai gépi fordítás igen népszerű, mert a szóban forgó nyelvek legcsekélyebb ismeretét sem feltételezi elő. A statisztikai gépi fordítás valós – emberi fordítók által fordított – szövegállományok elemzésével olyan szabályokra is fényt deríthet, amelyeket a nyelvtudomány még nem tudott pontosan leírni.[8]

Neurális gépi fordítás (Neural Machine Translation)

A neurális gépi fordítás, ahogy a statisztikai is, kétnyelvű szövegek elemzésén alapszik. Egy mesterséges neurális hálózat megtanulja a szövegeket, és elméleteket alkot a be- és kimeneti szövegek közötti összefüggésekről[9]. Érdekessége, hogy a fordításból legtöbbször nem lehet levezetni, hogyan jött létre.
Példa erre a DeepL[10] online fordítóprogram, amely a szövegeket precízebben fordítja le , mint a Google vagy a Bing Fordító[11].
Gépi fordítás emberi segítséggel (Human-Aided Machine Translation, HAMT)
Itt a többértelmű vagy nehezen fordítható konstrukciókat a felhasználó maga fordítja le. Ez történhet előre pl. azáltal, hogy a felhasználó a hosszú mondatokat rövidebbekre osztja fel, vagy interaktívan, pl. egy szó lehetséges jelentései közötti választással.
Nem tartozik ide a számítógéppel támogatott fordítás (Computer-Aided Translation, CAT), amelynél egy számítógépes program segíti az emberi fordítót a munkájában, de alapvetően nem automatikusan fordít; a gépi fordítás automatikusan jön létre.

Fordítási minőség

A célszöveg először mondatonként kerül minőségi ellenőrzésre vagy evaluációra; a mondatok minőségi értékeiből átlagolással ered a teljes szöveg minősége. A legtöbb esetben az értékelést a célnyelv anyanyelvi beszélője végzi, amit számokkal fejez ki. Japánban pl. egy ötfokozatú skálát használnak:

            ▪ 4 pont: A mondat tökéletes vagy nagyon jól érthető; nincs benne nyilvánvaló hiba.

            ▪ 3 pont: A mondat egy-két rossz kifejezést tartalmaz, egyébként jól érthető.

            ▪ 2 pont: Még ki lehet találni, mire gondolhattak eredetileg.

            ▪ 1 pont: A mondat nyelvtanilag tökéletlen és/vagy mást jelent, mint az eredeti.

            ▪ 0 pont: A mondat értelmetlen / szavak véletlenszerűnek tűnő csoportja.

A Bleu-Score (bilingual evaluation understudy, kétnyelvű értékelés tanulmány) a fordítási minőség automatikus értékeléséhez használt algoritmus, amely az automatikus fordítás emberi referenciafordítással való hasonlóságát méri[12]. Ezt és más módszereket is sok kritika ért, mert megbízhatatlanok és – főleg mondatszinten – csak ideális körülmények között tudnak különbséget tenni jó és rossz fordítás között.[13] Több ezer mondatos dokumentumok értékelésekor azonban jól korrelál az emberi értékeléssel.[14] A gépi előfordítás minőségének hatékony értékelési módszere az ún. találati rátán alapul, amely azon terminusok (szavak, szókapcsolatok) aránya, amelyeket a fordító változatlanul, minden manuális utómunka nélkül átvehet.

Várakozások

A gépi fordítás teljesítménye sok nyelvpárban még mindig nem kielégítő. A tudomány az emberi beszédet még mindig nem tudta teljes mértékben leírni. A legtöbb nyelvtudós úgy gondolja, hogy a tiszta nyelvértésen túlmenő kompetenciák hiányában a gépi fordításnak megvannak a határai, és hogy sok fordítás nemcsak nagy mennyiségű koncepciós tudást, metatudást igényel, hanem a valóság tudatos leképzését és az emberközi interakciók konvencióinak ismeretét.

Gyakorlati problémák

A gépi fordítás minőségi hiányosságainak részben megoldható okai vannak:
▪ Beszédstílus. Minden beszédstílusnak megvannak a maga különlegességei, amelyeket a nyelvészet sem képes maradéktalanul leírni. A gépi fordításrendszerek általában az írott újságnyelvet tekintik alapnak, rosszabb eredményeket produkálnak a prózai irodalmi szövegeknél, és különösen rosszakat lírai szövegeknél és a beszélt nyelvnél.

▪ Kicsi vagy hibás szótár. A társadalom és a tudomány változásaival a nyelvek szókincsenapról napra növekszik. Sok szónak több jelentése van, a helyes megoldás csak a szövegkörnyezet (a mondatrész, a mondat, a bekezdés és a teljes szöveg) elemzésével azonosítható. A silány fordításokért nagyrészt a szótárak hiányosságai felelősek. A legnagyobb gépi fordítóprogramok több millió bejegyzés és jelentésárnyalatok sokasága között válogatnak.
▪ Hiányzó transzfer-szabályok. Sok nyelvtani jelenség nyelvenként erősen különbözik, vagy csak egyes nyelvekben lelhető fel. Ennek megoldása nyelvészeti alapkutatást igényel, amit a fordítószoftver-gyártók nem mindig hajlandók elvégezni.
Emellett a gépi fordításnak még sok számítástechnikai problémája is van.
▪ Nyelvtani problémák. Nincs olyan gépi fordításrendszer, amely mindegyik nyelvtani szabályt elemezné, ill. alkalmazná. A ki nem elemzett nyelvtani jelenség jó esetben a másik nyelven is hasonlóan működik. Ilyen pl. a német der / die / das névelő, amely az angolban szinte mindig the-re fordul és szinte sohasem a-re. Azonban a fentebb említett if-mondat példa jó példája, hogy egyszerűbb fordítási feladatok is félresikerülhetnek. A távolabbi rokonságú vagy egymástól teljesen idegen nyelvek között (pl. német és kínai) az ilyen közvetlen fordítások gyakran még szószinten sem biztos választások. Még sok összetett nyelvtani jelenség vár a gépi fordításhoz való feldolgozásra; ilyenek pl.:

            ▪ Névelők

            ▪ Összetett névszók

            ▪ Összetett mondatrészek

            ▪ Vonatkozó névmások

            ▪ Idő / Mód

Kereszthivatkozások

  1. John R. Pierce, John B. Carroll, et al.: Language and Machines – Computers in Translation and Linguistics. ALPAC report, National Academy of Sciences, National Research Council, Washington, DC, 1966.
  2. H.-D. Maas: Das Saarbrücker Übersetzungssystem SUSY. In: Sprache und Datenverarbeitung. 1978 (1).
  3. Axel Biewer et al.: A modular multilevel system for French-German translation. In: Computational Linguistics (Special issue on machine translation). Volume 11 Issue 2-3, April-September 1985, S. 137-154.
  4. Verbmobil – Info Phase 2. In: verbmobil.dfki.de. Abgerufen am 16. Juli 2016.
  5. statistical machine translation live. Och, Franz: Google Research Blog. Abgerufen am 21. Juli 2013.
  6. Broad Operational Language Translation (BOLT). In: www.darpa.mil. Abgerufen am 16. Juli 2016.
  7. BOLT | Linguistic Data Consortium. In: www.ldc.upenn.edu. Abgerufen am 16. Juli 2016.
  8. Phillip Koehn: Statistical Machine Translation. Hrsg.: Cambridge University Press. ISBN 978-0-521-87415-1.
  9. Dzmitry Bahdanau, et al.: Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of the International Conference on Learning Representations (ICLR), San Diego, CA, 2015.
  10. DeepL. DeepL GmbH, Köln; abgerufen am 18. September 2017.
  11. Anna Gröhn: Online-Übersetzer im Vergleich: “Ich will den Hals langsam atmen”. In: Spiegel Online. 17. September 2017 (spiegel.de abgerufen am 18. September 2017).
  12. Kishore Papineni et al.: BLEU: a method for automatic evaluation of machine translation. In ACL-2002: 40th Annual meeting of the Association for Computational Linguistics. 2002, S. 311–318.
  13. Callison-Burch, C., Osborne, M. and Koehn, P. (2006) “Re-evaluating the Role of BLEU in Machine Translation Research” in 11th Conference of the European Chapter of the Association for Computational Linguistics: EACL 2006 pp. 249–256
  14. Chris Callison-Burch, et al.: Findings of the 2012 Workshop on Statistical Machine Translation. In Proceedings of the Seventh Workshop on Statistical Machine Translation. 2012, S. 22–23.
  15. Maschinelle Übersetzer: DeepL macht Google Translate Konkurrenz. heise.de, 29. August 2017

Alkalmazások

Lásd még

Irodalom

Linkek

 

 

Kapcsolatfelvétel