Ładowanie...

Historia tłumaczenia automatycznego w pigułce

Krzysztof Jassem 27 lipca 2020

Czy tłumaczenie automatyczne stanowi obszar działania sztucznej inteligencji?

Przez sztuczną inteligencję rozumie się system komputerowy wykonujący zadania, których rozwiązanie wymaga ośrodka obliczeniowego o złożoności podobnej do ludzkiego mózgu. Mianem sztucznej inteligencji nie określa się na przykład umiejętności sumowania liczb, gdyż zadanie to wykonać może prosta maszyna mechaniczna (pierwszy arytmometr czterodziałaniowy skonstruował już w 1810 r. Abraham Stern z Hrubieszowa). Jako przykłady zadań wymagających zastosowania sztucznej inteligencji podaje się natomiast rozpoznawanie obrazów, rozumienie mowy czy podejmowanie decyzji w warunkach wysokiego ryzyka.

Poprawne tłumaczenie z jednego języka na drugi wymaga wiedzy i kompetencji wykształconego człowieka, dlatego tłumaczenie automatyczne traktowane jest jako zadanie wchodzące w obszar działania sztucznej inteligencji.

Tłumaczenie automatyczne a tłumaczenie wspomagane komputerowo

Tłumaczenie automatyczne to tłumaczenie tekstu przez komputer – bez ingerencji ludzkiej. Powyższemu pojęciu przeciwstawić można pojęcie tłumaczenia wspomaganego komputerowo, które wykonywane jest przez człowieka przy pomocy komputera.

Tłumaczenie automatyczne jest szybsze i mniej kosztowne, ale za to mniej dokładne niż tłumaczenie wspomagane komputerowo. Często spotyka się wręcz opinie, że tłumaczenie automatyczne oddaje zaledwie sens przetworzonego tekstu i dlatego nie może być uznane za wiarygodne źródło wiedzy.

W tłumaczeniu wspomaganym komputerowo ostateczną decyzję o formie przetłumaczonego tekstu podejmuje człowiek. Działanie tłumacza wspomagane jest w jego przypadku przez komputerowe słowniki wielojęzyczne, tezaurusy zawierające informacje o wyrazach bliskoznacznych oraz przeciwstawnych czy leksykony specjalistyczne. Szczególnie pomocna okazuje się dla tłumacza tzw. pamięć tłumaczeń, czyli baza wcześniej przetłumaczonych i zapamiętanych zdań oraz fraz.

Do rozwiązań z zakresu sztucznej inteligencji zalicza się systemy tłumaczenia automatycznego, natomiast nie klasyfikuje się w obrębie tej kategorii tłumaczenia wspomaganego komputerowo.

Początki tłumaczenia automatycznego

Za początek ery tłumaczenia automatycznego uważa się zazwyczaj memorandum amerykańskiego matematyka Warrena Weavera. Na życzenie fundacji Rockefellera opracował on w roku 1949 publikację pt. Translation, w której rozważał możliwość tłumaczenia tekstów przez komputer. Warren uważał, że zadanie to będzie wykonalne w nieodległej przyszłości dzięki metodom analogicznym do tych, które stosowane są w kryptografii – na potrzeby odszyfrowywania tajnych komunikatów. Memorandum Weavera dało impuls do badań w dziedzinie tłumaczenia automatycznego – głównie w Stanach Zjednoczonych.

Tezę Warrena potwierdził w roku 1953 eksperyment przeprowadzony wspólnie przez uniwersytet w Georgetown oraz firmę IBM. W jego ramach zaprezentowano działanie systemu tłumaczenia automatycznego opartego na niewielkim słownictwie (250 wyrazów) oraz kilku regułach (takich jak np. przestawianie sąsiednich wyrazów). Operator systemu, nieznający języka rosyjskiego, wprowadził do niego na kartach perforowanych ponad 60 zdań rosyjskich, zapisanych fonetycznie w alfabecie łacińskim. W odpowiedzi system wydrukował ich tłumaczenia w języku angielskim. Powyższy pokaz zakończył się pełnym sukcesem – między innymi dzięki temu, że tłumaczone zdania zostały uprzednio starannie wyselekcjonowane, a ich tłumaczenia – zweryfikowane.

W następnych latach skonstruowano systemy, które – operując na ograniczonym słownictwie – wskazały potencjalne kierunki rozwoju dziedziny. Translator skonstruowany w roku 1955 przez A. D. Bootha oparty był na rozbudowanym leksykonie dwujęzycznym, zaś maszyna G. W. Kinga (1960) wskazała metodę opracowaną teoretycznie 30 lat później, a mianowicie tłumaczenie oparte na statystyce. Postępy w jakości tłumaczenia na przestrzeni kolejnych lat były jednak dalekie od oczekiwań rozbudzonych eksperymentem w Georgetown.

Raport ALPAC

W roku 1964 rządowe instytucje amerykańskie: Ministerstwo Obrony, Ministerstwo Nauki oraz Centralna Agencja Wywiadowcza założyły komitet doradczy o nazwie ALPAC (Automatic Language Processing Advisory Committee) – w celu zweryfikowania oczekiwań w stosunku do rozwoju tłumaczenia automatycznego. Po dwóch latach pracy (w roku 1966) komitet opublikował raport druzgocący dla badaczy reprezentujących przedmiotową dziedzinę. Stwierdzono w nim między innymi, że jakość tłumaczenia automatycznego jest wyraźnie niższa od jakości tłumaczenia ludzkiego, a jego koszt (66 dolarów za 1000 wyrazów) oraz czas realizacji (50 stron w 15 dni) w najmniejszym stopniu nie uzasadniają inwestowania kolejnych środków w badania z powyższego zakresu.

Tłumaczenie automatyczne w wieku XX

Wstrzymanie rządowego finansowania spowodowało co prawda zastój w pracach akademickich z zakresu tłumaczenia automatycznego, jednakże zapoczątkowało powstawanie prywatnych podmiotów komercyjnych. W roku 1968 założono w Kalifornii firmę Systran (siedziba tego wciąż działającego aktywnie przedsiębiorstwa zlokalizowana jest aktualnie w Paryżu). Systran był najpierw dostawcą usługi tłumaczenia automatycznego na potrzeby Ministerstwa Obrony USA, a następnie obsługiwał Komisję Europejską. Do roku 2007 rozwiązania firmy Systran stanowiły także podstawę działania systemu Google Translate.

Ważną rolę w popularyzacji tłumaczenia automatycznego odegrał także system Meteor – opracowany w roku 1975, a stosowany efektywnie w latach 1981–2001. Meteor tłumaczył komunikaty pogodowe pomię̨dzy językami urzędowymi Kanady: angielskim i francuskim. Cały system można było zmieścić na pojedynczej dyskietce o pojemności 1,44 megabajta, a mimo to był on w stanie tłumaczyć aż 30 milionów wyrazów rocznie – i to z szybkością 20 stron na sekundę. Co więcej, jakość tłumaczenia oferowanego przez Meteor szacowano na 97% – wynik nieosiągalny nawet przez systemy współczesne. Było to jednak możliwe wyłącznie dzięki znacznemu ograniczeniu składni oraz słownictwa tłumaczonych tekstów.

Translatory automatyczne w Polsce

Na rynku polskim translatory automatyczne pojawiły się na początku XXI wieku. Pierwszym produktem komercyjnym tego typu był English Translator XT firmy Techland, który bazował na dwujęzycznym leksykonie oraz kilku regułach gramatycznych – na potrzeby doboru poprawnych odmian wyrazów w przetłumaczonym tekście. Firma Kompas wydała z kolei produkt o nazwie Tłumacz i słownik, który dokonywał translacji pomiędzy językiem polskim a sześcioma językami obcymi: angielskim, niemieckim, rosyjskim, włoskim, hiszpańskim i francuskim. Autorzy tego rozwiązania położyli nacisk na ogromnej wielkości słowniki (o objętości rzędu kilku milionów haseł), które oprócz pojedynczych wyrazów zawierały także frazy wielowyrazowe.

Translatica

Translatica 7

W roku 1996 grupa informatyków z Uniwersytetu im. Adama Mickiewicza w Poznaniu rozpoczęła prace nad stworzeniem systemu tłumaczenia automatycznego z języka polskiego na język angielski. W roku 2001 do rozwoju systemu o nazwie POLENG przyczynił się Allied Irish Bank (AIB) – ówczesny udziałowiec banku WBK. Bank AIB pragnął dostosować system do potrzeb związanych z wewnątrzfirmową komunikacją swego polskiego oraz brytyjskiego personelu. W roku 2003 powstała firma o nazwie POLENG (obecnie: PWN AI), której wspólnikami zostali autorzy opisywanego systemu oraz inwestor zewnętrzny – Wydawnictwo Naukowe PWN.

Na bazie polsko-angielskiego słownika PWN-Oxford w roku 2004 firma POLENG stworzyła system tłumaczenia automatycznego o nazwie Translatica, którego działanie opiera się na tzw. „głębokiej analizie składniowej”. Dla każdego tłumaczonego zdania system konstruuje jego reprezentację w postaci drzewa składniowego, po czym za pomocą odpowiednich reguł drzewo to przekształcane jest na drzewo składniowe dla języka docelowego. Dopiero na jego podstawie wygenerowane zostaje przetłumaczone zdanie. System Translatica dostępny jest do dziś na stronie www.translatica.pl.

Google Translate

W roku 2006 uruchomiono bezpłatny serwis o nazwie Google Translate, który rok później zaczął oferować tłumaczenia automatyczne dla języka polskiego. Jakość przekładu oferowana przez powyższy serwis była niższa niż w przypadku systemów komercyjnych (opublikowany w roku 2011 raport z testów wskazywał na wyższość jakości tłumaczenia uzyskiwanej przy zastosowaniu systemu Translatica w porównaniu z Google Translate). Mimo to darmowy system firmy Google stopniowo wypierał z polskiego rynku translatory o charakterze komercyjnym. Oparty na metodzie statystycznej Google Translate był bowiem znacznie tańszy w rozwoju, a dzięki dostępowi do olbrzymich i wciąż przyrastających zasobów tekstowych podwyższał on z czasem jakość oferowanego przez siebie przekładu. Podstawowym czynnikiem decydującym o powodzeniu tego serwisu było jednak z całą pewnością nieodpłatne udostępnienie usług tłumaczenia.

Historia najnowsza

W latach 90. dwudziestego wieku badania z zakresu tłumaczenia automatycznego zaczęły stopniowo odchodzić od podejścia opartego na regułach i podążać w kierunku metod statystycznych, opartych na analizie obszernych zasobów danych. Serwis Google Translate wykazał, że akademickie rozważania mogą znaleźć praktyczne zastosowanie w biznesie.

W roku 2014 dwie niezależne grupy badaczy: z firmy Google oraz z Uniwersytetu w Montrealu zaproponowały systemy tłumaczenia automatycznego oparte na sieciach neuronowych. Od tego momentu odnotowano olbrzymi postęp w jakości translacji automatycznej – poprzez szlifowanie architektury systemu neuronowego.

System Marian

Bardzo istotną rolę w pracach nad rozwojem tłumaczenia neuronowego odegrali badacze z Uniwersytetu im. Adama Mickiewicza w Poznaniu współpracujący z firmą PWN AI. Marcin Junczys-Dowmunt oraz Tomasz Dwojak są głównymi współautorami systemu Marian NMT (marian-nmt.github.io), rozwijanego obecnie przez firmę Microsoft. Jest to otwarta platforma, umożliwiająca stworzenie neuronowego systemu tłumaczenia automatycznego zbudowanego w oparciu o prywatne zasoby językowe.

Co dalej?

Systemy tłumaczenia neuronowego nie osiągnęły jeszcze maksymalnego pułapu swoich możliwości. W najbliższych latach należy spodziewać się kolejnych postępów w tej dziedzinie dzięki dalszej ewolucji architektury sieci neuronowych. Wyższą jakość uzyskiwać będzie się również dzięki adaptacji systemów na potrzeby przekładu tekstów z zakresu wąsko zdefiniowanej specjalności.

Historia tłumaczenia automatycznego w pigułce

Spis treści

Translator<br/><small>zbudowany na sieciach neuronowych</small> Nasz translator