Ładowanie...

Jak ocenić jakość tłumaczenia automatycznego?

Krzysztof Jassem 14 lipca 2020

Jak odpowiedzieć na pytanie, czy system tłumaczenia automatycznego spełnia swoje zadanie, czyli tłumaczy teksty poprawnie, zachowując znaczenie oryginału? Jak porównać jakość dwóch systemów translacji, by wybrać do swych potrzeb ten lepszy? Na te pytania postaram się odpowiedzieć na niniejszym blogu.

Ocena ludzka

Tłumaczenie może zostać ocenione przez człowieka. Stosuje się w takim przypadku pewną z góry zadaną skalę jakości – najczęściej pięciostopniową, na której ocena 5 oznacza jakość najwyższą. Tłumaczenie każdego zdania oceniane jest wtedy oddzielnie. Ostatecznie oblicza się średnią arytmetyczną ocen dla kompletu zdań. Często rozróżnia się przy tej okazji dwie składowe jakości: wierność tłumaczenia w stosunku do oryginału oraz poprawność/płynność tekstu wyjściowego.

Ocena automatyczna WER

Ocena ludzka jest jednak zadaniem pracochłonnym i kosztownym, a do tego ma ona subiektywny charakter. Znacznie tańsza, a przy tym niezależna od nastawienia człowieka, jest natomiast ocena automatyczna. Oceniany przekład porównywany jest z tzw. „złotym wzorcem”, czyli tłumaczeniem idealnym, opracowanym przez specjalistów. W wieku XX popularną miarą takiej oceny był współczynnik błędu WER (ang. Word Error Rate). W mierze tej oblicza się liczbę zmian: wstawienie, usunięcie lub zastąpienie wyrazu, które należy wykonać na zdaniu proponowanym przez system, aby uzyskać „złote” zdanie, a następnie dzieli się ją przez całkowitą liczbę wyrazów tłumaczonego zdania.

Przeanalizujmy powyższą metodę na konkretnym przykładzie:

Zdanie do tłumaczenia: Prawo zaskarżania nie przysługuje byłym członkom zarządu spółki.

„Złote tłumaczenie”: The right to appeal shall not be granted to former members of the management board.

Tłumaczenie proponowane przez system: The right of appeal is not available to former members of the management board.

Aby otrzymać „złote tłumaczenie” na podstawie tłumaczenia zwróconego przez system, trzeba dokonać zastąpienia trzech wyrazów: „of” → „to”, „is” → „be”, „available” → „granted” oraz wstawienia jednego wyrazu („shall”). Długość „złotego tłumaczenia” wynosi 15 wyrazów, a zatem wartość WER dla powyższego tłumaczenia dostarczonego przez system wynosi 4/15. Im wyższa wartość miary WER, tym oczywiście niższa jakość tłumaczenia.

Ocena automatyczna BLEU

Współcześnie najczęściej stosuje się miarę oceny BLEU (ang. Bilingual Evaluation Understudy), zaproponowaną w roku 2002 przez firmę IBM. Jej wartość jest wprost proporcjonalna do jakości tłumaczenia. Miara ta informuje, jaka część tłumaczenia systemu pokrywa się z tzw. „złotym wzorcem”. Na przykład w przedstawionym powyżej przykładzie pokrywają się fragmenty: „The right” oraz „to former members of the management board”, natomiast nie pokrywają się pozostałe elementy tłumaczenia. Wartość metryki BLEU zawiera się zawsze w granicach od 0 do 1 i często podawana jest w punktach procentowych.

Jakość tłumaczenia czołowych systemów na świecie

Poniżej zaprezentowano tabele wyników konkursów na tłumaczenie wiadomości prasowych z warsztatu WMT (Workshop for Machine Translation) z lat 2017 i 2018. Na ich przykładzie zaobserwować można gwałtowny skok jakości systemów na przestrzeni jednego roku.

System Miara BLEU
uedim-nmt37,00
KIT36,48
RWTH-nmt-ensemble35,09
online-A34,97
SYSTRAN34,88
online-B34,37
LIUM-NMT31,75
C-3MA30,64
online-G30,09
TALP-UPC29,95
online-F19,49
Tabela 1: Wyniki konkursu WMT 2017
System Miara BLEU
RWTH50,17
UCAM49,88
NTT48,71
JHU47,57
MLLP-UPV47,51
uedin45,87
Ubiqus-NMT45,57
online-B45,47
online-A43,34
LMU-nmt43,17
online-Y41,69
NJUNMT-private39,72
online-G36,39
online-F23,86
RWTH-UNSUPER20,35
LMU-unsup19,12
Tabela 2: Wyniki konkursu WMT 2018

Tłumaczenie języka polskiego

W roku 2018 grupa badaczy z Uniwersytetu im. Adama Mickiewicza w Poznaniu we współpracy z firmą POLENG (obecnie: PWN AI) przeprowadziła dwa eksperymenty, których celem była ocena jakości tłumaczenia z języka polskiego i na ten język tekstów z określonej dziedziny.

Tłumaczenie specjalistyczne – z szerokiej dziedziny

W przypadku pierwszego eksperymentu dziedzina tłumaczenia określona została w sposób ogólnikowy, a liczba tekstów uczących dostarczonych przez klienta była stosunkowo niewielka. Inżynierowie firmy PWN AI samodzielnie zebrali teksty niezbędne do uzupełnienia zestawu uczącego na potrzeby wytrenowania systemu.

Ostatecznie w zestawie uczącym znalazło się:

  • 60 tys. par zdań dostarczonych przez klienta;
  • 7,2 mln par zdań zebranych przez inżynierów firmy PWN AI.

System wytrenowano w kierunkach: polsko-angielskim oraz angielsko-polskim, a wyniki eksperymentu w punktach procentowych miary BLEU zawiera poniższa tabela:

tłumaczenie polsko-angielskie tłumaczenie angielsko-polskie
35,80 39,90
Tabela 3: Automatyczna ocena tłumaczenia dziedzinowego z językiem polskim

Efekty tłumaczenia poddano ponadto ocenie ludzkiej, w ramach której na skali od 1 do 5 oceniono ok. 500 zdań, biorąc pod uwagę dwa aspekty: wierność przekładu oraz jego poprawność. Uzyskano następujące rezultaty:

aspekt tłumaczenie polsko-angielskie tłumaczenie angielsko-polskie
wierność 4,23 3,90
poprawność 3,94 3.74
Tabela 4. Ludzka ocena tłumaczenia dziedzinowego z językiem polskim

Zauważmy, że automatyczna miara BLEU wyżej oceniła tłumaczenie w kierunku angielsko-polskim, a człowiek – w kierunku odwrotnym. Mogło to wynikać z faktu, że oceny dokonywała osoba narodowości polskiej, która bardziej krytycznie podchodziła do tłumaczeń w języku rodzimym.

Tłumaczenie wysoce specjalistyczne – z wąskiej dziedziny

Drugi z eksperymentów przeprowadzono na zestawie uczącym o rozmiarze 1,2 mln zdań – dostarczonych wyłącznie przez klienta. W ramach powyższego eksperymentu porównano z kolei działanie dwóch translatorów: neuronowego oraz statystycznego dla kierunku angielsko-polskiego. Podobnej oceny dokonano poza tym dla systemu Google Translate, przeznaczonego do tłumaczenia tekstów ogólnych. Celem badania było sprawdzenie, która z metod tłumaczenia zapewnia lepsze efekty w przypadku stosunkowo niewielkiej bazy tekstów trenujących.

Otrzymano następujące wyniki:

system wynik wg metryki BLEU
statystyczny 55,23
neuronowy 51,66
Google Translate 21,37
Tabela 5. Porównanie jakości tłumaczenia specjalistycznego na język polski

Oba systemy wytrenowane na tekstach specjalistycznych zapewniły przeszło dwukrotnie lepszy wynik od rezultatu uzyskanego w przypadku systemu przeznaczonego do tłumaczenia ogólnego. Wyniki osiągnięte w oparciu o niewielki korpus specjalistyczny okazały się ponadto lepsze od rezultatów uzyskanych w poprzednim z opisywanych eksperymentów – na potrzeby którego system wyuczono z zastosowaniem obszerniejszego zestawu uczącego tekstów z szerzej określonej dziedziny.

Zaskakujący był przy okazji fakt uzyskania lepszego wyniku przez system statystyczny w porównaniu z rezultatami działania systemu neuronowego. Wobec powyższego postanowiono przeprowadzić dodatkową ocenę ludzką. W jej ramach dwoje niezależnych weryfikatorów dokonało porównania wyników translacji dostarczonych przez oba systemy – bez świadomości, który z systemów wygenerował poszczególne przekłady. Dla każdej spośród 4 000 par tłumaczeń weryfikator wskazywał zwycięski przekład lub też orzekał remis. W efekcie otrzymano następujące rezultaty:

zwycięzca liczba zdań procentowo
tłumaczenie statystyczne 829 20,73%
tłumaczenie neuronowe 1248 31,20%
remisy 1923 48,08%
Tabela 6. Ludzkie porównanie jakości systemów tłumaczących: statystycznego i neuronowego

Co jest lepsze – tłumaczenie statystyczne czy neuronowe?

W ocenie ludzkiej metoda neuronowa wyraźnie pokonała metodę statystyczną. Okazuje się zatem, że metoda neuronowa daje w ocenie ludzkiej lepsze efekty, niż wskazywałaby na to automatyczna miara BLEU. Ten znany już wcześniej fakt tłumaczony jest specyficzną konstrukcją miary BLEU, która faworyzuje tłumaczenia „poprawne lokalnie”. Tłumaczenie neuronowe nastawione jest natomiast bardziej na analizę powiązań pomiędzy wyrazami od siebie odległymi.

Co dalej?

Jakość tłumaczenia automatycznego cały czas wzrasta. Można więc spodziewać się, że translacja automatyczna będzie zdobywać coraz większą część rynku. Tłumaczenie automatyczne stosowane będzie przede wszystkim do przekładu tekstów dziedzinowych i specjalistycznych. Człowiek pozostanie natomiast niezastąpiony w tłumaczeniu tekstów ogólnych lub różnorodnych. W przypadku tłumaczenia specjalistycznego człowiek koncentrować będzie się raczej na post-edycji tekstów zaproponowanych przez komputer.

Technologią dominującą przynajmniej przez kilka następnych lat pozostanie tłumaczenie neuronowe, a ciągły postęp osiągany będzie dzięki dalszemu rozwojowi architektury sieci neuronowych.

Jak ocenić jakość tłumaczenia automatycznego?