Ładowanie...

Logofag-Multiterm

O projekcie

Klient:pwn.pl - PWN AI - LSP
Zakres prac:Słowniki pozyskiwane automatycznie
Rok wdrożenia:Logofag - 2009, Multiterm - 2012

Logofag oraz Multiterm to słowniki w formie elektronicznej, które zapewniają pokrycie języka w znacznie szerszym zakresie niż słowniki tradycyjne, wydawane w wersjach papierowych. Zawierają one bowiem także słownictwo potoczne oraz zapożyczenia z innych języków, od których aż roi się we współczesnych tekstach. Wyrazów popularnych w tekstach i dialogach internetowych na próżno szukać w słownikach “poprawnej polszczyzny”.

Opis problemu

Na początku XXI wieku zarówno profesjonalni tłumacze, zwykli czytelnicy, jak i autorzy tekstów pisanych w językach innych niż rodzimy, zaczęli coraz mniej chętnie korzystać ze słowników w formie papierowej. Na ten stan rzeczy złożyło się kilka przyczyn: słowniki komputerowe są z reguły tańsze (często bezpłatne), są one częściej aktualizowane, a korzystanie z nich jest wygodniejsze, gdyż pozwala między innymi na kopiowanie i wklejanie całych akapitów do tworzonych prac.

Największym minusem słowników dostępnych bezpłatnie jest ich niska wiarygodność – w przeciwieństwie do renomowanych źródeł Internet nie bierze odpowiedzialności za poprawność tłumaczenia. Użytkownik słowników stoi więc przed dylematem: wygoda i niski koszt czy wiarygodność?

Opis rozwiązania

Naszym celem było stworzenie słowników, które łączyłyby możliwie jak największe pokrycie współczesnego języka z wiarygodnością. Opracowaliśmy mechanizmy, które automatycznie wyszukiwały wyrazy i frazy oraz ich tłumaczenia w wielojęzycznych korpusach tekstów. Aby zapewnić wiarygodność, każde znalezione przez nas tłumaczenie musiało zostać potwierdzone w co najmniej dwóch niezależnych źródłach słownikowych (zauważyliśmy bowiem, że niektóre słowniki są tworzone na zasadzie “kopiuj i wklej” z innych pozycji; źródła takie określiliśmy jako zależne od siebie).

W ten sposób wygenerowaliśmy następujące słowniki o wspólnej nazwie Logofag:

  • Polsko-angielski: ogólny
  • Polsko-angielski: naukowo-techniczny
  • Polsko-angielski: informatyczny
  • Polsko-angielski: prawniczo-biznesowy
  • Polsko-niemiecki: ogólny
  • Polsko-niemiecki: naukowo-techniczny
  • Polsko-francuski: ogólny

Objętość tych słowników była kilkukrotnie większa od objętości słowników tradycyjnych – np. słownik ogólny polsko-angielski zawierał ok. 540 tys. par tłumaczeń, podczas gdy jego tradycyjny odpowiednik – jedynie ok. 200 tys. (w tym 74 tys. wyrazów i ok. 125 tys. fraz).

Słowniki Logofag wydawane były na płytach CD przez Wydawnictwo PWN (pwn.pl) i sprzedawane w sklepach multimedialnych. Ponadto stanowiły one bazę słownikową systemu tłumaczenia Translatica (translatica.pl), tworzonego przez naszą firmę (działającą wcześniej pod nazwą Poleng).

W roku 2012, w porozumieniu z dystrybutorem oprogramowania SDL Trados – firmą SDL plc, skonwertowaliśmy nasze słowniki do formatu Multiterm. Po ich integracji z programem SDL Trados stały się one nieodzowną pomocą dla tłumaczy i biur tłumaczeń, wspierając jednocześnie największe platformy tłumaczenia automatycznego opartego o neuronowe metody uczenia maszynowego (m.in. Google Translate).

Korzyści

  • możliwość korzystania przez użytkowników indywidualnych z wiarygodnych, wygodnych w obsłudze elektronicznych słowników o bardzo dużej liczbie haseł
  • wzbogacenie oprogramowania wspomagającego biura tłumaczeń o słowniki ogólne i specjalistyczne
  • poprawienie jakości tłumaczenia oferowanej przez translatory automatyczne korzystające ze słowników
  • aktualizacja słowników poprzez wprowadzenie do nich współczesnych pojęć i ich znaczeń

Byliśmy na polskim rynku prekursorami nowej ery słowników dwujęzycznych – wiarygodnych leksykonów elektronicznych o niespotykanych wcześniej objętościach. Może i dla Ciebie stworzymy rozwiązanie pionierskie? Porozmawiajmy o tym.

Logofag-Multiterm

Technologie

  • HunAlign - otwarte narzędzie do dopasowywania wyrazów w korpusach dwujęzycznych
  • Arena - autorska baza danych przechowująca wielojęzyczne wersje wyrazów i fraz