Sztuczna inteligencja pomoże w odczytaniu zapisów z zapomnianych językach?

Napisy, które nigdy dotąd nie zostały rozszyfrowane, mogą stać się zrozumiałe dzięki maszynowemu tłumaczeniu – informuje „MIT Technology Review”. Takie tłumaczenie, inaczej nazywane automatycznym, należy do dziedziny językoznawstwa komputerowego, która zajmuje się stosowaniem algorytmów tłumaczenia tekstu z jednego języka naturalnego na drugi.

W 1886 roku brytyjski archeolog Arthur Evans natknął się na pochodzący ze starożytnej Krety kamień z napisami w nieznanym języku. Prowadząc badania na miejscu, odkrył liczne kamienie i tabliczki z podobnymi napisami, które datował na 1400 lat p.n.e. Była to jedna z najwcześniejszych form pisma, jakie odkryto.

Późniejsze badania pozwoliły ustalić, że znaki na kamieniach i tabliczkach należą do dwóch różnych odmian pisma. Starsza to pismo linearne A z lat 1800–1400 p.n.e., gdy wyspa była zdominowana przez cywilizację minojską z epoki brązu. Nowsze pismo linearne B pojawiło się dopiero po 1400 r. p.n.e., gdy wyspa została podbita przez Mykeńczyków.

Dopiero w roku 1953 lingwista–amator Michael Ventris rozszyfrował pismo linearne B. Udało mu się, bo trafnie założył, że wiele powtarzających się słów piśmie linearnym B to nazwy miejsc na Krecie, oraz że chodzi o tekst w języku starogreckim. Jednak w przypadku pisma linearnego A wszelkie wysiłki okazywały się daremne.

Być może sytuację zmienią ostatnie postępy w tłumaczeniu maszynowym. Jiaming Luo i Regina Barzilay z MIT oraz Yuan Cao z laboratorium Google AI w Mountain View w Kalifornii twierdzą, że opracowali system uczenia maszynowego, zdolny do rozszyfrowania utraconych języków.

Jego skuteczność zademonstrowano automatycznie odczytując pismo linearne B – co udało się po raz pierwszy. Zastosowana metoda radykalnie różni się od standardowych technik tłumaczenia maszynowego. Główną ideą tłumaczeń maszynowych jest założenie, że słowa są ze sobą powiązane w podobny sposób, bez względu na język.

Najpierw konieczne jest mapowanie tych relacji dla konkretnego języka, co wymaga ogromnych baz danych tekstowych. Następnie maszyna przeszukuje teksty, aby zobaczyć, jak często każde słowo pojawia się obok każdego innego słowa. Ten wzór definiuje słowo w wielowymiarowej przestrzeni parametrów. Słowo może być traktowane jako wektor w tej przestrzeni. Owe wektory podlegają prostym regułom matematycznym. Na przykład: król – mężczyzna + kobieta = królowa. Zdanie może być postrzegane jako zestaw wektorów, które następują jeden po drugim, tworząc rodzaj trajektorii w przestrzeni.

Kluczowym zagadnieniem umożliwiającym tłumaczenie maszynowe jest to, że słowa w różnych językach zajmują te same punkty w odpowiednich przestrzeniach parametrów. Umożliwia to mapowanie całego języka na inny język. W ten sposób proces tłumaczenia zdań staje się procesem znajdowania podobnych trajektorii w przestrzeni. Maszyna nie musi „wiedzieć”, co oznaczają zdania. Proces ten zależy przede wszystkim od dużych zbiorów danych.

Jednak kilka lat temu niemiecki zespół naukowców wykazał, że podobne podejście z dużo mniejszymi bazami danych może pomóc w tłumaczeniu znacznie rzadszych języków, którym brakuje dużych baz danych tekstowych.

Luo i jego współpracownicy posunęli się dalej, demonstrując, w jaki sposób tłumaczenie maszynowe pozwala odszyfrować całkowicie utracone języki. Ograniczenia, które wykorzystują, mają związek ze sposobem, w jaki języki ewoluują w czasie. Chodzi o to, że każdy język może się zmienić tylko w określony sposób – na przykład symbole w językach pokrewnych pojawiają się z podobnymi rozkładami, powiązane słowa mają tę samą kolejność znaków i tak dalej.

Luo i jego zespół wypróbowali nową technikę na przykładzie dwóch martwych języków – pisma linearnego B oraz ugaryckiego.

Lingwiści wiedzą, że pismo linearne B koduje wczesną wersję starożytnej greki, a ugarycki, który został odkryty w 1929 roku, odpowiada wczesnej formie języka hebrajskiego. Biorąc pod uwagę informacje i ograniczenia narzucone przez ewolucję językową, maszyna Luo jest w stanie przetłumaczyć oba języki z niezwykłą dokładnością.

„Udało nam się poprawnie przetłumaczyć 67,3 proc. linearnego B na ich greckie odpowiedniki – powiedział Luo. – Zgodnie z naszą najlepszą wiedzą nasz eksperyment jest pierwszą próbą automatycznego rozszyfrowania linearnego B”.

Luo nie wspomina o piśmie linearnym A, ale każdemu lingwiście właśnie ono przychodzi na myśl. Wciąż nie wiadomo, w jakim języku zapisano teksty w linearnym A. Próby ze starogreckim nie przyniosły wyników. Jednak maszynowe tłumaczenie pozwala próbować języka za językiem aż do skutku (metoda brute force) – komputer się nie męczy.

/Nauka w Polsce – PAP/