Programiści z Afryki chcą wypełnić lukę w sztucznej inteligencji

Na mój język nie jest możliwe nawet tłumaczenie maszynowe – skarży się Mekdes Gebrewold, założyciel firmy konsultingowej Ashagari w stolicy Etiopii Addis Abebie. – Narzędzia takie jak Google Tłumacz nie są dobrze dostosowane do języka amharskiego. Dlatego za najprostsze tłumaczenia musimy płacić ciężkie pieniądze profesjonalnym tłumaczom – dodaje.

Podobnie jak Mekdes Gebrewold, miliardy ludzi na Ziemi nie mogą korzystać z narzędzi opartych na SI, ponieważ nie obsługują one ich języka. Nie dotyczy to tylko generatywnej sztucznej inteligencji, jaką jest ChatGPT, czy usług tłumaczeniowych oferowanych przez Google Tłumacz. Chodzi tu przede wszystkim o narzędzia powszechnie używane w dzisiejszych czasach, takie jak autouzupełnianie, transkrypcja, asystent mowy czy system moderacji w mediach społecznościowych.

Powszechna dominacja języka angielskiego

Dostępne obecnie narzędzia SI to w zasadzie nic innego jak narzędzia autouzupełniania, które na podstawie wprowadzonych do nich danych przewidują najbardziej prawdopodobny rezultat. Przewidywania te opierają się na ogromnych ilościach tzw. danych szkoleniowych, czyli cyfrowych zbiorach treści, które wykorzystują inżynierowie SI do tworzenia swoich modeli.

Głównym źródłem danych szkoleniowych jest tzw. Common Crawl, czyli ogólnodostępna baza danych, która przechowuje miliardy stron internetowych. Około 60 proc. informacji wykorzystanych przy tworzeniu wersji 3.5 ChatuGPT pochodziło właśnie z tej bazy.

Dlatego narzędzia SI nie sprawdzają się w przypadku języków, w których nie są zapisane żadne dane. Jest to duży problem, ponieważ w internecie silnie dominuje zaledwie kilka języków. Nie powinien zatem dziwić fakt, że prawie połowa wszystkich zarchiwizowanych stron internetowych w Common Crawl jest w języku angielskim.

Języki bez cyfrowej bazy danych

Język narodowy Etiopii, amharski, wraz z innymi językami afrykańskimi, amerykańskimi i oceanicznymi, stanowi mniej niż 0,1 proc. zbioru danych w Common Crawl. Takie języki to „low-resource languages”, czyli języki o niskich zasobach, dla których dostępnych jest niewiele danych cyfrowych.

Do języków o niskich zasobach zaliczają się nawet hindi, arabski i bengalski, czyli języki, którymi posługują się miliardy ludzi na naszej planecie. Wyraźnie widać, że zostały one pozostawione daleko w tyle przez rozwój technologiczny. A faktem jest, że języki europejskie (nawet takie, którymi posługuje się niewielu ludzi) są znacznie lepiej reprezentowane w świecie cyfrowym niż większość języków azjatyckich i afrykańskich.

Na przykład niderlandzki, który jest językiem ojczystym dla nieco ponad 20 mln ludzi. Mniej więcej tylu rodzimych użytkowników ma również język amharski. Jednak treści w języku niderlandzkim jest prawie 700 razy więcej niż w języku amharskim. Nawet treści w języku hindi, który ma ponad 300 mln rodzimych mówców, jest zdecydowanie mniej.

Na szczęście istnieją sposoby na obejście problemu braku danych. Specjaliści od uczenia maszynowego (czyli algorytmów SI) z całego świata współpracują z gigantami z Doliny Krzemowej właśnie po to, aby stworzyć narzędzia oparte na SI dla wszystkich języków na świecie.

Jak pokonać bariery językowe SI?

Asmelash Teka Hadgu jest jednym z twórców strony internetowej Lesan.ai – startupu opracowującego tłumaczenia maszynowe i technologię językową dla dwóch języków etiopskich: amharskiego i tigrinia. Jego zespół nie ma dostępu do dużej ilości zasobów w sieci, za to współpracuje bezpośrednio ze społecznością, by znaleźć kreatywne sposoby gromadzenia danych.

– Współpracujemy głównie ze studentami, którzy po prostu kochają swój język – wyjaśnia. – Kiedy mówimy im, że chcemy ten projekt rozwijać, sami czują się zainspirowani i chcą się do tego rozwoju przyczynić. Dlatego wyznaczamy im zadania, polegające na gromadzeniu treści w naszym języku. Wspieramy ich i nagradzamy finansowo – dodaje.

To wymaga dużo ciężkiej pracy. W pierwszej kolejności identyfikowane są wartościowe zbiory danych językowych, przykładowo wiarygodne książki czy gazety. Następnie są one digitalizowane i tłumaczone na języki docelowe. Na koniec oryginał i tłumaczenie porównuje się zdanie po zdaniu na potrzeby procesu uczenia maszynowego.

Projekty takie jak Lesan z trudem nadążają za miliardami stron treści w języku angielskim, ale być może niedługo nie będą już musiały tego robić. W przypadku języków amharskiego i tigrinia Lesan.ai radzi sobie teraz dużo lepiej niż Google Tłumacz.

Globalna baza danych Ethnologue

– Pokazaliśmy, że możliwe jest budowanie użytecznych modeli za pomocą niewielkich, starannie dobranych zasobów danych – mówi Asmelash Teka Hadgu. –Zdajemy sobie sprawę z naszych możliwości i ograniczeń. Microsoft czy Google zazwyczaj tworzą jeden ogromny model dla wszystkich języków, który trudno zweryfikować.

Projekty podobne do Lesan.ai są sukcesywnie wdrażane na całym świecie, nawet w przypadku języków, które praktycznie nie istnieją w świecie cyfrowym. Globalna baza danych Ethnologue prowadzona przez pozarządową organizację chrześcijańską SIL International bada i opisuje nawet najrzadsze języki świata. Amharski jest tam zaliczany do języków, które cieszą się „żywym” wsparciem.

Sieć pionierów

Asmelash Teka Hadgu jest częścią sieci afrykańskich pionierów SI. Jest pracownikiem naukowym w Distributed AI Research Institute (DAIR), w grupie badaczy z Afryki, Europy i Ameryki Północnej. Utrzymuje także stały kontakt z takimi grupami, jak GhanaNLP i afrykańskim kolektywem Masakhane.

Również naukowcy spoza Afryki pracują nad narzędziami wspieranymi przez SI, na przykład dla języka jamajskiego (zwanego lokalnie Patois), katalońskiego, dla języków sudańskich czy maoryskich. Podczas gdy giganci technologiczni, tacy jak OpenAI od ChatuGPT, czynią swoje modele tajnymi i nieprzejrzystymi, inicjatywy, takie jak globalny kolektyw Hugging Face bezpłatnie dzielą się swoimi doświadczeniami i modelami SI. Ułatwia to innym programistom opracowywanie rozwiązań dla swoich języków.

– Talent jest wszędzie, tylko możliwości nie – mówi Asmelash Teka Hadgu. – Na przykład, jeśli ktoś będzie chciał opracować najlepszą technologię tłumaczenia maszynowego dla języków ghańskich, na pewno znajdzie się jakiś Ghańczyk, który będzie się tym pasjonował i będzie w tym dobry. Pomóżmy mu w znalezieniu zasobów, aby mógł osiągnąć swój cel.

Źródło: Deutsche Welle

Programiści z Afryki chcą wypełnić lukę w sztucznej inteligencji

Powszechna dominacja języka angielskiego

Języki bez cyfrowej bazy danych

Jak pokonać bariery językowe SI?

Globalna baza danych Ethnologue

Sieć pionierów

INNE Z TEJ KATEGORII

INNE TEGO AUTORA