fbpx
środa, 8 maja, 2024
Strona głównaInnowacjeProgramiści z Afryki chcą wypełnić lukę w sztucznej inteligencji

Programiści z Afryki chcą wypełnić lukę w sztucznej inteligencji

Dla miliardów ludzi na południowej półkuli ziemskiej, którzy nie mówią żadnym międzynarodowym językiem, narzędzia sztucznej inteligencji (SI), takie jak ChatGPT i Google Tłumacz są bezużyteczne. Naukowcy i start-upy w Afryce i innych częściach świata chcą to zmienić.

Na mój język nie jest możliwe nawet tłumaczenie maszynowe – skarży się Mekdes Gebrewold, założyciel firmy konsultingowej Ashagari w stolicy Etiopii Addis Abebie. – Narzędzia takie jak Google Tłumacz nie są dobrze dostosowane do języka amharskiego. Dlatego za najprostsze tłumaczenia musimy płacić ciężkie pieniądze profesjonalnym tłumaczom – dodaje.

Podobnie jak Mekdes Gebrewold, miliardy ludzi na Ziemi nie mogą korzystać z narzędzi opartych na SI, ponieważ nie obsługują one ich języka. Nie dotyczy to tylko generatywnej sztucznej inteligencji, jaką jest ChatGPT, czy usług tłumaczeniowych oferowanych przez Google Tłumacz. Chodzi tu przede wszystkim o narzędzia powszechnie używane w dzisiejszych czasach, takie jak autouzupełnianie, transkrypcja, asystent mowy czy system moderacji w mediach społecznościowych.

Powszechna dominacja języka angielskiego

Dostępne obecnie narzędzia SI to w zasadzie nic innego jak narzędzia autouzupełniania, które na podstawie wprowadzonych do nich danych przewidują najbardziej prawdopodobny rezultat. Przewidywania te opierają się na ogromnych ilościach tzw. danych szkoleniowych, czyli cyfrowych zbiorach treści, które wykorzystują inżynierowie SI do tworzenia swoich modeli.

Głównym źródłem danych szkoleniowych jest tzw. Common Crawl, czyli ogólnodostępna baza danych, która przechowuje miliardy stron internetowych. Około 60 proc. informacji wykorzystanych przy tworzeniu wersji 3.5 ChatuGPT pochodziło właśnie z tej bazy.

Dlatego narzędzia SI nie sprawdzają się w przypadku języków, w których nie są zapisane żadne dane. Jest to duży problem, ponieważ w internecie silnie dominuje zaledwie kilka języków. Nie powinien zatem dziwić fakt, że prawie połowa wszystkich zarchiwizowanych stron internetowych w Common Crawl jest w języku angielskim.

Języki bez cyfrowej bazy danych

Język narodowy Etiopii, amharski, wraz z innymi językami afrykańskimi, amerykańskimi i oceanicznymi, stanowi mniej niż 0,1 proc. zbioru danych w Common Crawl. Takie języki to „low-resource languages”, czyli języki o niskich zasobach, dla których dostępnych jest niewiele danych cyfrowych.

Do języków o niskich zasobach zaliczają się nawet hindi, arabski i bengalski, czyli języki, którymi posługują się miliardy ludzi na naszej planecie. Wyraźnie widać, że zostały one pozostawione daleko w tyle przez rozwój technologiczny. A faktem jest, że języki europejskie (nawet takie, którymi posługuje się niewielu ludzi) są znacznie lepiej reprezentowane w świecie cyfrowym niż większość języków azjatyckich i afrykańskich.

Na przykład niderlandzki, który jest językiem ojczystym dla nieco ponad 20 mln ludzi. Mniej więcej tylu rodzimych użytkowników ma również język amharski. Jednak treści w języku niderlandzkim jest prawie 700 razy więcej niż w języku amharskim. Nawet treści w języku hindi, który ma ponad 300 mln rodzimych mówców, jest zdecydowanie mniej.

Na szczęście istnieją sposoby na obejście problemu braku danych. Specjaliści od uczenia maszynowego (czyli algorytmów SI) z całego świata współpracują z gigantami z Doliny Krzemowej właśnie po to, aby stworzyć narzędzia oparte na SI dla wszystkich języków na świecie.

Jak pokonać bariery językowe SI?

Asmelash Teka Hadgu jest jednym z twórców strony internetowej Lesan.ai – startupu opracowującego tłumaczenia maszynowe i technologię językową dla dwóch języków etiopskich: amharskiego i tigrinia. Jego zespół nie ma dostępu do dużej ilości zasobów w sieci, za to współpracuje bezpośrednio ze społecznością, by znaleźć kreatywne sposoby gromadzenia danych.

– Współpracujemy głównie ze studentami, którzy po prostu kochają swój język –  wyjaśnia. – Kiedy mówimy im, że chcemy ten projekt rozwijać, sami czują się zainspirowani i chcą się do tego rozwoju przyczynić. Dlatego wyznaczamy im zadania, polegające na gromadzeniu treści w naszym języku. Wspieramy ich i nagradzamy finansowo – dodaje.

To wymaga dużo ciężkiej pracy. W pierwszej kolejności identyfikowane są wartościowe zbiory danych językowych, przykładowo wiarygodne książki czy gazety. Następnie są one digitalizowane i tłumaczone na języki docelowe. Na koniec oryginał i tłumaczenie porównuje się zdanie po zdaniu na potrzeby procesu uczenia maszynowego.

Projekty takie jak Lesan z trudem nadążają za miliardami stron treści w języku angielskim, ale być może niedługo nie będą już musiały tego robić. W przypadku języków amharskiego i tigrinia Lesan.ai radzi sobie teraz dużo lepiej niż Google Tłumacz.

Globalna baza danych Ethnologue

– Pokazaliśmy, że możliwe jest budowanie użytecznych modeli za pomocą niewielkich, starannie dobranych zasobów danych – mówi Asmelash Teka Hadgu. –Zdajemy sobie sprawę z naszych możliwości i ograniczeń. Microsoft czy Google zazwyczaj tworzą jeden ogromny model dla wszystkich języków, który trudno zweryfikować.

Projekty podobne do Lesan.ai są sukcesywnie wdrażane na całym świecie, nawet w przypadku języków, które praktycznie nie istnieją w świecie cyfrowym. Globalna baza danych Ethnologue prowadzona przez pozarządową organizację chrześcijańską SIL International bada i opisuje nawet najrzadsze języki świata. Amharski jest tam zaliczany do języków, które cieszą się „żywym” wsparciem.

Sieć pionierów

Asmelash Teka Hadgu jest częścią sieci afrykańskich pionierów SI. Jest pracownikiem naukowym w Distributed AI Research Institute (DAIR), w grupie badaczy z Afryki, Europy i Ameryki Północnej. Utrzymuje także stały kontakt z takimi grupami, jak GhanaNLP i afrykańskim kolektywem Masakhane.

Również naukowcy spoza Afryki pracują nad narzędziami wspieranymi przez SI, na przykład dla języka jamajskiego (zwanego lokalnie Patois), katalońskiego, dla języków sudańskich czy maoryskich. Podczas gdy giganci technologiczni, tacy jak OpenAI od ChatuGPT, czynią swoje modele tajnymi i nieprzejrzystymi, inicjatywy, takie jak globalny kolektyw Hugging Face bezpłatnie dzielą się swoimi doświadczeniami i modelami SI. Ułatwia to innym programistom opracowywanie rozwiązań dla swoich języków.

– Talent jest wszędzie, tylko możliwości nie – mówi Asmelash Teka Hadgu. – Na przykład, jeśli ktoś będzie chciał opracować najlepszą technologię tłumaczenia maszynowego dla języków ghańskich, na pewno znajdzie się jakiś Ghańczyk, który będzie się tym pasjonował i będzie w tym dobry. Pomóżmy mu w znalezieniu zasobów, aby mógł osiągnąć swój cel.

Źródło: Deutsche Welle

Julia Budka
Julia Budka
Studentka Wydziału Lingwistyki Stosowanej na Uniwersytecie Warszawskim. W przyszłości tłumacz przysięgły jęz. angielskiego i niemieckiego. Kibic reprezentacji Polski w siatkówkę i piłkę nożną. W wolnych chwilach chętnie sięga po kryminały i powieści historyczne.

INNE Z TEJ KATEGORII

Sygnalizacja świetlna oparta na sztucznej inteligencji nie działa. Co poszło nie tak?

W mieście Hamm w Nadrenii Północnej-Westfalii sztuczna inteligencja (SI) miała pomagać w regulacji ruchu drogowego. W tym celu na jednym z tamtejszych przejść dla pieszych zamontowano sygnalizację świetlną opartą na sztucznej inteligencji. Kierowcy jednak skarżą się, że stale wyświetlane jest dla nich światło czerwone. Co poszło nie tak z tym flagowym projektem?
5 MIN CZYTANIA

Przed nami Nowa Era?

Są wynalazki i przełomy, które zmieniają oblicze cywilizacji. Takim było wynalezienia koła, druku czy maszyny parowej. Dziś mówimy o przełomie związanym ze sztuczną inteligencją. Pytanie, jak bardzo zmieni ona nasz świat? Niektórzy mówią o Nowej Erze Sztucznej Inteligencji, która nastąpi – a w zasadzie już następuje – po Erze Wiary i Erze Rozumu.
5 MIN CZYTANIA

Jesteś „pod wpływem”? Nie ruszysz autem

Amerykańska Krajowa Administracja ds. Bezpieczeństwa Ruchu Drogowego (NHTSA) chce wykonać zalecenie Kongresu, by wszystkie nowe auta miały zainstalowaną technologię uniemożliwiającą prowadzenie pod wpływem alkoholu.
< 1 MIN CZYTANIA

INNE TEGO AUTORA

Sygnalizacja świetlna oparta na sztucznej inteligencji nie działa. Co poszło nie tak?

W mieście Hamm w Nadrenii Północnej-Westfalii sztuczna inteligencja (SI) miała pomagać w regulacji ruchu drogowego. W tym celu na jednym z tamtejszych przejść dla pieszych zamontowano sygnalizację świetlną opartą na sztucznej inteligencji. Kierowcy jednak skarżą się, że stale wyświetlane jest dla nich światło czerwone. Co poszło nie tak z tym flagowym projektem?
5 MIN CZYTANIA

Ekonomiczne i społeczne skutki polityki klimatycznej w Niemczech

W ostatnich latach ceny energii elektrycznej, ogrzewania i żywności w Niemczech znacznie wzrosły. Najpierw kryzys związany z koronawirusem zakłócił łańcuchy dostaw, następnie wojna na Ukrainie doprowadziła do kryzysu energetycznego. Natomiast to coraz drastyczniejsze środki podejmowane przez niemiecki rząd w celu „ochrony klimatu” są obecnie głównym czynnikiem wzrostu cen.
4 MIN CZYTANIA

Mieszkańcy niemieckich miast żegnają się z gazem ziemnym

Największe niemieckie miasta muszą do 2026 r. przedstawić nowy plan ogrzewania budynków. Gaz ziemny, uważany w Niemczech za „szkodliwy dla planety”, będzie musiał ustąpić miejsca energii geotermalnej lub pompom ciepła.
4 MIN CZYTANIA