fbpx
poniedziałek, 11 grudnia, 2023
Strona głównaInnowacjeProgramiści z Afryki chcą wypełnić lukę w sztucznej inteligencji

Programiści z Afryki chcą wypełnić lukę w sztucznej inteligencji

Dla miliardów ludzi na południowej półkuli ziemskiej, którzy nie mówią żadnym międzynarodowym językiem, narzędzia sztucznej inteligencji (SI), takie jak ChatGPT i Google Tłumacz są bezużyteczne. Naukowcy i start-upy w Afryce i innych częściach świata chcą to zmienić.

Na mój język nie jest możliwe nawet tłumaczenie maszynowe – skarży się Mekdes Gebrewold, założyciel firmy konsultingowej Ashagari w stolicy Etiopii Addis Abebie. – Narzędzia takie jak Google Tłumacz nie są dobrze dostosowane do języka amharskiego. Dlatego za najprostsze tłumaczenia musimy płacić ciężkie pieniądze profesjonalnym tłumaczom – dodaje.

Podobnie jak Mekdes Gebrewold, miliardy ludzi na Ziemi nie mogą korzystać z narzędzi opartych na SI, ponieważ nie obsługują one ich języka. Nie dotyczy to tylko generatywnej sztucznej inteligencji, jaką jest ChatGPT, czy usług tłumaczeniowych oferowanych przez Google Tłumacz. Chodzi tu przede wszystkim o narzędzia powszechnie używane w dzisiejszych czasach, takie jak autouzupełnianie, transkrypcja, asystent mowy czy system moderacji w mediach społecznościowych.

Powszechna dominacja języka angielskiego

Dostępne obecnie narzędzia SI to w zasadzie nic innego jak narzędzia autouzupełniania, które na podstawie wprowadzonych do nich danych przewidują najbardziej prawdopodobny rezultat. Przewidywania te opierają się na ogromnych ilościach tzw. danych szkoleniowych, czyli cyfrowych zbiorach treści, które wykorzystują inżynierowie SI do tworzenia swoich modeli.

Głównym źródłem danych szkoleniowych jest tzw. Common Crawl, czyli ogólnodostępna baza danych, która przechowuje miliardy stron internetowych. Około 60 proc. informacji wykorzystanych przy tworzeniu wersji 3.5 ChatuGPT pochodziło właśnie z tej bazy.

Dlatego narzędzia SI nie sprawdzają się w przypadku języków, w których nie są zapisane żadne dane. Jest to duży problem, ponieważ w internecie silnie dominuje zaledwie kilka języków. Nie powinien zatem dziwić fakt, że prawie połowa wszystkich zarchiwizowanych stron internetowych w Common Crawl jest w języku angielskim.

Języki bez cyfrowej bazy danych

Język narodowy Etiopii, amharski, wraz z innymi językami afrykańskimi, amerykańskimi i oceanicznymi, stanowi mniej niż 0,1 proc. zbioru danych w Common Crawl. Takie języki to „low-resource languages”, czyli języki o niskich zasobach, dla których dostępnych jest niewiele danych cyfrowych.

Do języków o niskich zasobach zaliczają się nawet hindi, arabski i bengalski, czyli języki, którymi posługują się miliardy ludzi na naszej planecie. Wyraźnie widać, że zostały one pozostawione daleko w tyle przez rozwój technologiczny. A faktem jest, że języki europejskie (nawet takie, którymi posługuje się niewielu ludzi) są znacznie lepiej reprezentowane w świecie cyfrowym niż większość języków azjatyckich i afrykańskich.

Na przykład niderlandzki, który jest językiem ojczystym dla nieco ponad 20 mln ludzi. Mniej więcej tylu rodzimych użytkowników ma również język amharski. Jednak treści w języku niderlandzkim jest prawie 700 razy więcej niż w języku amharskim. Nawet treści w języku hindi, który ma ponad 300 mln rodzimych mówców, jest zdecydowanie mniej.

Na szczęście istnieją sposoby na obejście problemu braku danych. Specjaliści od uczenia maszynowego (czyli algorytmów SI) z całego świata współpracują z gigantami z Doliny Krzemowej właśnie po to, aby stworzyć narzędzia oparte na SI dla wszystkich języków na świecie.

Jak pokonać bariery językowe SI?

Asmelash Teka Hadgu jest jednym z twórców strony internetowej Lesan.ai – startupu opracowującego tłumaczenia maszynowe i technologię językową dla dwóch języków etiopskich: amharskiego i tigrinia. Jego zespół nie ma dostępu do dużej ilości zasobów w sieci, za to współpracuje bezpośrednio ze społecznością, by znaleźć kreatywne sposoby gromadzenia danych.

– Współpracujemy głównie ze studentami, którzy po prostu kochają swój język –  wyjaśnia. – Kiedy mówimy im, że chcemy ten projekt rozwijać, sami czują się zainspirowani i chcą się do tego rozwoju przyczynić. Dlatego wyznaczamy im zadania, polegające na gromadzeniu treści w naszym języku. Wspieramy ich i nagradzamy finansowo – dodaje.

To wymaga dużo ciężkiej pracy. W pierwszej kolejności identyfikowane są wartościowe zbiory danych językowych, przykładowo wiarygodne książki czy gazety. Następnie są one digitalizowane i tłumaczone na języki docelowe. Na koniec oryginał i tłumaczenie porównuje się zdanie po zdaniu na potrzeby procesu uczenia maszynowego.

Projekty takie jak Lesan z trudem nadążają za miliardami stron treści w języku angielskim, ale być może niedługo nie będą już musiały tego robić. W przypadku języków amharskiego i tigrinia Lesan.ai radzi sobie teraz dużo lepiej niż Google Tłumacz.

Globalna baza danych Ethnologue

– Pokazaliśmy, że możliwe jest budowanie użytecznych modeli za pomocą niewielkich, starannie dobranych zasobów danych – mówi Asmelash Teka Hadgu. –Zdajemy sobie sprawę z naszych możliwości i ograniczeń. Microsoft czy Google zazwyczaj tworzą jeden ogromny model dla wszystkich języków, który trudno zweryfikować.

Projekty podobne do Lesan.ai są sukcesywnie wdrażane na całym świecie, nawet w przypadku języków, które praktycznie nie istnieją w świecie cyfrowym. Globalna baza danych Ethnologue prowadzona przez pozarządową organizację chrześcijańską SIL International bada i opisuje nawet najrzadsze języki świata. Amharski jest tam zaliczany do języków, które cieszą się „żywym” wsparciem.

Sieć pionierów

Asmelash Teka Hadgu jest częścią sieci afrykańskich pionierów SI. Jest pracownikiem naukowym w Distributed AI Research Institute (DAIR), w grupie badaczy z Afryki, Europy i Ameryki Północnej. Utrzymuje także stały kontakt z takimi grupami, jak GhanaNLP i afrykańskim kolektywem Masakhane.

Również naukowcy spoza Afryki pracują nad narzędziami wspieranymi przez SI, na przykład dla języka jamajskiego (zwanego lokalnie Patois), katalońskiego, dla języków sudańskich czy maoryskich. Podczas gdy giganci technologiczni, tacy jak OpenAI od ChatuGPT, czynią swoje modele tajnymi i nieprzejrzystymi, inicjatywy, takie jak globalny kolektyw Hugging Face bezpłatnie dzielą się swoimi doświadczeniami i modelami SI. Ułatwia to innym programistom opracowywanie rozwiązań dla swoich języków.

– Talent jest wszędzie, tylko możliwości nie – mówi Asmelash Teka Hadgu. – Na przykład, jeśli ktoś będzie chciał opracować najlepszą technologię tłumaczenia maszynowego dla języków ghańskich, na pewno znajdzie się jakiś Ghańczyk, który będzie się tym pasjonował i będzie w tym dobry. Pomóżmy mu w znalezieniu zasobów, aby mógł osiągnąć swój cel.

Źródło: Deutsche Welle

Julia Budka
Julia Budka
Studentka Wydziału Lingwistyki Stosowanej na Uniwersytecie Warszawskim. W przyszłości tłumacz przysięgły jęz. angielskiego i niemieckiego. Kibic reprezentacji Polski w siatkówkę i piłkę nożną. W wolnych chwilach chętnie sięga po kryminały i powieści historyczne.

INNE Z TEJ KATEGORII

Przedsiębiorca powinien określić, jakich korzyści spodziewa się po sztucznej inteligencji

Sztuczna inteligencja nie jest już tylko w kręgu zainteresowania dużych przedsiębiorców, ale coraz częściej także małych i średniej wielkości firm.
2 MIN CZYTANIA

Unijny wymóg dobije fabryki i warsztaty w Polsce?

Już za dekadę wszystkie nowe auta sprzedawane w Unii Europejskiej będą musiały być zeroemisyjne. To oznacza problemy dla branży motoryzacyjnej w Polsce.
2 MIN CZYTANIA

Robotyzacja szansą dla polskiego rolnictwa?

Polskie gospodarstwa rolne borykają się z brakiem rąk do pracy, a jedną z szans na rozwiązanie tego problemu mogą być większe inwestycje w robotyzację.
2 MIN CZYTANIA

INNE TEGO AUTORA

Powrót Niemiec do energetyki jądrowej: czy to w ogóle możliwe?

Na niedawnej konferencji klimatycznej 22 kraje ogłosiły, że będą dalej rozwijać energetykę jądrową. W Niemczech dwie partie polityczne – Unia Chrześcijańsko-Demokratyczna (CDU) i Wolna Partia Demokratyczna (FDP) wzywają do ponownego uruchomienia sześciu niepracujących już reaktorów. Czy po takim czasie da się to zrobić?
3 MIN CZYTANIA

Czy komputery „ogłupiają” dzieci?

Według kilkudziesięciu niemieckich naukowców komputery mają negatywny wpływ na rozwój dzieci. W tej sprawie złożona już została petycja przeciw digitalizacji w tamtejszych szkołach.
4 MIN CZYTANIA

Ciało niebieskie, na którym pada piasek

Po raz pierwszy naukowcy wykorzystali teleskop Jamesa Webba do dokładnego zbadania atmosfery egzoplanety. Odkryli pewne podobieństwa do Ziemi, a także coś, co na pierwszy rzut oka może przypominać krople deszczu lecące z nieba w ogromnym upale. Choć krople te nie składają się z wody, lecz z piasku.
3 MIN CZYTANIA