Bidraget af African Languages Lab
Afrikanske sprog udgør næsten en tredjedel af alle sprog på verdensplan. Men af de mere end 2.000 sprog, der tales på tværs af kontinentet, er kun 49 tilgængelige på oversættelsesplatforme som Google Translate. Endnu værre er imponerende 88 % af de afrikanske sprog "alvorligt underrepræsenteret" eller "fuldstændig ignoreret" i computerlingvistik (Joshi et al., 2020).
Kunstig intelligens (AI) giver mulighed for at beskytte underrepræsenterede sprog, men vejledning og sikkerhedsforanstaltninger er afgørende. Uden dem risikerer store sprogmodeller (LLM'er) at styrke institutionelle sprog og fremskynde andres tilbagegang. Konsekvenserne er forfærdelige - 40 % af sprogene globalt er i risiko for at uddø, hvoraf hundredvis tales i Afrika. (UNESCO, 2022).
African Languages Lab (All Lab) er et ungdomsledet samarbejde, der er forpligtet til at bevare afrikanske sprog ved at dokumentere, digitalisere, oversætte og styrke dem gennem avancerede AI og naturlige sprogbehandlingssystemer (NLP). Sammen med partnere som Smartling gør vi væsentlige fremskridt med at adressere den digitale kløft for afrikanske sprog. Sådan gør du.
Behovet for sproglig dokumentation i Afrika
Sproglig mangfoldighed er et af de største aktiver på det afrikanske kontinent, men det giver også monumentale udfordringer. Mange, især mindre samfund, taler unikke sprog, som ikke er veldokumenterede. Disse "ressourcefattige" sprog mangler de nødvendige datasæt, der er nødvendige for beregningsmæssig brug, hvilket gør maskinoversættelse (MT), talebehandling, automatiseret transskription og andre NLP-applikationer vanskelige, hvis ikke umulige.
Udfordringen er gennemgående – færre end 5 % af de afrikanske sprog har betydelige digitale ressourcer. (Association for Computational Linguistics, 2019) Det er klart, at vi skal dokumentere disse sprog bedre, men processen er ikke en lille opgave.
Udfordringen med at dokumentere afrikanske sprog med lav ressource (Isaka et la., 2024)
- Datamangel: De fleste afrikanske kulturer har historisk lagt stor vægt på mundtlige traditioner. Som følge heraf eksisterer mange primært i mundtlige former, og skriftlig dokumentation er ofte sparsom eller ikke-eksisterende. Uden skriftsprog bliver det kompliceret at samle korpusdata – en samling af skriftsprog og talte sprog, der er nødvendige for at træne maskinlæringsmodeller.
- Regeringens politikker og begrænset forskningsfinansiering: De fleste afrikanske regeringer har prioriteret officielle sprog som engelsk og fransk - ofte rester af kolonistyret - mens de yder ringe institutionel støtte til at dokumentere, bevare og udvikle oprindelige sprog. Utilstrækkelig akademisk finansiering på grund af lav interesse begrænser også forskning og udvikling af oprindelige sprogteknologier.
- Småbørnsundervisning: Nogle afrikanske lande sigter mod at bevare oprindelige sprog i uddannelse, men indsatsen kommer ofte til kort. I Ghana foreskriver en politik f.eks. undervisning i et barns første sprog fra børnehave til 3. klasse, før overgangen til engelsk. Men det begrænser undervisningen til 11 statssponsorerede sprog, hvilket resulterer i endnu færre ressourcer, opmærksomhed og højttalere for de resterende sprog. Selv med disse politikker stoler undervisere ofte på engelsk som deres primære undervisningsmedium på grund af begrænsede ressourcer og uddannelse.
- Mangel på standardiserede ortografier: Indsamling af data for mange ressourcesvage afrikanske sprog, såsom Hausa og Fulani, er meget udfordrende på grund af deres brede geografiske fordeling og betydelige dialektale variationer. Derfor kræver det omhyggelig og omfattende koordinering og standardisering at skabe ensartede digitale ressourcer til disse sprog.
- Dataindsamlingsbarrierer: I nogle regioner påvirker aktiv konflikt eller marginalisering af visse sproggrupper dataindsamling og sprogudviklingsinitiativer negativt. Derudover bor mange talere af ressourcesvage sprog i landdistrikter eller fjerntliggende samfund med begrænset adgang til internettet og digitale teknologier, hvilket gør sproglig dataindsamling endnu vanskeligere.
Innovation for sproglig lighed
På African Languages Lab bruger vi AI- og NLP-systemer til at digitalisere, oversætte og bevare afrikanske sprog for at skabe positive resultater for mennesker på tværs af kontinentet. Vores tilgang med fire søjler understøtter i øjeblikket 40 sprog, fra talt bantu til mindre kendte Khoisan, der repræsenterer forskellige kulturer, regioner og sproglige familier på tværs af kontinentet.
Hvordan African Languages Lab understøtter ressourcesvage sprog
- Dataindsamling, udtræk, rengøring og opbevaring: Vi indsamler sproglige data fra forskellige kilder, kuraterer dem og standardiserer dem ved at fjerne uoverensstemmelser og opbevarer dem sikkert til brug af AI-modeller.
- Forskning og modeludvikling: Vi udfører forskning for at bygge AI-modeller, der forbedrer forståelsen og anvendelsen af afrikanske sprog.
- Fællesskabsengagement og crowdsourcing: Vi samarbejder med institutioner, fællesskaber og indfødte talere for at indsamle og oversætte data, hvilket sikrer autentisk repræsentation og langsigtet bæredygtighed gennem vores innovative, AI-drevne teknologier.
- Teknologiimplementering: I samarbejde med brancheledere og akademiske institutioner bruger vi AI- og NLP-systemer til at oversætte vores data til brugbare sprogudgange, der driver platforme som vores All Voices-app og en flersproget chatbot, som er integreret i Base-mobilapplikationen.
Lande, der integrerer lokale sprog i uddannelse og digitalt indhold, har en tendens til at have højere læsefærdigheder og stærkere kulturel fastholdelse.
Teknologien, der gør vores arbejde muligt
Udførelse af vores fire søjler kræver den rette teknologi og samarbejdspartnere. Som sådan har vi dannet et strategisk partnerskab med Smartling, en leder inden for oversættelses- og lokaliseringsteknologi. Dette partnerskab gør os i stand til at udnytte Smartlings banebrydende værktøjer til sprogoversættelse, styring og kontekstuel nøjagtighed, og transformerer den måde, ressourcesvage sprog dokumenteres og deles digitalt.
Her er, hvordan teknologi driver vores fremskridt inden for digitalisering og oversættelse af afrikanske sprog.
Kompilering af eksisterende data: Corpus aggregering
For mange afrikanske sprog mangler centraliserede sprogdata. Vi indsamler og standardiserer data fra forskellige kilder og udnytter Python-scripts til at rense, standardisere og konvertere dataene til et fælles format med det mål at skabe et centraliseret korpus til bred brug. Konsolidering og forfining af sprogdata sikrer konsistens og tilgængelighed – hvilket i sidste ende giver fællesskaber mulighed for at skabe uddannelsesressourcer, oversættelsesværktøjer og digitalt indhold.
African Languages Lab har indsamlet over 400 GB tale- og tekstdata til 40 afrikanske sprog med lav ressource, hvilket fremmer deres dokumentation og digitale tilgængelighed.
Reimagining crowdsourcing: All Voices
Som tidligere nævnt er ufuldstændige data et kritisk hul for sprogbevarelse, som kan være vanskeligt at udfylde i nogle afrikanske samfund. Vores innovative dataindsamlingsapp, All Voices, giver institutioner, samfund og indfødte talere mulighed for at dokumentere og digitalisere deres lokale sprog. Bidragydere kan optage tale for 40 afrikanske sprog, hvilket understøtter vores kollektive behov for at indfange data for ressourcesvage sprog.
I fremtiden vil All Voices bygge bro over kommunikationskløfter i fællesskaber og gøre lokale sprog tilgængelige for alle. Det vil også oversætte mellem afrikanske sprog og populære sprog som engelsk og fransk. Med sømløs og nøjagtig oversættelse på tværs af en lang række sprog, sigter All Voices mod at fremme dybere kulturel udveksling, samtidig med at de bidrager til et voksende datasæt af lavressource sprogdata.
Håndtering af data: Fra opbevaring til oversættelse
Sproglig dataaggregering og organisering – ud over tilgængelighed i lokalsamfundet – er afgørende for vores arbejde på The All Lab. Smartling spiller en vital rolle i hele vores datahåndteringsproces, fra dataindsamling til lagring til oversættelse. Med Smartling kan vi uploade, organisere og gemme data fra flere projekter i et sikkert, centraliseret system.
Smartlings API gør os i stand til ikke kun at dele vores data bredt på tværs af flere platforme, men også at lave opdateringer i realtid – hvilket sikrer, at hvert medlem af vores fællesskab har adgang til det mest nøjagtige og komplette digitale korpus.
Vi har satset på Smartlings oversættelseshukommelse, AI-drevne oversættelser og dygtige oversættere til at understøtte ensartet og nøjagtigt indhold på tværs af forskellige afrikanske sprog. Vores resulterende strukturerede og tilgængelige sprogdepot er afgørende for at udvide den digitale tilgængelighed og bevaringsindsats på tværs af Afrikas sproglige mangfoldighed.
At bruge vores data godt
Vores arbejde på All Lab – understøttet af ovennævnte teknologier – genererer strukturerede afrikanske sproglige datasæt, som spiller en afgørende rolle i digitaliseringen af ressourcesvage sprog. Disse datasæt er medvirkende til at udvikle nye maskinoversættelses-, talegenkendelses- og sprogbevaringsværktøjer. I sidste ende hjælper vores data med at fremme afrikansk sproglig forskning og understøtter udviklingen af mere nøjagtige og kulturelt relevante sprogmodeller.
Vi gør også vores datasæt tilgængelige via platforme med åben adgang som Huggingface. Vores arbejde fremmer fællesskabsbaseret AI-udvikling og tilskynder til større investeringer i afrikanske sprogteknologier.
At gøre fremskridt – og se på fremtiden
Hos African Languages Lab har vi gjort betydelige fremskridt med at adressere den digitale kløft for afrikanske sprog gennem dataindsamling, aggregering, standardisering, crowdsourcing og modeludvikling og -implementering. Vi er stolte af vores voksende, robuste korpus af sproglige data – som er omkring en halv terabyte i størrelse – avancerede oversættelsesværktøjer og succesfulde udvidelse af adgangen til sprogressourcer.
Til dato har vi samlet over 400 GB tale- og tekstdatasæt til 40 afrikanske sprog med lav ressource, hvilket understøtter deres dokumentation og teknologiske fremskridt. Gennem partnerskaber med akademiske institutioner som UCLA MARS Lab og industriledere som Smartling udnytter vi banebrydende forskning og teknologi til at drive vores mission fremad. Vi øger også aktivt bevidstheden om det afrikanske sproglandskab gennem seminarer, konferencer og tekniske artikler.
Når vi ser på fremtiden, vil vi arbejde på at bevare flere ressourcesvage afrikanske sprog ud over vores nuværende 40. Vi tilstræber også at udvide tilgængeligheden af vores datasæt og værktøjer. Og vi er forpligtet til at drive yderligere innovation inden for maskinoversættelse, sprogbevarelse og AI-drevet sproglig forskning på tværs af Afrika. Sammen vil vi sikre, at Afrikas sproglige arv ikke kun overlever, men også trives i den digitale tidsalder.