Linguisti e informatici hanno raccolto migliaia di ore di parlato in Kenya, Nigeria e Sudafrica.
Un patrimonio che permetterà di sviluppare strumenti di intelligenza artificiale nelle lingue locali,
per non lasciare nessuno indietro.
Voci dall'Africa
Una raccolta dati per dare voce
alle lingue africane nell’era dell’IA

L’intelligenza artificiale è una sfida mondiale che presenta benefici e ostacoli.
Uno di questi coinvolge le lingue africane che, nonostante rappresentino gran parte delle lingue mondiali, al momento risultano ancora mancanti, riporta Bbc.
La maggioranza degli strumenti è addestrato sulle lingue europee e il cinese. L’esclusione delle lingue africane – di conseguenza di milioni di persone – è da attribuire alla mancanza di fonti da cui attingere, poiché molte di loro sono un patrimonio orale piuttosto che scritto.
I ricercatori dell’Università di Pretoria stanno cercando di superare questo ostacolo: negli ultimi anni è stato messo a punto il progetto African Next Voices, finanziato dalla Fondazione Gates, per il quale si sono riuniti linguisti e informatici per creare una raccolta di dati pronti all’uso per l’addestramento dell’intelligenza artificiale in 18 lingue africane. Si tratta del più grande dataset di lingue africane mai raccolto.
In soli due anni il gruppo di ricercatori hanno registrato novemila ore di parlato in Kenya, Nigeria e Sudafrica, registrando scenari quotidiani in ambito agricolo, sanitario ed educativo nelle lingue Kikuyu e Dholuo in Kenya, Hausa e Yoruba in Nigeria, isiZulu e Tshivenda in Sudafrica. Alcune di queste lingue sono parlate da milioni di persone. Un approccio diretto, in grado di cogliere sfumature linguistiche e della vita delle persone, spesso non colte dalle “big tech”, le grandi aziende tecnologiche.
I dati rimarranno ad accesso libero così gli sviluppatori potranno creare in seguito ulteriori strumenti di traduzione, trascrizione e assistenza nelle lingue africane.
Questi dati sono un patrimonio importante per garantire che milioni di persone siano protagoniste e non escluse dalla grande rivoluzione dell’IA.
