HIGH-TECH
42
FINANCES NEWS HEBDO VENDREDI 30 MAI 2025
Intelligence artificielle La darija en quête de reconnaissance numérique Cette semaine, Meta a dévoilé une mise à jour importante de ses modèles d’intelligence artificielle. Désormais, ils pourront com- prendre des langues africaines comme le swahili, le wolof et l’arabe standard. Pour beaucoup d’observateurs, cette avancée soulève une question aussi simple que fondamentale : et la darija dans tout ça ?
Langue de la rue, des réseaux et de la famille, la darija est parlée par plus de 30 millions de Marocains.
moins de 20% maîtrisent l’anglais.
Une langue invisible dans le numérique
Ce silence algorithmique révèle un problème plus profond : la non-reconnaissance de la darija comme une langue numérique à part entière. L’ironie, c’est que sur les réseaux sociaux, c’est une autre histoire. La darija règne. Elle est le véhicule de l’humour, de la critique et de la narration. Les influenceurs, les podcasteurs et les créateurs de contenus l’ont adoptée, parfois même standardisée à leur manière. Il existe donc bel et bien un patri- moine numérique en darija, mais il n’est pas encore structuré ni exploité à des fins d’IA. Driss, développeur IA, nous explique que «techniquement, entraîner un modèle en darija est possible. Ce n’est ni plus dur ni plus facile qu’une autre langue peu normée comme le créole. Mais ce qu’il manque, c’est une initiative coordonnée. Il faut collecter, net- toyer, structurer des données, et ça demande de la volonté - pas juste politique, mais académique et économique aussi». Et il a raison. Car si demain un assistant IA vocal devait aider une agricultrice du Moyen-Atlas à remplir un formulaire, ou un jeune diplômé à chercher un stage, ou une mère de famille à poser une question de santé, il lui faudrait comprendre la vraie langue de la vie quotidienne. Pas un arabe litté- raire figé. Pas un français adminis- tratif. Et pourtant, selon les chiffres, seulement 63,8% des Marocains savent lire et écrire le français, et
P ourquoi agir maintenant ? Le Maroc affiche de grandes ambi- tions numériques : généralisation de la fibre, dématérialisation des services publics, programmes pour le digital learning… Mais dans tous ces chantiers, la dimension linguistique est absente ou relé- guée au rang de détail. Or, c’est un choix stratégique. Ne pas inté- grer la darija dans les modèles d’IA d’aujourd’hui, c’est prendre le risque de l’exclure des outils de demain. Et cette exclusion a un coût. Elle limite l’accès à l’infor- mation. Elle freine l’adoption des outils digitaux dans les régions rurales. Elle accentue la fracture linguistique et numérique entre les classes sociales. Elle invisibilise une identité pourtant omnipré- sente. En face, d’autres pays africains commencent à bouger. Le Sénégal, avec des initiatives pour le wolof. L’Éthiopie, qui pousse l’amharique dans les outils éducatifs. Même en Afrique du Sud, des projets en zoulou et xhosa sont en cours d'intégration dans les plateformes de voix. Meta, de son côté, a lancé un programme pour intégrer les langues africaines à ses IA en par- tenariat avec Orange et OpenAI, avec pour objectif de couvrir plus de 200 millions de locuteurs. Nous, au Maroc, avons une chance unique : un fort écosystème tech, des talents en IA, une culture riche, une langue dynamique. Il ne manque qu’un déclencheur. ◆
Par K. A. C
e dialecte, façonné par l’histoire, les échanges culturels et les mutations sociales, est parlé chaque jour par une immense majorité de la popu- lation. Selon le haut-commissariat au Plan, 91,9% des Marocains uti- lisent la darija dans leur quoti- dien, soit plus de 30 millions de personnes. Elle est omniprésente : dans la rue, à la maison, sur les réseaux sociaux, à la télévision, sur YouTube ou dans les messages vocaux sur WhatsApp. Pourtant, dans l’univers des intelligences artificielles, elle n’existe pas. Un dialogue de sourds Depuis plusieurs mois, on a pris l’habitude de tester ChatGPT avec des expressions marocaines. Le constat est sans appel : le modèle ne comprend pas. Si on tape une question en darija, même simple – «Chnou kayn f Casablanca had simana ?», il se perd. Il peut devi- ner qu’il s’agit de l’arabe dialec- tal marocain, parfois tenter une réponse bancale, mais la plupart
du temps, il renvoie en anglais ou propose une traduction approxi- mative. On sent bien que la langue lui échappe. Il y a quelques mois, on a aussi essayé de lui demander d’écrire une chanson en darija, ou de répondre à un commentaire sur un post Instagram typique. Résultat : soit il reformule tout en arabe lit- téraire, soit il s’invente une version darija qui ressemble à un mélange hasardeux de Google Translate, d’arabe classique et de mots fran- cisés mal intégrés. Ce n’est pas parce que les modèles comme ChatGPT sont incapables techniquement de comprendre des langues non normées. C’est juste que la darija ne figure pas dans les priorités d’entraînement des grands laboratoires d’IA. Pour que ChatGPT, Gemini ou Claude «com- prennent» une langue, il leur faut des corpus (des centaines de mil- liers, voire des millions de textes, de dialogues, de contenus anno- tés, avec une certaine cohérence orthographique). Ce que nous n’avons pas encore. Une étude publiée sur Arxiv en 2023 confir- mait d’ailleurs que les modèles GPT rencontrent de grandes diffi- cultés avec les dialectes arabes en l’absence de données spécifiques.
La darija ne figure pas dans les priorités d’entraînement des grands laboratoires d’IA.
www.fnh.ma
Made with FlippingBook flipbook maker