Les chercheurs du laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) ont annoncé le 21 octobre avoir créé une IA capable de déchiffrer seule des langues perdues, en remontant le fil de ses langues descendantes.
L’IA est ainsi capable de catégoriser les mots d’une langue ancienne et de faire le lien avec les équivalents d’autres langues apparentées. Dirigé par la Pr Regina Barzilay du MIT, le système se base notamment sur le fait que les langues n’évoluent jamais de manière totalement imprévisibles.
Par exemple, alors qu’une langue donnée ajoute ou supprime rarement un son entier, certaines substitutions sonores peuvent s’être produites. Un mot avec un « p » dans la langue parente peut se transformer en un « b » dans la langue descendante, mais il est moins probable qu’il se transforme en un « k » en raison de l’écart important de prononciation.
Ainsi, en prenant en compte le cadre des accidents linguistiques susceptibles de se produire lorsqu’une langue évolue, le modèle peut segmenter les mots d’une langue ancienne et les mettre en correspondance avec les équivalents d’une langue apparentée. Ce faisant, les chercheurs ont par exemple confirmé le fait que la langue ibère n’était pas apparentée au basque, comme certains le prétendent.
En d’autres termes, cet « algorithme de déchiffrement » va identifier les racines des langues anciennes pour tenter de les déchiffrer. Dans ses futurs travaux, l’équipe espère étendre son IA au-delà du « déchiffrement basé sur les parentés », car cette méthode suppose qu’une telle langue connue existe, or l’exemple de l’ibère montre que ce n’est pas toujours le cas.
Source : MIT News