
Monde Numérique - Actu Tech
đ€ Interview â LâIA qui parle (et Ă©coute) en temps rĂ©el (Patrick PĂ©rez, Kyutai)
·33 min
Le patron du laboratoire français Kyutai dĂ©taille les avancĂ©es spectaculaires de ses IA vocales open source : interaction fluide, traduction en temps rĂ©el et synthĂšse vocale Ă la volĂ©e. Interview : Patrick PĂ©rez, directeur gĂ©nĂ©ral de KyutaiUn laboratoire Ă but non lucratif pour une IA ouverteKyutai est un centre de recherche sur lâintelligence artificielle Ă but non lucratif, fondĂ© en 2023 grĂące au mĂ©cĂ©nat de Xavier Niel, Rodolphe SaadĂ© et Eric Schmidt, ancien CEO de Google.Lâobjectif : faire progresser la recherche fondamentale sur les grands modĂšles dâIA et partager les rĂ©sultats en open source, du code aux modĂšles, pour stimuler lâĂ©cosystĂšme scientifique mondial.Patrick PĂ©rez, son directeur, le souligne : « nous ne faisons pas de produit, mais de la science ». Moshi : la premiĂšre IA vocale vraiment naturelleLe premier projet emblĂ©matique de Kyutai, Moshi, est une IA conversationnelle sans tour de parole imposĂ©. Elle comprend et rĂ©pond en temps rĂ©el, peut couper la parole Ă bon escient et saisit les nuances Ă©motionnelles de la voix.Une innovation majeure : Moshi ne passe pas par une transcription textuelle, prĂ©servant ainsi le timbre, lâĂ©motion et les intonations. Open-sourcĂ© en 2024, le modĂšle a dĂ©jĂ Ă©tĂ© tĂ©lĂ©chargĂ© plusieurs millions de fois et inspire de nouveaux projets comme SĂ©same, qui rĂ©utilise certaines de ses briques. Ibiki : la traduction simultanĂ©e façon interprĂšteDĂ©voilĂ© au Sommet mondial de lâIA au Grand Palais en 2025, Ibiki traduit une conversation en simultanĂ©, tout en prĂ©servant la voix originale de lâorateur.Ce modĂšle, capable de fonctionner sur un smartphone, reprĂ©sente une avancĂ©e majeure face aux systĂšmes propriĂ©taires comme Meta AI ou OpenAI.Encore au stade de prototype, Ibiki dĂ©montre la maturitĂ© de la recherche française en matiĂšre dâIA vocale temps rĂ©el et de traduction instantanĂ©e expressive. Unmute : la synthĂšse vocale Ă la volĂ©eAvec Unmute, Kyutai repousse encore les limites : la synthĂšse vocale sâeffectue en mĂȘme temps que le texte est gĂ©nĂ©rĂ© par un modĂšle de langage (LLM).Ce procĂ©dĂ© permet une rĂ©ponse instantanĂ©e et naturelle, sans latence perceptible. Ces avancĂ©es ouvrent la voie Ă de nouvelles expĂ©riences immersives â assistants vocaux, mĂ©dias parlants ou interfaces interactives.Câest aussi lâun des chantiers clĂ©s de lâIA « multimodale », qui marie texte, son et vision dans un mĂȘme flux de communication. Le futur : multimodalitĂ© et accessibilitĂ©Kyutai poursuit ses recherches sur la multimodalitĂ©, visant Ă crĂ©er des IA capables dâinterprĂ©ter voix, texte, images et vidĂ©os en temps rĂ©el.Certaines de ces briques sont dĂ©jĂ utilisĂ©es par le mĂ©dia La Provence pour convertir ses articles en audio expressif.Une application concrĂšte de la mission de Kyutai : rendre la recherche ouverte, utile et inclusive, tout en dĂ©montrant que lâinnovation europĂ©enne peut rivaliser avec les gĂ©ants amĂ©ricains. HĂ©bergĂ© par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.
