Microsoft annonce la disponibilité de trois modèles génératifs développés en interne dans Microsoft Foundry : MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2. C’est la première fois que ces modèles sont accessibles à l’ensemble des développeurs et développeuses pour un usage commercial.
MAI-Transcribe-1 est le modèle le plus récent de la gamme. Il prend en charge la transcription de la parole vers le texte dans les 25 langues les plus utilisées dans les produits Microsoft, qui revendique la première place sur le benchmark FLEURS dans 11 de ces langues, tout en surpassant Whisper-large-v3 d’OpenAI sur les 14 autres. Microsoft met également en avant une vitesse de transcription en batch 2,5 fois supérieure à son offre Azure Fast existante.
Le modèle a été entraîné pour fonctionner dans des conditions dégradées : bruit ambiant, audio basse qualité, voix superposées. Il accepte les fichiers en MP3, WAV et FLAC. Mustafa Suleyman, CEO de Microsoft AI, décrit le coût GPU du modèle comme « deux fois inférieur à celui des autres modèles de pointe« , ce qu’il présente comme un avantage économique significatif pour l’entreprise. MAI-Transcribe-1 est déjà intégré à titre expérimental dans Copilot Voice et Teams pour la transcription conversationnelle.
Les deux autres modèles de la gamme sont également disponibles dans Foundry :
Ce triple lancement s’inscrit dans une réorganisation engagée depuis plusieurs mois. En novembre 2025, Microsoft annonçait la création d’une équipe dédiée à la superintelligence pilotée par Mustafa Suleyman. Une renégociation du partenariat avec OpenAI a depuis offert à la firme la latitude nécessaire pour conduire ses travaux en parallèle. « C’est un plan que nous menions depuis longtemps », a déclaré Mustafa Suleyman à The Verge, ajoutant que la superintelligence constituait désormais « uniquement [son] objectif ».
Depuis le lancement de MAI-Image-1 en octobre 2025, la stratégie d’autonomie de Microsoft sur les modèles s’accélère progressivement. La firme distribue toujours les modèles d’OpenAI et d’Anthropic dans son écosystème, mais construit en parallèle sa propre couche de modèles fondamentaux.
Integer iaculis ultrices velit nec tempor. Pellentesque aliquet est massa, sit amet tempor mi auctor nec. Mauris a nibh sed libero fermentum aliquet. Quisque sit amet faucibus magna. Do purus mi, commodo id commodo vel, im perdiet ut mauris. Ut ultricies arcu risus, males uada efficitur orci euismod in. Proin ele est risus, ac sodales nulla mollis vel. .
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat.
In nec libero luctus, aliquet turpis at, vehicula nisi. Cras eget mauris in nisl tempus lobortis.
Neque porro quisquam est, qui is dolor emr ipsum quia dolor sit amet the consec tetur is adipisci velit, sed Neque porro.