Whisper : l'IA d'OpenAI qui transcrit mieux que tous les humains

La transcription audio par IA n'est pas nouvelle : Google, Amazon, Microsoft et d'autres proposaient des services depuis longtemps. Mais en septembre 2022, OpenAI a publié un modèle qui a tout changé : Whisper.

Trois ans plus tard, Whisper reste l'étalon de référence en transcription, utilisé partout dans l'industrie. Cet article explique pourquoi, comment ça marche, et comment l'utiliser ou l'identifier dans les outils que tu utilises au quotidien.

Pourquoi Whisper a fait l'effet d'une bombe

Avant Whisper, la transcription par IA avait trois problèmes majeurs : la qualité chutait dès qu'il y avait du bruit ambiant, les accents non-natifs étaient mal gérés, et chaque langue demandait un modèle séparé entraîné spécifiquement.

Whisper a résolu les trois problèmes d'un coup grâce à une approche d'entraînement massive et originale. OpenAI a entraîné le modèle sur 680 000 heures d'audio multilingue collectées sur le web, dans des conditions très variées : podcasts, vidéos YouTube, conférences, audios bruyants, accents en tous genres.

Résultat : un modèle qui gère 99 langues, qui résiste au bruit, et qui comprend les accents non-natifs presque aussi bien que les locuteurs natifs. Et tout ça avec une seule architecture, pas un modèle par langue.

La qualité concrète sur du français

Sur des audios "propres" en français standard (un podcast, une conférence enregistrée correctement), Whisper atteint un taux d'erreur sur les mots de l'ordre de 4-6%. Pour comparaison, un humain professionnel non-spécialisé est autour de 4-5%. Whisper est donc à un niveau quasi-humain sur ce terrain.

Sur des audios plus difficiles — un vocal WhatsApp pris dans la rue avec du vent, un débit rapide, un accent régional prononcé — la qualité baisse, mais reste largement exploitable. On est entre 8 et 15% d'erreurs typiquement, ce qui veut dire que tu comprends parfaitement le sens du texte malgré quelques mots approximatifs.

Les limites réelles

Whisper n'est pas magique. Trois zones où il pèche encore.

Les noms propres rares. Si ton vocal mentionne "Hadj Hamou" ou "Boulanger-Schmitt", Whisper va probablement faire une approximation phonétique. Pas dramatique pour la compréhension générale, mais frustrant si l'enjeu est de retrouver précisément un nom.

Les conversations multipersonnes. Whisper ne fait pas de "diarisation" native — c'est-à-dire qu'il ne distingue pas qui parle. Si trois personnes parlent en même temps ou si une conversation alterne rapidement, tu obtiens un texte continu sans indication des locuteurs. Des outils tiers ajoutent cette couche en post-traitement.

Les très longs audios. Whisper a une limite de 30 secondes par "chunk" de traitement. Pour un audio de 2 heures, l'outil découpe en segments et concatène. Cette technique est efficace, mais peut produire des incohérences aux jonctions, notamment sur les noms propres qui se retrouvent retranscrits différemment selon les segments.

Whisper local vs API

Whisper a une particularité : OpenAI a publié les poids du modèle en open source. Tu peux le faire tourner sur ton propre ordinateur si tu as une carte graphique correcte, sans envoyer de données chez OpenAI.

Cette ouverture a créé un écosystème entier : des forks optimisés (whisper.cpp pour CPU, faster-whisper pour GPU), des intégrations dans des logiciels libres, des services qui hébergent leur propre instance.

Si tu utilises Whisper via l'API d'OpenAI, c'est facturé à environ 0,006$ par minute d'audio. Pour un usage personnel, ça reste abordable. Pour un service à grande échelle, ça vaut le coup d'évaluer une instance auto-hébergée.

Où tu utilises Whisper sans le savoir

Whisper est devenu tellement standard que beaucoup de produits l'utilisent en arrière-plan sans le mentionner.

La transcription native de WhatsApp utilise probablement une variante de Whisper côté Meta (Meta a son propre modèle, mais largement inspiré).
Beaucoup d'outils de réunion (Otter, Tactiq, Fathom) utilisent Whisper sous le capot.
Les outils de podcast (Riverside, Descript) intègrent Whisper pour la transcription automatique.
Plusieurs assistants vocaux et outils d'accessibilité l'utilisent.
Abrège utilise Whisper pour la transcription des vocaux WhatsApp avant le résumé.

Si tu utilises un outil moderne de transcription, il y a 70% de chance qu'il y ait du Whisper dedans.

Transcription vs résumé

Une nuance importante : Whisper fait de la transcription, pas du résumé. Il transforme l'audio en texte mot pour mot. Pour un vocal de 5 minutes, ça produit environ 800 mots de transcription brute, ce qui prend toujours du temps à lire.

Pour transformer cette transcription en résumé exploitable (2-3 phrases qui captent l'essentiel), il faut une seconde étape avec un modèle de langage type GPT. C'est cette combinaison qui fait l'efficacité réelle dans les usages pratiques : Whisper pour transcrire, GPT pour résumer.

C'est exactement ce qu'Abrège fait sous le capot pour les vocaux WhatsApp : transcription Whisper + résumé GPT. L'utilisateur ne voit pas la mécanique, il reçoit juste un résumé court et pertinent.

Vers quoi va Whisper ?

OpenAI a sorti Whisper-large-v3 en 2023, une version améliorée avec une meilleure qualité sur les langues moins courantes et une meilleure résistance au bruit. Ils ont ensuite lancé gpt-4o-transcribe et gpt-4o-mini-transcribe en 2025, qui sont des modèles encore plus performants pour la transcription, avec un focus particulier sur le français et les langues européennes.

L'évolution suit deux directions : meilleure qualité sur les cas difficiles (audios bruyants, accents prononcés), et intégration plus profonde avec les modèles de langage pour des fonctionnalités comme la traduction simultanée ou le résumé natif.

En résumé

Whisper a démocratisé une technologie qui était auparavant chère et limitée. Aujourd'hui, n'importe qui peut transcrire un audio avec une qualité quasi-humaine pour quelques centimes ou gratuitement. Cette banalisation a créé toute une vague de produits intelligents qui exploitent l'audio comme matière première — dont Abrège fait partie.

Connaître Whisper, ses forces et ses limites, c'est mieux comprendre ce que les outils que tu utilises peuvent ou ne peuvent pas faire. La transcription est devenue un commodity. La valeur, désormais, est dans ce qu'on en fait.