Skip to main content
Whisper Web
Retour au blog

Analyse approfondie : comment Whisper fonctionne en coulisses

Une explication de l'architecture Transformer derrière le modèle Whisper d'OpenAI et comment nous l'avons porté sur le web.

Tech Engineering
10 min de lecture

Whisper d'OpenAI est un modèle Transformer encodeur-décodeur entraîné sur 680 000 heures de données audio multilingues. Whisper Web apporte ce modèle dans le navigateur en l'exécutant via Transformers.js (de Hugging Face), qui utilise ONNX Runtime Web avec des backends WebGPU et WebAssembly, avec une accélération WebGPU optionnelle pour une inférence 3 à 5 fois plus rapide par rapport au fallback CPU/WebAssembly sur le matériel compatible.

Whisper est un modèle de reconnaissance vocale polyvalent entraîné sur un large jeu de données audio diversifié. C'est un modèle multitâche capable d'effectuer de la reconnaissance vocale multilingue, de la traduction vocale et de l'identification de langue.

Le moteur Transformer

Au cœur de Whisper se trouve un Transformer encodeur-décodeur. L'audio traité est envoyé à l'encodeur, et le décodeur prédit les tokens de texte un par un.

Portage vers le web

En utilisant Transformers.js et ONNX Runtime Web, nous sommes en mesure d'exécuter ces opérations matricielles complexes dans des environnements JavaScript de manière efficace...