Analyse approfondie : comment Whisper fonctionne en coulisses
Une explication de l'architecture Transformer derrière le modèle Whisper d'OpenAI et comment nous l'avons porté sur le web.
Whisper d'OpenAI est un modèle Transformer encodeur-décodeur entraîné sur 680 000 heures de données audio multilingues. Whisper Web apporte ce modèle dans le navigateur en l'exécutant via Transformers.js (de Hugging Face), qui utilise ONNX Runtime Web avec des backends WebGPU et WebAssembly, avec une accélération WebGPU optionnelle pour une inférence 3 à 5 fois plus rapide par rapport au fallback CPU/WebAssembly sur le matériel compatible.
Whisper est un modèle de reconnaissance vocale polyvalent entraîné sur un large jeu de données audio diversifié. C'est un modèle multitâche capable d'effectuer de la reconnaissance vocale multilingue, de la traduction vocale et de l'identification de langue.
Le moteur Transformer
Au cœur de Whisper se trouve un Transformer encodeur-décodeur. L'audio traité est envoyé à l'encodeur, et le décodeur prédit les tokens de texte un par un.
Portage vers le web
En utilisant Transformers.js et ONNX Runtime Web, nous sommes en mesure d'exécuter ces opérations matricielles complexes dans des environnements JavaScript de manière efficace...