Whisper d'OpenAI est un modèle Transformer encodeur-décodeur entraîné sur 680 000 heures de données audio multilingues. Whisper Web apporte ce modèle dans le navigateur en l'exécutant via Transformers.js (de Hugging Face), qui utilise ONNX Runtime Web avec des backends WebGPU et WebAssembly, avec une accélération WebGPU optionnelle pour une inférence 3 à 5 fois plus rapide par rapport au fallback CPU/WebAssembly sur le matériel compatible.

Whisper est un modèle de reconnaissance vocale polyvalent entraîné sur un large jeu de données audio diversifié. C'est un modèle multitâche capable d'effectuer de la reconnaissance vocale multilingue, de la traduction vocale et de l'identification de langue.

Le moteur Transformer

Au cœur de Whisper se trouve un Transformer encodeur-décodeur. L'audio traité est envoyé à l'encodeur, et le décodeur prédit les tokens de texte un par un.

Portage vers le web

En utilisant Transformers.js et ONNX Runtime Web, nous sommes en mesure d'exécuter ces opérations matricielles complexes dans des environnements JavaScript de manière efficace...

Analyse approfondie : comment Whisper fonctionne en coulisses

Le moteur Transformer

Portage vers le web