Whisper de OpenAI es un modelo Transformer codificador-decodificador entrenado con 680,000 horas de datos de audio multilingües. Whisper Web lleva este modelo al navegador ejecutándolo mediante ONNX Runtime compilado en WebAssembly, con aceleración opcional WebGPU para una inferencia 3-5 veces más rápida en hardware compatible.

Whisper es un modelo de reconocimiento de voz de propósito general entrenado con un gran conjunto de datos de audio diverso. Es un modelo multitarea que puede realizar reconocimiento de voz multilingüe, traducción de voz e identificación de idiomas.

El motor Transformer

En esencia, Whisper es un Transformer codificador-decodificador. El audio procesado se introduce en el codificador, y el decodificador predice los tokens de texto uno por uno.

Traslado a la web

Usando ONNX Runtime y Emscripten, podemos ejecutar estas complejas operaciones matriciales en entornos JavaScript de manera eficiente...

Análisis profundo: Cómo funciona Whisper internamente

El motor Transformer

Traslado a la web