Análisis profundo: Cómo funciona Whisper internamente
Una explicación de la arquitectura Transformer detrás del modelo Whisper de OpenAI y cómo lo trasladamos a la web.
Whisper de OpenAI es un modelo Transformer codificador-decodificador entrenado con 680,000 horas de datos de audio multilingües. Whisper Web lleva este modelo al navegador ejecutándolo mediante ONNX Runtime compilado en WebAssembly, con aceleración opcional WebGPU para una inferencia 3-5 veces más rápida en hardware compatible.
Whisper es un modelo de reconocimiento de voz de propósito general entrenado con un gran conjunto de datos de audio diverso. Es un modelo multitarea que puede realizar reconocimiento de voz multilingüe, traducción de voz e identificación de idiomas.
El motor Transformer
En esencia, Whisper es un Transformer codificador-decodificador. El audio procesado se introduce en el codificador, y el decodificador predice los tokens de texto uno por uno.
Traslado a la web
Usando ONNX Runtime y Emscripten, podemos ejecutar estas complejas operaciones matriciales en entornos JavaScript de manera eficiente...