Skip to main content
Whisper Web
Volver al Blog

Análisis profundo: Cómo funciona Whisper internamente

Una explicación de la arquitectura Transformer detrás del modelo Whisper de OpenAI y cómo lo trasladamos a la web.

Tech Engineering
8 min de lectura

Whisper de OpenAI es un modelo Transformer codificador-decodificador entrenado con 680,000 horas de datos de audio multilingües. Whisper Web lleva este modelo al navegador ejecutándolo mediante ONNX Runtime compilado en WebAssembly, con aceleración opcional WebGPU para una inferencia 3-5 veces más rápida en hardware compatible.

Whisper es un modelo de reconocimiento de voz de propósito general entrenado con un gran conjunto de datos de audio diverso. Es un modelo multitarea que puede realizar reconocimiento de voz multilingüe, traducción de voz e identificación de idiomas.

El motor Transformer

En esencia, Whisper es un Transformer codificador-decodificador. El audio procesado se introduce en el codificador, y el decodificador predice los tokens de texto uno por uno.

Traslado a la web

Usando ONNX Runtime y Emscripten, podemos ejecutar estas complejas operaciones matriciales en entornos JavaScript de manera eficiente...