Skip to main content
Whisper Web
Terug naar Blog

Diepgaand: Hoe Whisper onder de motorkap werkt

Een uitleg van de Transformer-architectuur achter het OpenAI Whisper-model en hoe we het naar de browser hebben overgezet.

Tech Engineering
8 min leestijd

OpenAI's Whisper is een encoder-decoder Transformer-model dat is getraind op 680.000 uur aan meertalige audiodata. Whisper Web brengt dit model naar de browser door het uit te voeren via ONNX Runtime, gecompileerd naar WebAssembly, met optionele WebGPU-versnelling voor 3-5x snellere inferentie op ondersteunde hardware.

Whisper is een algemeen spraakherkenningsmodel dat is getraind op een grote dataset van diverse audio. Het is een multitaskingmodel dat meertalige spraakherkenning, spraakvertaling en taalidentificatie kan uitvoeren.

De Transformer-engine

In de kern is Whisper een encoder-decoder Transformer. De verwerkte audio wordt aan de encoder gevoerd en de decoder voorspelt de teksttokens één voor één.

Overzetten naar de browser

Met behulp van ONNX Runtime en Emscripten kunnen we deze complexe matrixbewerkingen efficiënt uitvoeren in JavaScript-omgevingen...