OpenAI's Whisper is een encoder-decoder Transformer-model dat is getraind op 680.000 uur aan meertalige audiodata. Whisper Web brengt dit model naar de browser door het uit te voeren via ONNX Runtime, gecompileerd naar WebAssembly, met optionele WebGPU-versnelling voor 3-5x snellere inferentie op ondersteunde hardware.

Whisper is een algemeen spraakherkenningsmodel dat is getraind op een grote dataset van diverse audio. Het is een multitaskingmodel dat meertalige spraakherkenning, spraakvertaling en taalidentificatie kan uitvoeren.

De Transformer-engine

In de kern is Whisper een encoder-decoder Transformer. De verwerkte audio wordt aan de encoder gevoerd en de decoder voorspelt de teksttokens één voor één.

Overzetten naar de browser

Met behulp van ONNX Runtime en Emscripten kunnen we deze complexe matrixbewerkingen efficiënt uitvoeren in JavaScript-omgevingen...

Diepgaand: Hoe Whisper onder de motorkap werkt

De Transformer-engine

Overzetten naar de browser