Diepgaand: Hoe Whisper onder de motorkap werkt
Een uitleg van de Transformer-architectuur achter het OpenAI Whisper-model en hoe we het naar de browser hebben overgezet.
OpenAI's Whisper is een encoder-decoder Transformer-model dat is getraind op 680.000 uur aan meertalige audiodata. Whisper Web brengt dit model naar de browser door het uit te voeren via ONNX Runtime, gecompileerd naar WebAssembly, met optionele WebGPU-versnelling voor 3-5x snellere inferentie op ondersteunde hardware.
Whisper is een algemeen spraakherkenningsmodel dat is getraind op een grote dataset van diverse audio. Het is een multitaskingmodel dat meertalige spraakherkenning, spraakvertaling en taalidentificatie kan uitvoeren.
De Transformer-engine
In de kern is Whisper een encoder-decoder Transformer. De verwerkte audio wordt aan de encoder gevoerd en de decoder voorspelt de teksttokens één voor één.
Overzetten naar de browser
Met behulp van ONNX Runtime en Emscripten kunnen we deze complexe matrixbewerkingen efficiënt uitvoeren in JavaScript-omgevingen...