Deep Dive: Wie Whisper unter der Haube funktioniert
Eine Erklärung der Transformer-Architektur hinter OpenAIs Whisper-Modell und wie wir es für den Browser portiert haben.
OpenAIs Whisper ist ein Encoder-Decoder-Transformer-Modell, trainiert auf 680.000 Stunden mehrsprachiger Audiodaten. Whisper Web bringt dieses Modell in den Browser, indem es über Transformers.js (von Hugging Face), das ONNX Runtime Web mit WebGPU- und WebAssembly-Backends nutzt, ausgeführt wird – mit optionaler WebGPU-Beschleunigung für 3–5x schnellere Inferenz auf unterstützter Hardware.
Whisper ist ein Allzweck-Spracherkennungsmodell, das auf einem großen Datensatz vielfältiger Audiodaten trainiert wurde. Es ist ein Multitasking-Modell, das mehrsprachige Spracherkennung, Sprachübersetzung und Sprachidentifikation durchführen kann.
Die Transformer-Engine
Im Kern ist Whisper ein Encoder-Decoder-Transformer. Das verarbeitete Audio wird in den Encoder eingespeist, und der Decoder sagt die Text-Tokens einzeln voraus.
Portierung in den Browser
Mithilfe der ONNX Runtime und Emscripten sind wir in der Lage, diese komplexen Matrixoperationen effizient in JavaScript-Umgebungen auszuführen...