Skip to main content
Whisper Web
Zurück zum Blog

Deep Dive: Wie Whisper unter der Haube funktioniert

Eine Erklärung der Transformer-Architektur hinter OpenAIs Whisper-Modell und wie wir es für den Browser portiert haben.

Tech Engineering
9 Min. Lesezeit

OpenAIs Whisper ist ein Encoder-Decoder-Transformer-Modell, trainiert auf 680.000 Stunden mehrsprachiger Audiodaten. Whisper Web bringt dieses Modell in den Browser, indem es über Transformers.js (von Hugging Face), das ONNX Runtime Web mit WebGPU- und WebAssembly-Backends nutzt, ausgeführt wird – mit optionaler WebGPU-Beschleunigung für 3–5x schnellere Inferenz auf unterstützter Hardware.

Whisper ist ein Allzweck-Spracherkennungsmodell, das auf einem großen Datensatz vielfältiger Audiodaten trainiert wurde. Es ist ein Multitasking-Modell, das mehrsprachige Spracherkennung, Sprachübersetzung und Sprachidentifikation durchführen kann.

Die Transformer-Engine

Im Kern ist Whisper ein Encoder-Decoder-Transformer. Das verarbeitete Audio wird in den Encoder eingespeist, und der Decoder sagt die Text-Tokens einzeln voraus.

Portierung in den Browser

Mithilfe der ONNX Runtime und Emscripten sind wir in der Lage, diese komplexen Matrixoperationen effizient in JavaScript-Umgebungen auszuführen...