OpenAIのWhisperは、680,000時間の多言語音声データで訓練されたエンコーダ・デコーダTransformerモデルです。Whisper Webは、WebAssemblyにコンパイルされたONNX Runtimeを介してこのモデルをブラウザで実行し、対応ハードウェアではオプションのWebGPUアクセラレーションにより3〜5倍高速な推論を実現しています。

Whisperは、多様な音声の大規模データセットで訓練された汎用音声認識モデルです。多言語の音声認識、音声翻訳、言語識別を行えるマルチタスクモデルでもあります。

Transformerエンジン

Whisperの中核にあるのは、エンコーダ・デコーダTransformerです。処理された音声がエンコーダに入力され、デコーダがテキストトークンをひとつずつ予測していきます。

ウェブへの移植

ONNX RuntimeとEmscriptenを使用することで、これらの複雑な行列演算をJavaScript環境で効率的に実行することが可能になっています...

ディープダイブ：Whisperの内部アーキテクチャ

Transformerエンジン

ウェブへの移植