ブログに戻る
ディープダイブ:Whisperの内部アーキテクチャ
OpenAIのWhisperモデルの背後にあるTransformerアーキテクチャの解説と、それをどのようにウェブに移植したかについて。
Tech Engineering••
8分で読めます
OpenAIのWhisperは、680,000時間の多言語音声データで訓練されたエンコーダ・デコーダTransformerモデルです。Whisper Webは、WebAssemblyにコンパイルされたONNX Runtimeを介してこのモデルをブラウザで実行し、対応ハードウェアではオプションのWebGPUアクセラレーションにより3〜5倍高速な推論を実現しています。
Whisperは、多様な音声の大規模データセットで訓練された汎用音声認識モデルです。多言語の音声認識、音声翻訳、言語識別を行えるマルチタスクモデルでもあります。
Transformerエンジン
Whisperの中核にあるのは、エンコーダ・デコーダTransformerです。処理された音声がエンコーダに入力され、デコーダがテキストトークンをひとつずつ予測していきます。
ウェブへの移植
ONNX RuntimeとEmscriptenを使用することで、これらの複雑な行列演算をJavaScript環境で効率的に実行することが可能になっています...