Whisper vs Google STT vs Deepgram:2026年版徹底比較
OpenAI Whisper、Google Cloud Speech-to-Text、Deepgramを、精度・料金・レイテンシ・言語対応・プライバシーの観点から徹底比較。最適な音声認識ツールの選び方を解説します。
2026年に音声認識エンジンを選ぶということは、精度、コスト、プライバシー、デプロイの柔軟性を天秤にかけるということです。OpenAIのWhisper、Google Cloud Speech-to-Text、Deepgramは最も人気のある3つの選択肢ですが、それぞれ全く異なるニーズに対応しています。本記事では、あなたのユースケースに最適なツールを選べるよう、3つを正面から比較します。
音声対応アプリを開発するデベロッパー、文字起こしを生成するポッドキャスター、高速で信頼性の高い音声認識を必要とするジャーナリストなど、選択するエンジンによってワークフロー、コスト、そしてユーザーの信頼が左右されます。3つのプラットフォームすべてについて、単語誤り率(WER)ベンチマーク、実際の料金、言語カバレッジ、プライバシーアーキテクチャを分析しました。
概要:3つの異なる設計思想
ベンチマークの詳細に入る前に、各ツールが何のために作られているかを理解しましょう:
- OpenAI Whisper — 680,000時間の多言語音声で訓練された、オープンソースのエンコーダ・デコーダTransformerモデルです。自分のサーバー、ノートPC、あるいはWhisper Webでブラウザから直接実行できます。APIキー不要、利用料金不要、データがデバイスの外に出ることもありません。
- Google Cloud Speech-to-Text — Googleのインフラで動くマネージドクラウドAPIです。リアルタイムストリーミング、話者分離、Google Cloud Platform(GCP)との深い統合を提供します。従量課金制でエンタープライズSLAも用意されています。
- Deepgram — クラウドネイティブの音声AIカンパニーで、独自のNova-2モデルをAPI経由で提供しています。スピードと開発者体験に定評があり、競争力のある料金と300ms未満のレイテンシでリアルタイム文字起こしが可能です。
精度:単語誤り率ベンチマーク
単語誤り率(WER)は音声認識精度の標準的な指標で、低いほど良い値です。公開されているベンチマークデータに基づく3つのエンジンの比較を見てみましょう:
| エンジン | モデル | 英語WER(クリーン音声) | 英語WER(ノイズあり) |
|---|---|---|---|
| OpenAI Whisper | large-v3-turbo | 約3〜5% | 約8〜12% |
| Google Cloud STT | Chirp 2(最新) | 約3〜4% | 約7〜10% |
| Deepgram | Nova-2 | 約3〜4% | 約8〜11% |
重要なポイント:クリーンで適切に録音された英語音声では、3つのエンジンすべてがWER 3〜5%の範囲で優れた精度を達成します。差が顕著になるのは、アクセントのある音声、背景ノイズ、専門用語、そして英語以外の言語です。GoogleのChirp 2とDeepgram Nova-2はノイズ耐性のトレーニングによりノイズの多い音声でやや有利な一方、Whisper large-v3は100以上の言語にわたる多言語文字起こしで優位に立ちます。
多言語精度
ここがWhisperの真骨頂です。680,000時間の多言語データで訓練されたWhisper large-v3は、100以上の言語を高い精度でサポートしています。ウェールズ語、スワヒリ語、マレー語など、クラウドAPIが苦手とする低リソース言語も含まれます。Google Cloud STTは125以上の言語をサポートしていますが、Tier 1の言語以外では精度にばらつきがあります。Deepgramは現在約36言語をサポートしており、英語、スペイン語、フランス語、ドイツ語で最高のパフォーマンスを発揮します。
料金:無料 vs. 従量課金
コストは特に大規模な利用では決定的な要因になることが多いです。料金の内訳を見てみましょう:
| エンジン | 料金モデル | 音声1時間あたりのコスト | 無料枠 |
|---|---|---|---|
| OpenAI Whisper(セルフホスト) | 無料(オープンソース) | $0(ハードウェアコストのみ) | 無制限 |
| OpenAI Whisper API | 従量課金(分単位) | 約$0.36/時間 | なし |
| Google Cloud STT | 従量課金(15秒単位) | $0.72〜$1.44/時間 | 月60分 |
| Deepgram | 従量課金(分単位) | $0.43〜$0.65/時間 | $200分のクレジット |
計算は明確です:月に数時間以上文字起こしする場合、セルフホストのWhisperやブラウザベースのWhisper Webは圧倒的に安価です。自分のハードウェアでモデルを実行するため、実質的に無料です。月100時間の文字起こしでは、Google Cloud STTは$72〜$144、Deepgramは$43〜$65かかる一方、セルフホストのWhisperは電気代以外ゼロです。
見落としがちな隠れコスト
- Google Cloud STT:15秒単位(切り上げ)で課金されます。話者分離や高機能モデルなどの機能は追加料金が必要です。音声が別のクラウドリージョンに保存されている場合、エグレス料金も発生します。
- Deepgram:Nova-2の拡張機能(トピック検出、要約、感情分析)は上位プランが必要です。ボリュームコミットメントにより料金は下がります。
- セルフホストWhisper:GPUハードウェアまたはコンピューティング費用がかかります。ミッドレンジGPU(RTX 4070)なら、large-v3-turboで1時間のファイルを約3〜5分で処理できます。ただし、Whisper Webのブラウザベース推論を使えば、既存のデバイスを使うだけでサーバーコストはゼロです。
レイテンシとリアルタイムパフォーマンス
リアルタイムまたはストリーミング文字起こしが必要な場合、クラウドAPIにはアーキテクチャ上の優位性があります:
- Deepgram Nova-2:ストリーミングで300ms未満のレイテンシ。ライブキャプションや音声エージェントなどのリアルタイムアプリケーションでクラス最高。
- Google Cloud STT:300〜500msのレイテンシを持つストリーミングAPI。Google Meet、YouTube Live、Androidアプリとネイティブに統合。
- Whisper:バッチモデルとして設計されており、完全な音声ファイルを処理します。ストリームではありません。リアルタイム利用にはチャンク処理などの回避策が必要です。一般的なスループット:1時間のファイルがハードウェアとモデルサイズに応じて2〜8分で処理されます。
結論:リアルタイム音声エージェント、ライブキャプション、IVR(音声自動応答)にはDeepgramまたはGoogle Cloud STTが適しています。バッチ文字起こし(ポッドキャストエピソード、会議録音、動画字幕)では、Whisperが同等以上の精度をはるかに低コストで提供します。
プライバシーとデータセキュリティ
ここではセルフホストモデルに圧倒的な優位性があります。
| 機能 | Whisper(セルフホスト / ブラウザ) | Google Cloud STT | Deepgram |
|---|---|---|---|
| 音声がデバイスから外に出る | ❌ 出ない | ✅ Googleサーバーにアップロード | ✅ Deepgramサーバーにアップロード |
| オフライン動作 | ✅ 可能(モデルダウンロード後) | ❌ 不可 | ❌ 不可(オンプレミスは利用可能) |
| 設計段階からのGDPR準拠 | ✅ データ処理なし | ⚠️ DPA設定が必要 | ⚠️ DPA設定が必要 |
| HIPAA対応 | ✅ PHIの送信なし | ✅ BAA締結が必要 | ✅ BAA締結が必要(Enterprise) |
| データ保持 | なし(ローカルのみ) | 設定可能 | 設定可能 |
医療、法務、ジャーナリズム、その他機密録音を扱うあらゆるユースケースにおいて、Whisperをローカルで実行すること — 自社サーバーでもWhisper Webによるブラウザ内推論でも — は、データ送信中のリスクというカテゴリ全体を排除します。データ処理契約(DPA)も不要。ベンダーへの信頼も不要。音声がデバイスの外に出ることは一切ありません。当社のアプローチの詳細は、音声認識におけるプライバシーの未来に関する記事をご覧ください。
言語サポートの比較
サポートされる言語数には大きな差があります:
- OpenAI Whisper large-v3:100以上の言語を全体的に高い精度でサポート。特にコードスイッチング(同一文内での言語の混在)と低リソース言語に強い。
- Google Cloud STT:125以上の言語とバリアント。全体的なカバレッジは最大で、英語、スペイン語、フランス語のアクセントモデルも提供。ただし、マイナー言語の精度にはばらつきあり。
- Deepgram:約36言語。需要の高い言語に絞って高い精度を実現。アジア、アフリカ、東欧の言語については、WhisperやGoogleと比べてカバレッジが限定的。
英語以外の音声、多言語コンテンツ、コードスイッチングのある会話を日常的に扱う場合、Whisperが最も強力な選択です。Whisper Webはブラウザから直接多言語での文字起こしに対応しています。
デプロイの柔軟性
各エンジンをどこでどのように実行できるかは、統合、コンプライアンス、コスト管理に影響します:
- Whisper:どこでも実行可能 — ローカルマシン、クラウドGPU、エッジデバイス、Dockerコンテナ、あるいはブラウザから直接WebAssemblyとWebGPU経由で。オープンソースモデル(MITライセンス)なのでベンダーロックインなし。faster-whisper、whisper.cpp、transformers.jsなどのフレームワークにより、Python、C++、JavaScriptでの柔軟なデプロイが可能。
- Google Cloud STT:クラウドAPIのみ。GCPにロックイン。GoogleはML Kit経由でAndroid向けのオンデバイスモデルを提供していますが、フル機能のSTTエンジンにはサーバーが必要。
- Deepgram:主にクラウドAPI。エンタープライズ顧客向けにオンプレミスデプロイを提供していますが、営業担当との相談とカスタム料金が必要。
機能比較マトリックス
| 機能 | Whisper | Google Cloud STT | Deepgram |
|---|---|---|---|
| 話者分離 | サードパーティ経由(pyannote) | ✅ 組み込み | ✅ 組み込み |
| 句読点 | ✅ 自動 | ✅ 自動 | ✅ 自動 |
| 単語レベルのタイムスタンプ | ✅ 対応 | ✅ 対応 | ✅ 対応 |
| 翻訳 | ✅ 任意言語→英語 | ❌ 別APIが必要 | ❌ 非対応 |
| ストリーミング | ⚠️ 回避策のみ | ✅ ネイティブ対応 | ✅ ネイティブ対応 |
| カスタム語彙 | ファインチューニング経由 | ✅ フレーズヒント | ✅ キーワード |
| 感情分析 | ❌ 非対応 | ❌ 非対応 | ✅ 組み込み |
| トピック検出 | ❌ 非対応 | ❌ 非対応 | ✅ 組み込み |
| SRT/VTTエクスポート | ✅ 組み込み | ⚠️ 手動対応 | ✅ 組み込み |
各エンジンを選ぶべきタイミング
一般的なユースケースに基づくおすすめを紹介します:
Whisper(セルフホストまたはブラウザ)を選ぶべき場合:
- プライバシーが絶対条件 — 医療、法務、機密録音
- 100以上の言語にまたがる多言語文字起こしが必要
- コスト重視 — 従量課金なしで無制限に文字起こしをしたい
- 動画コンテンツ向けの字幕生成(SRT/VTT)が必要
- オフライン機能やエアギャップ環境が必要
- 翻訳(任意の言語→英語)をパイプラインに組み込みたい
Google Cloud STTを選ぶべき場合:
- 大規模なリアルタイムストリーミング文字起こしが必要
- すでにGoogle Cloud Platformを使用しており、ネイティブ統合が欲しい
- 話者分離が必須で、サードパーティツールを使いたくない
- エンタープライズSLAとGoogle提供のサポートが必要
Deepgramを選ぶべき場合:
- 超低レイテンシ(300ms未満)が音声エージェントやライブキャプションに必要
- NLU機能(感情分析、トピック、要約)が組み込みで欲しい
- 開発者体験とAPIのシンプルさを重視
- リアルタイム会話AIプロダクトを構築している
よくある質問
OpenAI Whisperは本当に無料ですか?
はい。WhisperモデルはMITライセンスのオープンソースです。Hugging FaceやGitHubからダウンロードして、自分のハードウェアでゼロコストで実行できます。OpenAIは有料のWhisper API($0.006/分)も提供していますが、セルフホストモデルは完全に無料です。Whisper Webのようなツールを使えば、ブラウザから直接無料で利用できます。インストール不要、APIキー不要、サインアップ不要です。
最も精度の高い音声認識エンジンはどれですか?
クリーンな英語音声では、3つのエンジンすべてが95〜97%の精度を達成します。違いが現れるのは、ノイズの多い録音、強いアクセント、英語以外の言語です。Whisper large-v3は多言語精度でリード。Google Chirp 2はノイズのある英語音声で最高のパフォーマンス。Deepgram Nova-2は最低レイテンシで高速・高精度な英語文字起こしに優れています。
Whisperでリアルタイム文字起こしは可能ですか?
Whisperは基本的にバッチモデルであり、完全な音声ファイルを処理する設計です。ほぼリアルタイムの利用には5〜30秒のチャンクに分割して入力できますが、レイテンシが増加し、チャンク境界で単語が欠落する可能性があります。真のリアルタイムストリーミングには、Google Cloud STTまたはDeepgramがより適切な選択肢です。バッチ文字起こし(録音、ポッドキャスト、会議)にはWhisperが理想的です。
HIPAA準拠に最適なのはどれですか?
Whisperをローカルで実行すること(自社サーバーまたはブラウザ内)がHIPAA準拠への最もシンプルな道です。保護対象医療情報(PHI)が送信されることがないからです。事業提携契約(BAA)も不要です。Google Cloud STTとDeepgramもHIPAA対応の構成を提供していますが、BAA、特定の設定、継続的なコンプライアンス監視が必要です。
まとめ
唯一の「最高の」音声認識エンジンは存在しません。正しい選択はあなたの優先事項に依存します。プライバシー、コスト、多言語対応を重視するなら、セルフホストのWhisperに匹敵するものはありません。リアルタイムストリーミングとエンタープライズインフラが必要なら、Google Cloud STTとDeepgramがWhisperでは実現できない機能を提供します。
2026年のエキサイティングな進歩は、Whisperを実行するのにもはや強力なGPUが不要になったことです。WebAssemblyとWebGPUのおかげで、ブラウザベースの推論により、最先端の音声認識がモダンブラウザを持つ誰もが利用可能になりました。サーバー不要、APIキー不要、ランニングコスト不要 — タブを開くだけで文字起こしが始められます。
ブラウザでWhisperを試す準備はできましたか? Whisper Webを起動 — 無料で、プライバシーが守られ、オフラインでも動作します。音声をアップロードし、文字起こしを取得して、ブラウザベースの音声認識があなたのファイルでどのようなパフォーマンスを発揮するか確認してください。詳しくはスタートガイドをご覧ください。