OpenAI Whisperとは:680,000時間の学習データで実現した音声認識の仕組み
2022年9月、OpenAIが公開した音声認識モデル「Whisper」は、AI音声認識の精度を一段階引き上げました。Kaigi AIを含む多くのサービスがWhisperを採用している理由は何か——技術的な仕組みをわかりやすく解説します。
Whisperとは何か
Whisperは、OpenAIが開発した汎用音声認識(Automatic Speech Recognition / ASR)モデルです。
2022年12月にarxivで公開された論文「Robust Speech Recognition via Large-Scale Weak Supervision」によると、Whisperは:
- 680,000時間のマルチリンガル音声データで学習
- 99言語の音声認識に対応
- 音声認識・翻訳・言語識別を単一モデルで実行
この規模の学習データは、従来の音声認識システムが使用していたデータ量の数十倍です。
なぜ「ウィスパー(ささやき声)」という名前か
Whisperという名前は「小声でもクリアに認識する」という意味ではありません。OpenAIの命名規則によるもので、性能の「繊細さ」を表すとされています。
実際、Whisperは騒音環境や低品質な録音よりも、クリアな音声で最大のパフォーマンスを発揮します。
Whisperモデルの種類とサイズ
Whisperには用途に応じた複数のモデルが存在します。
| モデル | パラメータ数 | 日本語精度 | 処理速度 |
|---|---|---|---|
| tiny | 39M | 低 | 最速 |
| base | 74M | 低〜中 | 速い |
| small | 244M | 中 | 普通 |
| medium | 769M | 高 | やや遅い |
| large-v2 | 1,550M | 非常に高 | 遅い |
| large-v3 | 1,550M | 最高 | 遅い |
GitHubリポジトリに記載されているベンチマークによると、large-v3は日本語を含む多数の言語でWER(単語誤り率)が大幅に改善されています。
Kaigi AIはWhisper large-v3を使用しており、精度を最優先にした設計です。
なぜWhisperは日本語に強いのか
日本語の音声認識は、英語と比べて技術的難易度が高いとされています。主な理由は:
- 同音異義語が多い(「会議」「海岸」「開花」など発音が同じ)
- 助詞・語尾の変化が複雑
- 英語ローン語(カタカナ)が混在
- 敬語・丁寧語の多様性
Whisperがこれらに対応できる理由は、**弱教師あり学習(Weak Supervision)**によって膨大なウェブ収集データで学習しているためです。論文では、ウェブから収集した自然な多言語音声データがモデルの汎化性能を大きく向上させると説明されています。
Encoder-Decoderアーキテクチャ
WhisperはTransformerベースのエンコーダー・デコーダーアーキテクチャを採用しています。
[音声入力] → [メルスペクトログラム変換] → [Encoderで特徴抽出] → [Decoderでテキスト生成]
- 音声をメルスペクトログラム(周波数と時間の2次元表現)に変換
- Encoderが音声の特徴量を抽出
- Decoderが自己回帰的にトークンを生成しテキスト出力
このアーキテクチャは機械翻訳でも使われており、音声認識と翻訳を同じフレームワークで処理できます。
large-v2 vs large-v3:何が変わったか
2023年11月に公開されたlarge-v3は、large-v2からいくつかの改善が加えられています。
- 学習データの増加:より多様な音声・言語データで再学習
- デコード戦略の改善:繰り返し生成(repetition)バグの修正
- 日本語・韓国語・中国語の精度向上:アジア言語のデータ比率を増加
特に日本語については、large-v3はlarge-v2と比べて実用的なビジネス音声(会議・講演・インタビュー)での精度が向上しています。
Whisperの限界と注意点
Whisperは非常に高精度ですが、苦手な分野も存在します。
精度が下がりやすいケース:
- 強い地方方言・方言混じりの発話
- 複数人が同時に話すシーン(クロストーク)
- 極端に低品質な録音(屋外・騒音環境)
- 固有名詞・社内用語(新製品名・人名など)
これらは現状の音声認識技術全般の課題でもあります。重要な固有名詞や数値は、文字起こし後に必ず確認することをお勧めします。
オープンソースとしてのWhisper
WhisperはMIT License(オープンソース)としてGitHubで公開されており、誰でも自由に利用・改変できます。
これが多くのSaaSが採用する理由でもあります。ただし、自社でWhisperを運用するにはGPUサーバーや技術的なインフラが必要です。Kaigi AIはこのインフラを整備し、アップロードするだけで使える形にしています。
まとめ
Whisperが高精度な理由は:
- 圧倒的な学習データ量(68万時間・99言語)
- ウェブ収集データによる汎化性能
- TransformerベースのEncoder-Decoderアーキテクチャ
- large-v3による継続的な精度改善
技術的な詳細は元論文(arxiv)や公式GitHubリポジトリで確認できます。
Kaigi AIでは、このWhisper large-v3をフルに活用した日本語文字起こし・議事録生成を提供しています。