2022年9月、OpenAIが公開した音声認識モデル「Whisper」は、AI音声認識の精度を一段階引き上げました。Kaigi AIを含む多くのサービスがWhisperを採用している理由は何か——技術的な仕組みをわかりやすく解説します。

Whisperとは何か

Whisperは、OpenAIが開発した汎用音声認識（Automatic Speech Recognition / ASR）モデルです。

2022年12月にarxivで公開された論文「Robust Speech Recognition via Large-Scale Weak Supervision」によると、Whisperは：

この規模の学習データは、従来の音声認識システムが使用していたデータ量の数十倍です。

なぜ「ウィスパー（ささやき声）」という名前か

Whisperという名前は「小声でもクリアに認識する」という意味ではありません。OpenAIの命名規則によるもので、性能の「繊細さ」を表すとされています。

実際、Whisperは騒音環境や低品質な録音よりも、クリアな音声で最大のパフォーマンスを発揮します。

Whisperには用途に応じた複数のモデルが存在します。

モデル	パラメータ数	日本語精度	処理速度
tiny	39M	低	最速
base	74M	低〜中	速い
small	244M	中	普通
medium	769M	高	やや遅い
large-v2	1,550M	非常に高	遅い
large-v3	1,550M	最高	遅い

GitHubリポジトリに記載されているベンチマークによると、large-v3は日本語を含む多数の言語でWER（単語誤り率）が大幅に改善されています。

Kaigi AIはWhisper large-v3を使用しており、精度を最優先にした設計です。

日本語の音声認識は、英語と比べて技術的難易度が高いとされています。主な理由は：

Whisperがこれらに対応できる理由は、**弱教師あり学習（Weak Supervision）**によって膨大なウェブ収集データで学習しているためです。論文では、ウェブから収集した自然な多言語音声データがモデルの汎化性能を大きく向上させると説明されています。

WhisperはTransformerベースのエンコーダー・デコーダーアーキテクチャを採用しています。

[音声入力] → [メルスペクトログラム変換] → [Encoderで特徴抽出] → [Decoderでテキスト生成]

このアーキテクチャは機械翻訳でも使われており、音声認識と翻訳を同じフレームワークで処理できます。

2023年11月に公開されたlarge-v3は、large-v2からいくつかの改善が加えられています。

特に日本語については、large-v3はlarge-v2と比べて実用的なビジネス音声（会議・講演・インタビュー）での精度が向上しています。

Whisperは非常に高精度ですが、苦手な分野も存在します。

精度が下がりやすいケース：

これらは現状の音声認識技術全般の課題でもあります。重要な固有名詞や数値は、文字起こし後に必ず確認することをお勧めします。

WhisperはMIT License（オープンソース）としてGitHubで公開されており、誰でも自由に利用・改変できます。

これが多くのSaaSが採用する理由でもあります。ただし、自社でWhisperを運用するにはGPUサーバーや技術的なインフラが必要です。Kaigi AIはこのインフラを整備し、アップロードするだけで使える形にしています。

Whisperが高精度な理由は：

技術的な詳細は元論文（arxiv）や公式GitHubリポジトリで確認できます。

Kaigi AIでは、このWhisper large-v3をフルに活用した日本語文字起こし・議事録生成を提供しています。