日本語の敬語・専門用語で精度が落ちる
一般的な音声認識ツールは英語前提の設計で、日本語の敬語体系や「〜ございます」「〜いたします」のような丁寧表現を誤認識しがち。Kaigi AIはWhisper large-v3に日本語ビジネス語彙の専用プロンプトを組み合わせ、敬語を含む会話を正確に文字化します。
複数人が話す会議の書き起こしが混乱する
Zoom・Teams会議では複数の声が重なりやすい。pyannote.audioによる話者識別(ダイアライゼーション)で「誰が何を言ったか」を分離して記録します。
長時間会議のファイルが処理できない
1時間を超える会議録音でも対応。音声を10分チャンクに分割して並列処理するため、60分会議でも約3〜5分で文字起こしが完成します。
ファイルをアップロード
MP4・MP3・WAV・M4A・MOVなど主要フォーマットに対応。最大2GBまで。ZoomやTeamsの録画ファイルをそのままアップロードできます。
Whisperが音声を解析
AWS東京リージョンのGPUサーバーでWhisper large-v3が音声を解析。日本語を自動検出し、話者識別・タイムスタンプ付きで書き起こします。
テキストを確認・エクスポート
文字起こしテキストはWebブラウザで即確認。TXT・SRT・DOCX形式でエクスポート可能。議事録生成機能と連携して決定事項・アクションアイテムを自動抽出します。
| エンジン | OpenAI Whisper large-v3 |
| 日本語WER(社内テスト) | 約7〜10%(クリアな音声) |
| 対応フォーマット | MP4, MOV, MKV, AVI, MP3, M4A, WAV, WEBM, FLAC |
| 最大ファイルサイズ | 2GB |
| 処理時間(60分音声) | 約3〜5分 |
| データ保管場所 | AWS ap-northeast-1(東京) |
| 話者識別 | 対応(pyannote.audio) |
| タイムスタンプ | 秒単位で付与 |
会議録音には機密情報が含まれます。Kaigi AIはデータの取り扱いを最高水準で管理しています。
日本の個人情報の保護に関する法律(個人情報保護法)に基づいた適切なデータ管理体制のもとサービスを提供しています。
すべての音声データ・議事録データはAWS東京リージョン(ap-northeast-1)で処理・保管します。データが日本国外に出ることはありません。
お客様がアップロードした音声・文字起こしデータをAIモデルのトレーニングに使用することは一切ありません。データはお客様のものです。
Q. 日本語以外の音声も文字起こしできますか?
A. はい。Whisperは100言語以上に対応しており、言語を自動検出します。英語・中国語・韓国語などの音声も文字起こし可能で、多言語翻訳機能と組み合わせて日本語に翻訳することもできます。
Q. 専門用語や社内用語の精度を上げられますか?
A. チームプラン以上では社内用語辞書に専門用語を登録でき、文字起こし精度を向上させられます。医療・法律・IT・金融などの専門領域でも精度改善が可能です。
Q. 話者識別の精度はどのくらいですか?
A. 2〜5名程度の会議では80〜90%程度の話者識別精度(社内テスト値)。全員が同時に話すような場面では精度が下がる場合があります。識別された話者名は後から編集可能です。
Q. 音声品質が悪い録音でも使えますか?
A. 背景ノイズが大きい・音量が不均一なファイルでも処理可能ですが、精度は音質に依存します。事前にffmpegで16kHz monoに変換されるため、一般的なZoom・Teams録音であれば問題ありません。