Japanese Transcription

日本語の音声を、ビジネスで使えるテキストに変換

OpenAI Whisperは日本語音声認識の中でも最高精度クラス。敬語・カタカナ語・業界専門用語も正確に書き起こします。

こんな課題を解決します

日本語の敬語・専門用語で精度が落ちる

一般的な音声認識ツールは英語前提の設計で、日本語の敬語体系や「〜ございます」「〜いたします」のような丁寧表現を誤認識しがち。Kaigi AIはOpenAI Whisperに日本語ビジネス語彙の専用プロンプトを組み合わせ、敬語を含む会話を正確に文字化します。

複数人が話す会議の書き起こしが混乱する

Zoom・Teams会議では複数の声が重なりやすい。AIが発言の文脈から話者を推定し「誰が何を言ったか」を整理して記録します。

長時間会議のファイルが処理できない

3時間を超える長い録画でも、自動で分割して文字起こしします。手動でファイルを切ったり分けたりする必要はありません（合計の長さはプランの月間枠の範囲内）。

使い方

ファイルをアップロード

MP4・MP3・WAV・M4A・MOVなど主要フォーマットに対応。動画でもそのままアップロード（自動で音声抽出）。ZoomやTeamsの録画ファイルをそのままアップロードできます。

Whisperが音声を解析

OpenAI Whisper APIで音声を解析。日本語を自動検出し、話者識別・タイムスタンプ付きで書き起こします。

テキストを確認・エクスポート

文字起こしテキストはWebブラウザで即確認。TXT・SRT・DOCX形式でエクスポート可能。議事録生成機能と連携して決定事項・アクションアイテムを自動抽出します。

仕様・スペック

エンジン	OpenAI Whisper
日本語WER（社内テスト）	約7〜10%（クリアな音声）
対応フォーマット	MP4, MOV, MKV, AVI, MP3, M4A, WAV, WEBM, FLAC
ファイルサイズ	最大8GB（動画は自動で音声抽出）
処理時間（60分音声）	約3〜5分
データ保管場所	AWS ap-northeast-1（東京）
話者識別	対応（AIによる文脈ベース推定）
タイムスタンプ	秒単位で付与

企業情報セキュリティ要件への準拠

会議録音には機密情報が含まれます。Kaigi AIはデータの取り扱いを最高水準で管理しています。

個人情報保護法準拠

日本の個人情報の保護に関する法律（個人情報保護法）に基づいた適切なデータ管理体制のもとサービスを提供しています。

東京国内サーバーにデータ保管

すべての音声データ・議事録データはAWS東京リージョン（ap-northeast-1）で保管します。

AI学習への二次利用なし

お客様がアップロードした音声・文字起こしデータをAIモデルのトレーニングに使用することは一切ありません。データはお客様のものです。

よくある質問

Q. 日本語以外の音声も文字起こしできますか？

A. はい。Whisperは99言語に対応しており、言語を自動検出します。英語・中国語・韓国語などの音声も文字起こし可能で、多言語翻訳機能と組み合わせて日本語に翻訳することもできます。

Q. 専門用語や社内用語の精度を上げられますか？

A. チームプラン以上では社内用語辞書に専門用語を登録でき、文字起こし精度を向上させられます。医療・法律・IT・金融などの専門領域でも精度改善が可能です。

Q. 話者識別の精度はどのくらいですか？

A. 2〜5名程度の会議では80〜90%程度の話者識別精度（社内テスト値）。全員が同時に話すような場面では精度が下がる場合があります。識別された話者名は後から編集可能です。

Q. 音声品質が悪い録音でも使えますか？

A. 背景ノイズが大きい・音量が不均一なファイルでも処理可能です（精度は元の音質に依存します）。文字起こし前にffmpegで録音ノイズ除去（afftdnフィルタ）と16kHz・モノラルへの正規化を自動で行うため、エアコンや空調などの定常的なノイズがある録音でも認識が安定します。一般的なZoom・Teams録音であれば問題ありません。