機能一覧に戻る
🎙️
Japanese Transcription

日本語の音声を、ビジネスで使えるテキストに変換

Whisper large-v3は日本語音声認識の中でも最高精度クラス。敬語・カタカナ語・業界専門用語も正確に書き起こします。

こんな課題を解決します

日本語の敬語・専門用語で精度が落ちる

一般的な音声認識ツールは英語前提の設計で、日本語の敬語体系や「〜ございます」「〜いたします」のような丁寧表現を誤認識しがち。Kaigi AIはWhisper large-v3に日本語ビジネス語彙の専用プロンプトを組み合わせ、敬語を含む会話を正確に文字化します。

複数人が話す会議の書き起こしが混乱する

Zoom・Teams会議では複数の声が重なりやすい。pyannote.audioによる話者識別(ダイアライゼーション)で「誰が何を言ったか」を分離して記録します。

長時間会議のファイルが処理できない

1時間を超える会議録音でも対応。音声を10分チャンクに分割して並列処理するため、60分会議でも約3〜5分で文字起こしが完成します。

使い方

1

ファイルをアップロード

MP4・MP3・WAV・M4A・MOVなど主要フォーマットに対応。最大2GBまで。ZoomやTeamsの録画ファイルをそのままアップロードできます。

2

Whisperが音声を解析

AWS東京リージョンのGPUサーバーでWhisper large-v3が音声を解析。日本語を自動検出し、話者識別・タイムスタンプ付きで書き起こします。

3

テキストを確認・エクスポート

文字起こしテキストはWebブラウザで即確認。TXT・SRT・DOCX形式でエクスポート可能。議事録生成機能と連携して決定事項・アクションアイテムを自動抽出します。

仕様・スペック

エンジンOpenAI Whisper large-v3
日本語WER(社内テスト)約7〜10%(クリアな音声)
対応フォーマットMP4, MOV, MKV, AVI, MP3, M4A, WAV, WEBM, FLAC
最大ファイルサイズ2GB
処理時間(60分音声)約3〜5分
データ保管場所AWS ap-northeast-1(東京)
話者識別対応(pyannote.audio)
タイムスタンプ秒単位で付与

企業情報セキュリティ要件への準拠

会議録音には機密情報が含まれます。Kaigi AIはデータの取り扱いを最高水準で管理しています。

個人情報保護法準拠

日本の個人情報の保護に関する法律(個人情報保護法)に基づいた適切なデータ管理体制のもとサービスを提供しています。

東京国内サーバー完全処理

すべての音声データ・議事録データはAWS東京リージョン(ap-northeast-1)で処理・保管します。データが日本国外に出ることはありません。

AI学習への二次利用なし

お客様がアップロードした音声・文字起こしデータをAIモデルのトレーニングに使用することは一切ありません。データはお客様のものです。

よくある質問

Q. 日本語以外の音声も文字起こしできますか?

A. はい。Whisperは100言語以上に対応しており、言語を自動検出します。英語・中国語・韓国語などの音声も文字起こし可能で、多言語翻訳機能と組み合わせて日本語に翻訳することもできます。

Q. 専門用語や社内用語の精度を上げられますか?

A. チームプラン以上では社内用語辞書に専門用語を登録でき、文字起こし精度を向上させられます。医療・法律・IT・金融などの専門領域でも精度改善が可能です。

Q. 話者識別の精度はどのくらいですか?

A. 2〜5名程度の会議では80〜90%程度の話者識別精度(社内テスト値)。全員が同時に話すような場面では精度が下がる場合があります。識別された話者名は後から編集可能です。

Q. 音声品質が悪い録音でも使えますか?

A. 背景ノイズが大きい・音量が不均一なファイルでも処理可能ですが、精度は音質に依存します。事前にffmpegで16kHz monoに変換されるため、一般的なZoom・Teams録音であれば問題ありません。

日本語文字起こしを、今日から無料で

月60分まで無料。クレジットカード不要・30秒でサインアップ。

無料で始める →