動画・音声ファイル形式完全ガイド:MP4・MP3・WAV・M4A・WEBMの違いと文字起こし最適化
Zoom・Google Meet・Teamsの録画を文字起こしに使おうとしたとき、「どのファイル形式が一番いいの?」と迷った経験はありませんか?
この記事では、主要な動画・音声フォーマットの違いを技術的に解説し、文字起こし精度を最大化するための選択方法を紹介します。
コーデック vs. コンテナ:基本的な仕組み
まず重要な概念の区別から。
コンテナ(拡張子で見えるもの): 音声・映像・字幕などのデータを入れる「箱」 コーデック: データを圧縮・展開する「アルゴリズム」
例えば .mp4 はコンテナで、中に AAC(音声コーデック)と H.264(映像コーデック)が入っています。
| 拡張子 | タイプ | 主な音声コーデック |
|---|---|---|
| .mp4 | 動画コンテナ | AAC, MP3 |
| .mov | 動画コンテナ | AAC, PCM |
| .mkv | 動画コンテナ | AAC, Opus, FLAC |
| .webm | 動画コンテナ | Opus, Vorbis |
| .mp3 | 音声のみ | MP3 (MPEG-1 Audio Layer III) |
| .wav | 音声のみ | PCM(無圧縮) |
| .m4a | 音声コンテナ | AAC |
| .aac | 音声のみ | AAC |
| .flac | 音声のみ | FLAC(可逆圧縮) |
| .ogg | 音声コンテナ | Vorbis, Opus |
文字起こし精度への影響
結論から言うと、ビットレートが十分であればフォーマットの違いによる精度差はほとんどありません。
Whisperは内部でFFmpegを使って音声を16kHz・モノラル・WAVに変換してから処理するため、入力フォーマットの差は吸収されます。
品質を左右するのはビットレート
| 音声ビットレート | 品質 | 文字起こしへの影響 |
|---|---|---|
| 320kbps+ | 最高品質 | 影響なし |
| 128kbps〜320kbps | 高品質 | ほぼ影響なし |
| 64kbps〜128kbps | 標準 | わずかに影響 |
| 32kbps〜64kbps | 低品質 | 認識率が低下 |
| 32kbps以下 | 劣化あり | 顕著に影響 |
推奨:音声ビットレートは128kbps以上
主要フォーマット詳細解説
WAV(Waveform Audio File Format)
- 特徴: PCM(無圧縮)で音質が完璧。データが失われない
- ファイルサイズ: 大きい(1時間 ≈ 600MB〜1.2GB)
- 文字起こし適性: ◎ 最高(品質的には)
- おすすめ用途: 録音スタジオ、マスタリング、後処理前素材
文字起こしにおいてはWAVが理論上最高品質ですが、128kbps以上のMP3やM4AとWAVの精度差はほぼゼロです。ファイルサイズが大きいのでアップロードに時間がかかるデメリットの方が大きい場合があります。
MP3(MPEG-1 Audio Layer III)
- 特徴: 最も普及した音声フォーマット。不可逆圧縮
- ファイルサイズ: 小さい(1時間 ≈ 50〜150MB)
- 文字起こし適性: ○ 128kbps以上なら問題なし
- おすすめ用途: 一般的な音声録音、ポッドキャスト
会議録音の場合: 128kbpsのMP3で十分です。320kbpsとの精度差は体感できません。
AAC / M4A
- 特徴: MP3より効率的な圧縮。同じビットレートでMP3より音質が良い
- ファイルサイズ: MP3と同程度〜やや小さい
- 文字起こし適性: ◎ 優秀
- おすすめ用途: iPhoneのボイスメモ、iTunes、Zoom録音(デフォルト)
ZoomはデフォルトでM4A(AAC)を使用します。そのままアップロードで問題ありません。
FLAC(Free Lossless Audio Codec)
- 特徴: 可逆圧縮。WAVと同品質でファイルサイズは40〜60%削減
- ファイルサイズ: 中程度(1時間 ≈ 300〜500MB)
- 文字起こし適性: ◎ 最高品質
- おすすめ用途: アーカイブ、高品質保存
品質を最高に保ちつつファイルサイズを削減したい場合の最善択。ただし一般的な会議録音では過剰品質です。
MP4(動画)
- 特徴: 映像+音声のコンテナ。Zoom・Meet・Teamsの標準録画形式
- 文字起こし適性: ○ 音声トラックを抽出して処理
- 注意点: ファイルサイズが大きい(映像分が加算)
文字起こしだけが目的なら、MP4から音声だけ抽出する(→M4AやMP3に変換)とファイルサイズを大幅削減できます。
WEBM
- 特徴: Googleが推進するオープンフォーマット。ブラウザ録画でよく使われる
- 文字起こし適性: ○ 問題なし
- 用途: Google Meet録画(Google ドライブ保存)、ブラウザベースの録音
会議ツール別・デフォルト録画形式
| ツール | デフォルト形式 | 音声ビットレート |
|---|---|---|
| Zoom(ローカル録画) | MP4 / M4A | 128kbps |
| Google Meet | WEBM / MP4 | 128kbps |
| Microsoft Teams | MP4 | 192kbps |
| Slack Huddle | MP4 | 96kbps |
| ボイスメモ(iPhone) | M4A | 128kbps |
| QuickTime録音 | M4A | 256kbps |
どのツールのデフォルト形式も、文字起こしには十分な品質です。
ファイルサイズ比較(1時間の音声)
| 形式 | ビットレート | 1時間のサイズ |
|---|---|---|
| WAV | 1,411kbps | 635MB |
| FLAC | 〜700kbps | 315MB |
| MP4(映像込み) | 映像次第 | 500MB〜2GB |
| M4A / AAC | 256kbps | 115MB |
| MP3 | 192kbps | 86MB |
| MP3 | 128kbps | 57MB |
| Opus (WEBM) | 128kbps | 57MB |
| MP3 | 64kbps | 28MB |
文字起こし品質を上げるための実践Tips
フォーマット以上に音質に影響するのが録音環境です。
1. マイクの選択
| マイクタイプ | 特徴 | おすすめ用途 |
|---|---|---|
| コンデンサーマイク | 高感度・広い周波数帯 | ポッドキャスト、配信 |
| ダイナミックマイク | 周囲ノイズを拾いにくい | うるさい環境 |
| ヘッドセット | 口との距離が一定 | オンライン会議 |
| 内蔵マイク | 手軽だが音質低め | ●おすすめしない |
2. ノイズリダクション
Zoomには「オリジナルサウンド(ノイズ抑制なし)」モードがあります。AIノイズ抑制が余計な音まで消してしまう場合は、オフにした方が文字起こし精度が上がることがあります。
3. サンプリングレート
Whisperは16kHz(16,000Hz)で処理します。録音時は44.1kHz以上で録音しておけば十分です(アップサンプリングは効果なし、ダウンサンプリングは自動処理されます)。
変換方法(FFmpegコマンド)
MP4から音声だけ抽出したい場合:
# MP4 → M4A(再エンコードなし・最速)
ffmpeg -i meeting.mp4 -vn -acodec copy meeting.m4a
# MP4 → MP3(128kbps)
ffmpeg -i meeting.mp4 -vn -ar 44100 -ac 2 -ab 128k meeting.mp3
# WAV → MP3(128kbps・ファイルサイズ削減)
ffmpeg -i recording.wav -ab 128k recording.mp3
まとめ
- フォーマットより音声ビットレートが重要(128kbps以上推奨)
- 会議ツールのデフォルト録画形式はそのまま使えば問題なし
- ファイルサイズを小さくしたい場合はMP3/M4A 128kbps
- アーカイブ保存にはFLACが最適(可逆圧縮)
- WAVは文字起こし目的では過剰品質・サイズ大でコスパ悪い
Kaigi AIはMP4・MOV・MKV・MP3・WAV・M4A・FLAC・WEBMなど主要フォーマットすべてに対応しています。そのままアップロードするだけで、最適な形式に自動変換して処理します。