FFTrans 1.1の文字起こし精度を計測してみました

オフライン話者分離機能付き文字起こしツール「FFTrans」の文字起こし精度を確認するため、短文・複数話者の音声を使って試してみました。

[ デモ用音声について ]

今回のデモでは、ReazonSpeechコーパスのサンプル音声として公開されている5本の短い音声を用い、これらをFFmpegで1本に連結しました。
実際の音声は下の内容です。

1. 気象庁による天気情報(ニュース音声)
2. 童話風の短文(読み上げ、背景に虫の声)
3. ヤンバルクイナとの出会いに関する文章(ナレーション、音楽付き)
4. H2Aロケットの打ち上げ情報(ニュース音声)
5. 風で舞った傘と看板の描写(ニュース音声、背景に風の音)

なお、FFTransの話者分離で、正しく5人の話者に分類され、字幕として出力されました。
5人の話者が明瞭に区切られた音声だということもありますが、話者分離の精度を示す指標 Diarization Error Rate（DER）は 0% となります。
DER 0% とは、すべての発話が正しい話者に割り当てられたことを意味します。
実際の会議音声ではDERが上がる可能性はありますが、今回のサンプルでは完全に正確でした。

そして肝心のFFTransの文字起こし結果、そしてReazonSpeechによる正解文は以下の通りです。

[ FFTrans文字起こし結果（全文） ]

気象庁は雪や路面の凍結による交通への影響暴風雪や高波に警戒するとともに、なだれや屋根からの落雪にも十分注意するよう呼び掛けています。
早くおじいさんにあの男の話を聞かせたかったのです。
ヤンバルクイナとの出会いは18歳の時だった。
H2Aは打ち上げの成功率は高い一方1回の打ち上げ費用がおよそ100億円と高額であることが課題となっていました。
持ち主とはぐれた傘が風で舞い看板もなぎ倒されてしまったようです。

[ 正解文（全文） ]

気象庁は、雪や路面の凍結による交通への影響、暴風雪や高波に警戒するとともに、雪崩や屋根からの落雪にも十分注意するよう呼びかけています。
はやくおじいさんにあのおとこのはなしをきかせたかったのです。
ヤンバルクイナとの出会いは１８歳の時だった。
Ｈ２Ａは、打ち上げの成功率は高い一方、１回の打ち上げ費用がおよそ１００億円と、高額であることが課題となっていました。
持ち主とはぐれた傘が風で舞い看板もなぎ倒されてしまったようです。

[ 認識精度（WER/CER） ]

今回のデモ音声に対して、意味的正確さを重視して評価しました。

WER（単語単位誤り率）：4.35%
CER（文字単位誤り率）：1.43%

誤認はほとんどなく、表記揺れや固有名詞も正確に認識されています。
句読点補完は音声に依存しますが、実際に聞いてみると「100億円と高額であることが課題…」の部分は読点なしでも自然で、認識結果として正しいことが確認できました。

今回のデモ音声には、虫の声や風の音、音楽などの環境音も含まれています。
それにもかかわらず、FFTransは実質的に読点の違いのみで、WER 4.35%、正解率95.6%と高い文字起こし精度を示しました。
実際の会話や雑音環境では条件によって精度が変動する可能性がありますが、FFTransはある程度のノイズ耐性があることが確認できます。

[ WER/CERの計算根拠 ]

1. 正解文字数：279文字
2. 誤認箇所：読点漏れのみ（「一方、」など） → 4文字
3. CER（Character Error Rate）：4 / 279 ≈ 1.43%
4. 正解単語数：約92単語
5. 誤認単語数（句読点相当換算）：4
6. WER（Word Error Rate）：4 / 92 ≈ 4.35%

※ 補足

・「雪崩 → なだれ」、「きかせたかった → 聞かせたかった」、「あのおとこのはなし → あの男の話」や全角・半角は意味的に正しい認識として正解扱いとしています。
・音声の自然な読みを優先した評価方法としています。

参考までに某クラウド文字起こしサービスの結果も貼っておきます。

気象庁は、雪や路面の凍結による交通への影響、暴風雪や高波に警戒するとともに、雪崩や屋根からの落雪にも十分注意するよう呼びかけています。早くおじいさんにあの男の話を聞かせたかったのです。ヤンバルクイナとの出会いは18歳の時だった。
H二aは打ち上げの成功率は高い一方、一回の打ち上げ費用がおよそ百億円と、高額であることが課題となっていました。持ち主とはぐれた傘が風で舞い、看板もなぎ倒されてしまったようです。

こちらも精度はなかなか良いと思います。
ただ話者を識別してないので、文の切れ目の認識がされてないです。
そして何より、FFTransはオフラインだという点が最も大きな差と言えるでしょう。

[ 句読点補完について ]

FFTransはVersion 1.1からBERTによる日本語句読点補完で、文の切れ目や接続詞をもとに句読点を挿入します。

・ゆっくり・明瞭な音声では自然に補完されます
・早口や息継ぎの少ない音声では、文の途中で読点が入らない場合があります
・実務上は意味的正確さが優先されるため、読点の有無は大きな問題ではありません

また、SRTでは字幕として読み上げに応じた分割もされるので、文末に読点を付けない仕様という側面もあります。
実際のSRTのタイムラインの一部は下のようになっています。

1
00:00:00,587 –> 00:00:01,465
Person 1: 気象庁は

2
00:00:01,701 –> 00:00:05,025
Person 1: 雪や路面の凍結による交通への影響

3
00:00:05,295 –> 00:00:12,771
Person 1: 暴風雪や高波に警戒するとともに、なだれや屋根からの落雪にも十分注意するよう呼び掛けています。

[ まとめ ]

FFTransは短文・複数話者の音声でも意味的認識精度が非常に高いことがわかります。
句読点補完は音声や文体に依存しますが、読みやすさとしては十分実用的です。
正解文と認識結果を比較することで、精度の高さと実用性を直感的に理解できます。

FFTrans Version 1.1 — 今までにない、自然な日本語テキスト化体験を。

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル