
Apple Silicon搭載Mac専用のオフライン、話者分離・長時間対応文字起こしアプリ「FFTrans Pro」の最新バージョン、1.6.0をリリースしました。
変更点は以下の通りです。
・同一話者の連続発話を結合認識して、速度と精度を向上
・単一言語認識時の言語識別精度を向上
・セグメントベースのハルシネーションフィルタを追加
・MLX Whisperを最新版に更新
・mel_filtersの事前ロードによる速度向上
・話者名編集時、反映処理が重いのを軽減
今回の目玉は文字起こし速度の高速化と精度向上です。
MLX Whisperを最新版に更新したことで多少の改善が見られたのをきっかけに、もっと改善できるのではと試行錯誤して実現しました。
これまでは話者分離で分割された発話ごとに文字起こししていたのですが、それだと短すぎて呼び出し回数が多くなりすぎる傾向にありました。
そこで同一話者の発話が間隔がほとんどなく続く場合、それらを結合して文字起こしすることで高速化しています。
それだけだと長い文字列が返ってしまいますから、文字起こし後に結果を話者分離時のタイムラインにスナップして再分割することで精度を維持しています。
手法としては翻訳ツールの「FFTranslate」でやっていたことに近い仕組みですね。
このおかげで多言語認識モードでも突発的な他言語への誤りを大幅に削減できました。
ただ結合によって、どうしても間隔部分の無音やノイズを誤って文字起こししてしまう症状が出てきますので、そこはセグメントベースのハルシネーションフィルタを追加することで対応しています。
合計で4つのハルシネーションフィルタを搭載する形となりましたが、今回のフィルタで2つ分くらいの効果を発揮してくれています。
そして具体的な成果ですが、同一話者のみの音声の場合だと特に顕著に高速化されます。
16分強の話者1名の英語動画を事例にとりますと、これまで3分くらい掛かっていたものが2分弱(同一人物結合認識:強)とかなりの効果です。同一人物結合認識:中だと2分40秒ほどです。
話者が10名以上の16分程度のニュース動画も同一人物結合認識:強で、音声分割時間を20分にすると2分32秒(こちらも従来バージョンは3分程度)に短縮されます。
69分ほどの複数言語を含む音声でも11分48秒(従来バージョンでは14分以上)となっています。
メモリ消費は結合したほうが増える傾向にありますが、最大で30秒までに制限しているので、元々30秒以上に話者分離されたものもあることから、最大メモリの増大はありません。
また、単一言語の戦闘部分での言語識別にもセグメントベースのハルシネーションフィルタを追加することで、誤った言語識別を排除して判定するようにしました。
これにより通話やライブ音声のような不明瞭な音声での言語識別精度を大幅に向上しています。
正直、Ver 2.0と呼んでもおかしくないくらい、文字起こしの質は改善したと自負しています。
Whisperを使った性能向上はもうこれがほぼ限界でしょう。
なお、ブラックフライデーに向けて全製品50%オフというキャンペーンも実施いたします。
以下のキャンペーンコードでFFTrans Proの永久ライセンス、1ヶ月/3ヶ月プランの全てが先着50名様に限り、50%オフとなります。
[ ブラックフライデーキャンペーンコード ]
FFTRANS-BF50
本日より12/10までの開催となりますが、先着上限に達した時点で終了となりますので、お早めにどうぞ。

