Apple Silicon搭載Mac専用のオフライン、話者分離・長時間対応文字起こしアプリ「FFTrans Pro」の最新バージョン、1.5をリリースしました。
変更点は以下の通りです。
・行編集機能(追加、分割、統合、削除)を追加
・話者精度推定を追加
・英語の長文分割で読点直後に空白がある場合だけ分割するように
今回も文字起こし後の編集機能の充実に注力しました。
前回、各区間の開始・終了時間、話者名、本文をアプリ内で編集可能にしましたが、今回は行単位での編集を追加しています。
行の追加、分割、統合、削除が可能になりました。
特に分割は読点→句点の順に分割ポイントを自動で検索し、タイムラインも文字長から2行に分配されます。
そして「話者精度推定」はpyannote audioが苦手とする日本人女性の話者精度を補強するために追加しました。
resemblyzerを別指標として追加導入し、これで各話者の平均特徴量との類似度を算出して、各区間に指定された話者の信頼度を3色(緑:信頼度高,黄色:信頼度中,赤:信頼度低)で表示します。
赤い部分から集中的にチェックすることで話者の間違いを素早く見つけることが可能になります。
なお、話者を手動修正した箇所は紫色で表示されますし、マウスホバーで類似度の数値をチェックすることもできます。
resemblyzerの処理もMPSで実装しましたので、Mac Studio M2 Maxでの計測ではありますが、15分音声(150区間)の処理が6秒ほどで完了します。(CPUで10秒)
また、70分音声(1100区間)では20秒と、MPSキャッシュが効くことで高速に判定処理が実行可能です。
また、音声の前処理の改善として、Resemble Enhanceによるノイズ除去も検討しましたが、結果的にはかえって精度が下がってしまう形となって導入は見送りました。
Resemble Enhanceのノイズ除去後の音声はたしかに聴感上は非常に良く、背景の音楽すらキレイに消えてしまいます。
しかし実際の文字起こし結果を見ると、ノイズ除去の効き具合によって各区間ごとの話者特徴が変動してしまい、話者分離はガタガタになってしまいます。
文字起こし自体はVADの精度向上のおかげもあって、文の切れ目が多少自然になるものの、Resemble Enhanceの処理自体もかなり重いですし、逆効果でしかないと判断しました。
実はこれ、ボイスレコーダーやスマホ録音に搭載されたノイズキャンセリング機能や「文字起こしモード」といったものにも起こる現象でして、話者分離を実施する場合はなるべく「素直な生データ」のほうが望ましいと思います。
一部の動画や放送などでも似たような処理がかかっていることがあるので、そうしたロバスト向上も課題ではありますが、少なくともさらに余計な前処理をするのは逆効果なのははっきりした感じです。