FFTrans ProにDynamic Speaker Re-embeddingを搭載

Apple Silicon搭載Mac専用のオフライン、話者分離・長時間対応文字起こしアプリ「FFTrans Pro」の最新バージョン、2.0.0をリリースしました。

変更点は以下の通りです。

・FFTrans-DSRを搭載し、話者分離精度を最大30%改善

今回の目玉は話者分離精度を最大30%以上改善する新技術「Dynamic Speaker Re-embedding」(FFTrans-DSR)を新たに搭載したことです。

FFTrans Proのこれまでの話者分離はpyannote.audioを使用していました。
この従来の話者分離も音声や話者種別等で異なりますが、主要なベンチマークにおいてDERが10%〜25%前後のスコアとされています。
しかし、学習モデルが英語を主体としていることもあり、とりわけ日本人女性どうしの対談や会話だとDERが30%〜50%以上に達することもありました。

また、単一音声チャネルにおける話者分離では、同時発話(話者の重なり)が大きな課題となります。
現行の最先端モデルであっても、音声だけから同時発話を完全に分離することは困難であり、無理な分離処理はかえって誤検出や話者汚染を引き起こします。

FFTrans Pro 2.0ではこの現実を前提とし、同時発話の完全分離を狙わず、非重複区間の精度を最大化する設計を採用しました。
FFTrans-DSRはpyannote.audioで話者分離した結果をResemblyzerで再評価し、この評価を基に類似度が高い話者へ再割り当てを行う手法です。
従来の後処理では、単純に類似度が高い話者へ再割り当てを行う手法が一般的でした。
しかし実運用では、同時発話由来の不安定な埋め込みが「不定話者」となり、主要話者が誤ってこれに吸収される問題が多発します。

FFTrans-DSRは、この問題を根本から解消するために設計されています。
「存在が保証された話者のみを使う」ことと単独話者の分離改善のみに特化した設計により、False Positiveな話者分離改善を実現しています。

様々な音声での検証も実施し、話者分離の悪化を極めて低い水準に保ちつつ、最大30%程度の改善を実現しました。
精度が低下しがちな日本人女性どうしの対話音声において、以下の改善を確認しています。

• 従来:DER 28.4% → 19.7%(約30%改善)
• 別音声:DER 5.2% → 3.4%(約34.6%改善)

FFTrans Proは、研究用途のベンチマークではなく、議事録生成・字幕作成・ログ化といった現場での使いやすさを重視しています。

「できないことを無理にやらない」
「効くところを徹底的に磨く」

その設計思想から生まれたFFTrans-DSRにより、FFTrans 2.0.0は実運用日本語音声において最先端クラスの話者分離精度を実現しています。

なお、これまでご購入いただいたユーザー様はこれまで通り、無償で2.0.0にアップグレードいただけます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)