
CoreML対応の軽量版、オフライン、話者分離・長時間対応文字起こしアプリ「FFTrans Neu」は、2.0.0の新しい文字起こしエンジン搭載に続いて、話者分離モデルも強化して話者分離精度も大幅に向上した2.2.0をリリースしました。
2.2.0、2.1.0で追加した内容は以下の通りです。
[ Version 2.2.0 ]
話者分離モデル強化により、話者分離精度を大幅向上
[ Version 2.1.0 ]
文字起こし時、ファイル処理からメモリ処理に変更してディスク負荷を軽減
Appleモデル使用時、ロケール登録上限に達するケースに対処
ドラッグで音声指定した場合の保存フォルダのデフォルトを修正
トライアル時にAppleモデルにならない場合があるのを修正
文字起こしはもはやFFTrans Proも凌駕する速度と、カスタム辞書併用による品質の確保が担保されていましたが、話者分離に関してはこれまでのバージョンでは、だいぶ劣る印象が拭えませんでした。
そこで今回、話者分離エンジンのクラスタリング処理を刷新し、VBxベースのオフラインパイプラインに切り替えました。
これによりFFTrans Proに迫る話者分離精度を実現しつつ、処理速度はほとんど変わらない性能を実現しています。
また、話者embeddingの抽出処理自体は変更していないため、既存の話者識別との互換性は保たれます。
話者統合の機能もこれまで通り使えますので、話者が初期状態で統合され過ぎないように調整もしてあります。
なお話者分離モデルは一新されたため、これまでのバージョンをお使いの方も初回起動時に話者分離モデルのみ再ダウンロードが実施されます。
処理速度に関しては2.1.0で文字起こし時のファイル処理をメモリ上展開に更新した効果もあり、話者分離を強化してもAppleモデルでは言語識別ありの6分ニュース動画で14.6秒(2.0.0では16秒)と、むしろ高速化が図られています。
また、細かな点ですが、Appleモデルでは文字起こし言語に対応する辞書管理がOSに依存しており、アプリケーションには最大5言語がキープされているようです。
これを超えて新たな言語の辞書が必要となる場合、文字起こし時に新しい言語辞書のダウンロードが発生してネットワーク接続が必要になる場合があります。
5言語を超える多言語混じりへの配慮も含めて、2.1.0で対処してあります。
メモリ消費についても話者分離モデル変更で多少の増加はありますが、負荷は主に文字起こしのほうが大きいですし、話者分離と文字起こしが双方メモリに残らない設計となっていますので、8GBマシンでの動作は相変わらず問題ありません。
Appleエンジンを活用してリアルタイム翻訳HUDの「FFTrans HUD」の開発も並行して進めていますので、今後ともFFTransシリーズをよろしくお願い申し上げます。

