
CoreML対応の軽量版、オフライン、話者分離・長時間対応文字起こしアプリ「FFTrans Neu」ですが、バージョンアップして1.6.0をリリースいたしました。
1.5.0と1.6.0で追加した内容は以下の通りです。
[ Version 1.6.0 ]
・文字起こし後に話者を指定人数に統合する「話者統合」機能を追加
・話者保存で統計的に外れた値を除外して算出するように修正[ Version 1.5.0 ]
・カスタム辞書で前方の接続詞を巻き込んで置換されることがあるのを修正
・読点での文の簡易分割時のタイムライン精度を向上
・文字起こし前に右クリックメニューが表示されるのを抑止
・波形表示で前後の時間拡張ボタンを追加
・波形表示を閉じる際に音声の再生を停止
いちばんの目玉は「話者統合」機能でしょう。
FFTrans NeuはProを凌駕するくらいに機能面の実装が進みましたが、話者分離に関しては量子化やモデルの違いもあって、どうしても話者がバラけてしまいがちです。
チャンク分割時の統合や話者分離の返した結果はSpeakerEmbeddingで再評価していますが、それでもまだまだです。
公式にもProで使用しているPyannote 3.0のDERが17.0%とされているのに対して、量子化されたFluidAudioのモデルは22.14%だそうです。
ProではさらにFFTrans-DSRで30%程度の向上を図っておよそ12%前後になっているので、それは差を感じて当然ですね。
そこで今回追加した「話者統合」は文字起こし後に話者名設定画面で人数を指定すると、統計的に判定してその人数まで話者を統合します。
基本的にはSpeakerEmbeddingの距離を見るのですが、登録された話者や発言数が多い話者を優先するので、同時発話やいわゆるゴミ話者のほうを吸収するような形でまとめてくれます。
以前から装備されている話者記憶についても統合も含めて外れ値を学習対象から除外した平均値を保存するので、精度向上が図られています。
タイムライン修正の波形選択も1.5.0でさらに強化して、表示範囲の初期値自動調整や範囲拡大ボタンを設けて、より使いやすくなりました。
学術的な精度でいえばやはりFFTrans Proに劣る部分はまだまだありますが、実務で不便な部分は操作性や後処理で可能な限り補う、という目標はほぼ達成できたかと。
実際に、日本人女性話者2名の上手くいきづらい事例でProとNeu、それにApple純正の精度を比較してみましょう。
[ FFTrans Neu ]
20
00:02:14,332 –> 00:02:19,992
波瑠: 花村薫というキャラクターは分け合って会社を。
21
00:02:19,992 –> 00:02:23,032
波瑠: を辞めてしまった元バリキャリの女性で。
22
00:02:23,032 –> 00:02:28,212
波瑠: 再就職先を探している最中に縁があって。
23
00:02:30,000 –> 00:02:40,432
波瑠: 偽物の受験用のままをすることになるんですけどお勉強ができて仕事もできるけどどこか不器用なキャラクターなんじゃないかなと思ってます。
[ FFTrans Pro ]
32
00:02:15,385 –> 00:02:20,898
波瑠: 花村薫というキャラクターは訳あって会社を辞めてしまった。
33
00:02:20,898 –> 00:02:23,063
波瑠: 元バリキャリーの女性で
34
00:02:23,063 –> 00:02:33,385
波瑠: 退就職先を探している最中に縁があって、偽物の受験用のママをすることになるんですけど。
35
00:02:33,385 –> 00:02:39,837
波瑠: お勉強ができて仕事もできるけど、どこか不器用なキャラクターなんじゃないかなと思っています。
[ Apple純正 (メモから文字起こし) ]
花村薫というキャラクターは、まあ訳あって会社を辞めてしまった元バリキャリアの女性で、大就職先を探している 最中に縁があって、こう偽物の受験用のままをすることになるんですけど、お勉強ができて仕事もできるけど、どこか不器用なキャラクターなんじゃないかなと思ってます。
単純な文字起こしとしてはApple純正もオフラインで非常に高性能になっていて驚かされますけど、話者分離と時分割を踏まえるとNeuもProと大きな差がないくらいまでは行ってるのではないかと思います。
さらに精度を上げるために高速なマシン用に量子化でないモデルを選べたり、GPUモードが使えたりしても良いのでしょうけど、Neuは「8GBでも軽快に動く」という部分が重要だと思いますので現状は見送っています。
FFTrans Neuについては、ひとまずこの辺りで一区切りつけて、同時開発中のリアルタイム翻訳HUD表示の「FFTrans HUD」の開発にまた専念しようかと考えているところです。



