FFTrans Airをリリース


Apple Silicon搭載Mac専用のオフライン、話者分離・長時間対応文字起こしアプリ「FFTrans Air」をリリースしました。

FFTrans Proをベースとしつつ、文字起こしエンジンにparakeet-mlx、そして日本語専用モデルを採用して軽量化を測ったアプリケーションです。
機能はほぼFFTrans Proと同等ですが、文字起こしできる言語が日本語に限定され、英語のオフライン翻訳ができないのがいちばんの違いです。
その分、MacBookなどでも軽快に動作するようにチューンしてあり、8GBメモリでもなんとか動作します。(できれば16GB推奨です。)

もちろん、Proに搭載のカスタム辞書や話者精度推定、文字起こし後の編集機能も装備しています。
BERTによる句読点補完はparakeet-mlxの文字起こし結果との相性、それにメモリ削減のため、デフォルトではオフとしていますが、設定画面からオンに変更できます。

Mac Studio M2 Maxだと15分の音声を1分20秒弱(11倍速)で文字起こしでき、メモリ消費も最大6.5GB程度です。
同じ音声をMacBook Air M3 8GBで実行しても2分50秒(5倍速)ほどで文字起こしが完了しました。
ちなみにMac Studio M2 MaxでのFFTrans Proの同じファイルの文字起こしに要する時間が5分20秒(2.8倍速)、メモリ消費も最大9.6GBということを考えると、驚異的な速度と言えるでしょう。

精度についてもカスタム辞書の助けも多少借りた状態ではありますが、BERTはオフでも悪くないレベルには達しています。

[ FFTrans Airの文字起こし結果(抜粋) ]

そのかがみ池の水面をのぞき込むとね。
ここに真実の姿が映るらしいんです。
真実の姿?
っていっても。
大抵の場合は自分の姿がただ映るだけなのね。
でも。
何者かの呪いによって陰で操られている人は。
その影の主が水面に映るといわれている。
何者かの呪いね。

[ FFTrans Proの文字起こし結果(抜粋) ]

そのかがみ池の水面を覗き込むとね。
ここに真実の姿が映るらしいんです。
真実の姿?
って言っても…
たいていの場合は、自分の姿がただ映るだけなのね。
でも
何者かの呪いによって影で操られている人は…
その影の主が水面に映ると言われている。
何者かの呪いね。

もう少し不明瞭な音声だと音の連なりを特定できずにスキップしたり、ひらがなでごまかす傾向はあります。

[ FFTrans Airの文字起こし結果(抜粋) ]

まあまだだれもしらないっていうんだからだいじょうぶじゃない?
うわ何か緊張してきたほら私脈やばいです。

[ FFTrans Proの文字起こし結果(抜粋) ]

んーまあ、まだ誰も知らないって言うんだから大丈夫じゃない?
わー!なんか緊張してきた!ほら、私脈やばいです!

とはいえ、時間がかかりすぎては文字起こしするのを躊躇してしまいますし、要約にかけるのであれば個々の精度をそこまで高める必要はありません。
文字起こし後の編集機能もありますので、必要な箇所は修正可能ですし。
なお、話者分離はProと全く同性能で、話者精度推定機能も装備して機能面では全く同等ですので、その点は一切の妥協はありません。

日本語限定になることもあり、FFTrans Air単体でのご提供はせず、Proユーザー様でご希望の方への限定提供という形を当面取ろうと思っています。
ライセンスは全く共通で利用でき、カスタム辞書等も双方で同じものが使用できます。
登録ユーザー様でご希望の方がいらっしゃいましたら、お気軽にお申し付けください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)