Apple Silicon搭載Mac専用のオフライン、話者分離・長時間対応文字起こしアプリ「FFTrans Pro」の最新バージョン、1.5.1をリリースしました。
変更点は以下の通りです。
・文字起こしモデルの事前ロードに対応し、メモリ消費を抑制
・設定画面でBERTによる句読点補完をオンオフできるように
今回の修理はFFTrans Airリリースに伴う変更をPro側にも反映した部分が主体となります。
ただ、Proのほうも速度を落とさずに省メモリにできるところは最大限対応しています。
それにより70分の動画の処理を従来バージョンで14分強、最大メモリ消費10.7GB程度だったのに対し、1.5.1では13分30秒ほどで文字起こしが完了し、最大メモリ消費も9.3GB前後にまで低減されました。
一番の違いはmlx-whisperの仕様で文字起こしを呼ぶたびに、巨大な言語モデル(3GB超)がロードされていたのをmlx-whisper自体を改造して事前ロードを可能にした点です。
メモリに余裕があればキャッシュされているので再ロードもほぼ影響ありませんが、メモリが厳しい場合にはどうせメモリを消費する言語モデルを事前にロードしておくのはメリットが大きいはずです。
上記の結果はMac Studio M2 Max 32GBでの結果ですので、メモリが少ない場合やSSDの速度が遅いケースではさらに大きな効果が期待できます。
もちろん、話者分離に処理が戻る場合には一旦モデルをメモリから破棄してMLXキャッシュもクリアしてあるので、両者が重複してメモリを消費することはありません。
ちなみに話者分離のほうは最大でも6GBちょっとのメモリ消費ですので、こちらは多少余裕があります。
それでもまだ8GBメモリのマシンでの動作はかなり厳しいですが、日本語限定であればそこはFFTrans Airを併用いただく形で対処いただければと思います。
それ以外の言語は編集機能などは割愛されていますが、無料のFFTrans Parakeetもご用意しています。
FFTrans AirはFFTrans Proユーザー様であれば同じライセンスで併用いただけます。
同一マシンには限定されますが、ニーズに応じて使い分けていただければ幸いです。
FFTrans Airの単売は今のところ考えておりませんが、デスクトップとノートで使い分けたいというニーズのための「2ライセンスセット」はご要望に応じてご提供可能ですので、お気軽にお問い合わせください。