
CoreML対応の軽量版、オフライン、話者分離・長時間対応文字起こしアプリ「FFTrans Neu」を新たにリリースいたしました。
FFTrans ProはFFTrans-DSRやモデル同梱の完全オフラインなど、性能を追究したプロ仕様の文字起こしアプリケーションですが、ファイルサイズが大きい、メモリが実質16GB以上必要といった重さを伴っていました。
そこで、Apple SiliconのNeural Engineを最大限に活用し、量子化された音声認識エンジン&話者分離搭載で、文字起こしを気軽にお使いいただけるFFTrans Neuを新たにSwiftベースで一から作成しました。
実際のFFTrans Neuのメモリ消費量は4GB以下(AI句読点補完などApple Intelligence活用時は実メモリによる)、CPUパワーも1コア使う程度(GPUも併用します)と、かなり軽快になっています。
参考までにProではメモリは10GB以上消費していました。
またモデルは初回に別途ダウンロードする形とし、アプリサイズも17MB程度とカジュアルに使い始めることができます。
またアプリは完全公開で配布していますので、誰でもすぐにダウンロードして、文字起こし結果の保存を除く全ての機能を期間の縛りなく自由にお試しいただけます。
モデルは量子化されたコンパクトなものをチョイスし、ダウンロードされるファイルサイズも700MB以下です。
また、文字起こし速度も条件にもよりますが、Proよりも1.5倍くらい高速になっています。
具体的には6分の音声でProが1分20秒くらいだったものを、Neuでは50秒程度で話者分離・文字起こしが完了します。(Mac Studio M2 Maxにて。AI句読点補完OFF時)
なお、MacBook Air M3 8GBで1分8秒程度です。
速度だけでなく、Neural Engineの積極活用で発熱を減らしてあり、他の軽作業をしながら使えるようになった点も長時間の音声ファイルの文字起こしには大きなメリットかと思います。
もちろん、Pro同様、音声はアプリ内で自動分割処理されるため、2時間を超えるような長時間音声でも全く問題なく話者分離、文字起こしが可能です。
話者も特徴量を用いて統合されるので、同一話者がバラバラになってしまう心配もありません。
FFTrans Pro固有の機能もほとんど全て移植されてあります。
再度文字起こしすることなく登録した固有名詞を文字起こし結果に即時反映する「カスタム辞書」や、一度登録した話者を自動認識して次回以降は自動で名前が入る「登録話者」もしっかり装備しており、これだけでも他の文字起こしアプリとは一線を画すスペックです。
価格は永久ライセンスのみの4,980円で、Pro同様にマシン紐付けライセンスのオフライン認証です。
初回にモデルダウンロードしてもらえれば、あとはライセンス認証も含めて完全にオフラインで動作するのも他にはほとんどない特色かと思います。
もちろん、FFTrans Proにも独自の話者分離精度向上技術「FFTrans-DSR」やBERTによる句読点補完、文字起こし精度などで優位なところは残っています。
用途に合わせて使い分けていただければ幸いです。
ますます充実を図っていくFFTransシリーズを今後ともよろしくお願い申し上げます。


