日本語フィラー除去

日本語のフィラー除去を形態素解析で簡易除去してみました。

フィラー除去に特化したものは見当たらなかったので形態素解析のkuromoji.jsを使っています。
CDNはどうもNode.js向けにセッティングされてるようなのでgithubから入手したものを自サーバに入れて使っています。

前後の品詞まで見てやってないので簡易的ですけど、LLMみたいに重くないですし、それなりに実用にはなりそうです。
kuromoji.jsがあくまでも日本語のみ対応なので、多言語の場合は他を当たる必要がありますがあまりめぼしいものはないみたいです。
翻訳後に適用しても良いわけで、どちらかが日本語ならこれで事足りるでしょう。

ちなみに英語だとMicrosoft Azureの音声認識でTrue Textを有効にするとある程度のフィラーは除去されるようです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)