性別推定をちょっと広げて感情の簡易推定も試してみました。
ただこちらは単純なピッチやフォルマント程度では精度が出ない感じです。
既存のAPIとしてEmpathがありますし、自作する意味合いはちょっと薄そうです。
本格的に実装するならTensorFlow.jsで機械学習とかしないと本格的には無理でしょう。
ただ合成音声を作る際に取得したピッチをSSMLで反映するのはやっぱり自然な同時翻訳には有効そうな気がします。
フォルマントもAmazon Pollyだと実装可能らしいので、今後他の音声合成でも使えるようになると良いですね。