Yusuke Harasono

株式会社D2C神奈川県横浜市

Yusuke Harasono

株式会社D2C

インターネット広告系、データ分析系、音声ソリューション系などのプロダクトで機械学習周辺のエンジニアリングの仕事をしてきました。 web の世界で「機会学習」という言葉が流行り始める以前からデータ活用や機械学習をプロダクトに落とし込むことをやってきた経験を活かしていきたいと考えており、今は特にデータエンジニアリング方面の技術に関心があります。

About 株式会社D2C

株式会社D2C2 years

- Present
About 株式会社フリークアウト

株式会社フリークアウト6 years

-

株式会社アニモ4 years

-

旭化成アミダス株式会社5 years

-
  • 音響モデルの認識精度/モデルサイズの最適化

    ともあり、モデルサイズをなるべく小さくしたいという要件がありました。 そこで MDL (Minimum Description Length) という、学習データ量、モデルのパラメータ数、モデル精度のバランスを取る基準を導入しました。 音響モデルでは音素 ("a", "i", etc.) が複数の state で表現され、各 state が多次元混合ガウス分布の出力確率分布を持ちます。 state ごとの単位で MDL で最適な混合数を持つ音響モデルを学習できるようにしました。 アルゴリズムについては後述の論文を参考にしています。 ## チームでの役割 この案件では最初1人で上記を実現するツールの設計・開発 (C++ & Perl) 、およびある言語の音響モデルにおいてオフラインの実験を実施しました。 その後効果ありと認められたので、複数の言語の音響モデル開発者に周知・導入サポートをしました。 ## 結果 狙いどおり、それまでの音響モデルと比べてより高い認識精度とより小さいモデルサイズを両立するような、よりバランスの良い音響モデルを作ることができました。 また、調整用のパラメータを変更することにより高精度・大サイズから低精度・小サイズの間で任意のポジションを取れるようになりました。 良い結果が得られたため、前述のとおり多言語の音響モデルに展開されました。 ## 参考 Shinoda, K., & Iso, K. (2002). Efficient reduction of gaussian components using MDL criterion for HMM-based speech recognition. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing, proceeding(1), 869–872. https://www.computer.org/csdl/proceedings-article/icassp/2002/05743877/12OmNx965BP

    -

Keep up to date with your connections on the Wantedly People App.