マルチモーダル情報による音源位置推定
画像から計算できるLine Of Sight(LOS)情報とマイクロホンアレイにより取得できる音響情報から計算される音源方向情報をグリッドベースのベイズ推論で統合することで、位置情報を計算する手法。 画像からLOSの計算は、SSD + KCF + ラベルクラスタリングを行い、音源方向推定はMUSIC法を用いた。
Discover companies you will love
株式会社Fusic / 先進技術部門 機械学習チーム
現職の株式会社Fusic (2020年4月~)では、画像処理、自然言語処理、音声処理を中心に信号処理・機械学習モデルの開発を行い、それらの推論環境をAWSで構築しています。
機械学習エンジニアとして、面白い開発であれば、特に分野は関係なく、挑戦していきたいです。画像処理、自然言語処理、音響処理などの分野の案件経験があり、GANや強化学習なども興味があります。
サッカー分析システム, 売り上げ予測などなど 画像処理、自然言語処理、音響処理(speech to text)
View Kai Washizaki's
Full Profile
This information is visible only to Wantedly users or the user’s connections
View past posts
View mutual connections
View Kai Washizaki's full profile
画像から計算できるLine Of Sight(LOS)情報とマイクロホンアレイにより取得できる音響情報から計算される音源方向情報をグリッドベースのベイズ推論で統合することで、位置情報を計算する手法。 画像からLOSの計算は、SSD + KCF + ラベルクラスタリングを行い、音源方向推定はMUSIC法を用いた。