スピードも精度も世界一。音声AIの技術を支える3つの柱とは

株式会社サウンドハウンド

Engineering

Mid-career

on 2017-07-26

2,449 views

6 requested to visit

スピードも精度も世界一。音声AIの技術を支える3つの柱とは

株式会社サウンドハウンド

Mid-career

Share this post via...

Hiroko Kimura Nakajima

Director/manager

Hiroko Kimura Nakajima Director/manager

What we do

ハミングや鼻歌からでも楽曲を特定できる音楽検索アプリ「SoundHound」。そのアプリを提供するアメリカのサウンドハウンド社が次なるサービスとしてリリースしたのが音声アシスタントアプリ「Hound」と、そこで使う音声認識技術を一般の企業も広く活用出来るようにするプラットフォーム「Houndify」です。

「Hound」が画期的なのは、「周辺のカフェのなかでWi-Fi環境があって日曜日の午後9時までオープンしているのはどこ？」といった複雑な質問にも正確に答えられること。しかも、回答するまでにかかる時間はほんの一瞬。そのHoundの音声認識技術を支えているのが、「Houndify」です。

What we do

Why we do

サウンドハウンドは2005年、スタンフォード大学で音声認識の研究をしていたケイヴァン・モハジャーによって設立されました。彼は大学の研究室で講師を務めていて、友人や教え子たちとともに起業した形です。

その研究室には、かつてGoogleの創始者たちも所属していました。つまり、検索機能に関する知見やノウハウは世界一と言っても過言ではないということ。さらにケイヴァンの音声認識に関する技術と知識が加わり、人とデバイスが自由にコミュニケーションできる世界を目指した研究開発がスタートしたのです。

現在、世界各国の名だたる企業が、人とデバイスの音声によるコミュニケーションを目指して技術開発を行っています。しかし今のところ、サウンドハウンドにかなう技術力を持った企業は現れていないと思っています。世界最高クラスの技術力を誇るサウンドハウンドの優位性は、具体的にどんなところにあるのでしょうか。

How we do

──　単刀直入に聞きます。サウンドハウンドの技術的な優位性はどこにあるのでしょうか？

サウンドハウンドの高い技術力は「1. Speech to Meaning」「2. 12年間にわたる音声認識研究」「3. 自然言語理解のフレームワーク」という3つの柱に支えられているものです。ひとつずつ説明していきますね。

1.　Speech to Meaning

音声検索は、入力された音声をテキストに変換する「音声認識（ASR）」と、そのテキストからユーザーの意図を解釈する「自然言語理解（NLU）」のふたつの技術を組み合わせて行います。

一般的な技術力では、音声認識と自然言語理解は別々のステップに分けて行うしかありません。2段階の処理を行うことになるので、その分時間もかかるし、エラーが積み重なって精度も落ちます。

しかしサウンドハウンドの「Speech to Meaning」の技術は、このふたつの処理を同時に行うことができるのです。すると、必然的にスピードは上がるし、お互いのエラーを補う機能が働くことで精度も上がります。

そのためサウンドハウンドの音声AIの技術は、スピードと精度ともに世界最高クラスに達しているのです。

2. 12年間にわたる音声認識研究

この「Speech to Meaning」の技術を可能にしている大きな要因は、2005年の創業当初から積み重ねてきた音声認識の研究実績です。サウンドハウンドは、事業としてハミングや鼻歌で音楽を検索するサービスを提供しつつ、音声認識の技術力を高める研究開発を地道に行ってきました。

そのため、研究開発とユーザーテストを常に両軸で行うことができたというわけです。この12年間の積み重ねを凌駕できるような技術をもった企業が現れることはおそらくないのではないでしょうか。

3. 自然言語理解のフレームワーク

サウンドハウンドでは自然言語理解のロジックをドメインと呼んでいます。たとえば「天気のドメイン」「地図のドメイン」「ナビゲーションのドメイン」などです。現在120種類以上のドメインが開発されていますが、担当しているチームのメンバーはたったの10人前後。なぜ、ここまで高い開発効率を実現できるかというと、独自のフレームワークを持っているからです。

そして現在、サウンドハウンドの日本法人が行っているのが、日本語のドメインの開発と実装ということになります。

「1. Speech to Meaning」「2. 12年間にわたる音声認識研究」「3. 自然言語理解のフレームワーク」という3つの柱があるからこそ、サウンドハウンドの技術力は世界最高クラスだと胸を張って宣言することができます。

事実、IT分野における世界有数の企業はいまだ「Text to Meaning」、つまり自然言語理解の分野に絞って研究開発を行っています。この現状を鑑みても、音声AIの分野で世界的なイニシアチブをとっていくのはサウンドハウンドだと言えるでしょう。

As a new team member

自分で歌っても、BGMなどの曲を聴かせても、楽曲を特定できる音楽検索アプリで成功したサウンドハウンド社が次なるサービスとしてリリースした音声アシスタント「Hound」。Houndの音声認識技術を、家電やアプリなどで活用できるようにするプラットフォーム「Houndify」の日本語版をつくります。

サウンドハウンド社は、日本でも有数の企業から投資などのバックアップを受けており、プロジェクトも複数進行中です。日本ではまだ知名度が高くありませんが、日本語での音声認識技術はまさに発展しつつある分野ですので、これから注目を浴びる機会が増えていくことでしょう。

サウンドハウンドではエンジニアを募集しています

サウンドハウンドでは、「Houndify」日本語版の開発に携わっていただけるエンジニアを募集しています。

「私たちは、前例のない世界を切り開いていくことにワクワクできるエンジニア、人が話す言葉について考えるのが好きなエンジニア、そしてなによりプログラミングの腕に自信があるエンジニアを求めています。
Houndify のビジョンに共感していただけたら、ぜひご応募ください」