こんにちは!採用担当の鴫原です。
2023年1月20日に、弊社主催のセミナー「お招きアポロ#1 ~LINE CLOVAの開発者が語る音声認識AIが描く、近未来の姿。~」を開催しました!
講師としてLINE CLOVAの開発者であり、音声領域の第一線で活躍するLINE株式会社AI技術開発チームマネージャーの木田祐介様をお招きし、LINEにおける最新の取り組みなどについてお話して頂きました。
弊社では初めてのイベント開催となりましたが、オンライン・オフライン共にたくさんの方にご参加いただきました。今回はその様子の一部をお届けいたします!
講師のご紹介
木田 祐介様|LINE株式会社 / AIカンパニー AI開発室 AI技術開発チーム マネージャー
CLOVA Noteの何がすごい?
CLOVA Noteとは音声認識の技術を使い、録音から文字起こしを行うアプリです。
音声認識アプリは他にも色々ありますが、CLOVA Noteの強みは次の三つにあります。
- 高い認識精度
- 処理の高速性
- 話者分類機能
音声認識のアプリなので、認識精度の高さは重要ですよね。
それに加え、録音した音声データをアップロードして結果が出てくるまでの速度がとても速く、1時間ほどの会議録であっても約2分で結果を返してくれます!
また、誰が話したかを自動で判別し、話者を分類して文字起こしをすることが可能です。
CLOVA Noteは従来の音声認識技術とは異なり、End-to-Endのニューラルネットワークモデルを使用しており、単一のモデルで文字列を直接出力しています。
シンプルで高い精度であるところが特徴ですが、大量の学習データを用意する必要があり、コストがかかってしまいます。
この課題を解決するために、Self-Supervised Learning(自己教師あり学習)という技術が用いられているそうです。
ここでは割愛しますが、イベント内ではCLOVA Noteの強みを実現するための技術をより詳しくお話をしていただきました!
音声技術の最前線
続いて最前線の音声技術についてです。まず最初にご紹介いただいたのが、OpenAIが2022年9月に発表した音声認識モデル「Whisper」です。
Whisperはこれまでの1つのモデルで認識・翻訳の2つのタスク切り替えを行うことができ、またプロンプティングによるドメイン適応が可能とのこと。
このプロンプティングについてもう少し具体的に説明します。
例えば、「ちょうしがいいですよ」という音声を聞いたとき、頭には「調子が良いですよ」と浮かぶかと思います。ところが、仮に千葉の旅行先を相談しているという事前情報があったとすると、「銚子がいいですよ」と浮かぶかと思います。
人間の頭ではこれを自然に行うことが出来ますが、今まで音声領域のAI技術ではこの変換ができなかったとのこと。それを可能にしたのが、このWhisperのプロンプティング技術だそうです!
約68万時間のラベル付き音声データで学習することで新たな価値を出せることが実証されたそうです。
イベント内ではさらに、プロンプティング技術によってドメイン適応が可能になることについてより詳しくお話をしていただきました。
他にも感情音声合成の技術や、音声から状況を記述するAudio Captioningの技術についてもお話がありました。
おわりに
いかがでしたでしょうか?
オフライン、オンラインの同時開催で、オフラインは定員ぎりぎりの20名弱の方にお越しいただきました!
オフライン参加者の方とはイベント後に懇親会を行い、講師の木田様や参加者に混ざってアポロ社員も皆さまと交流させてもらいました。
オフィスのあちこちで活発にトークが繰り広げられており、とても賑やかで楽しい時間を過ごせました!
イベント初開催ということで不慣れな点も多かったかと思いますが、参加者の方々からは「内容が興味深く面白かった」、「参加してよかった」等のご意見をたくさんいただき、ほっとしました。
アポロでは今後も定期的にお招きアポロと題した勉強会イベントを開催していきます。今回ご参加くださった方も、このレポートを見て初めて知ってくださった方も、是非ご参加いただけますと幸いです!
次回は4月14日(金)に、株式会社サイバーエージェントの安井翔太様をお招きし、因果推論を用いた効果検証について基礎部分から応用までお話して頂きます。
募集が始まり次第告知させていただきますので、ご参加お待ちしております!