Spotify、radiko、ポッドキャストといった既存のインターネットの音声広告から、ラジオ局や新聞社とともに音声アドネットワークの構築を進めるなど、海外諸国に比べ出遅れ気味だった日本国内の音声コンテンツ・広告を牽引しているデジタル音声広告事業を展開する "オト" × テクノロジー の音声広告カンパニー・株式会社オトナル。 代表・八木さんに「音声コンテンツと音テクノロジー」や「FIMMIGRM」について語っていただいた。
子どもをあやしながら音声入力で仕事をする経験から「音声の時代がくる」と確信
株式会社オトナルは2018年から始動していますが、会社自体は2013年に設立。オトナルになるまではウェブメディアの運営業務をされていました。Apple Music の日本上陸が2015年、Spotifyが2016年…2018年というと、日本国内ではポッドキャストやストリーミングサービスがやっと浸透してきた頃。当時、音声データに特化した広告代理店はなかったように思いますが、始めるにあたり不安はなかったのでしょうか?
八木:
「オトナル」という社名に変更したのが2019年ですが、会社自体は2013年に創業しています。創業当時は「京橋ファクトリー」という社名で、「ビール女子」(ビールを通じて人々に幸せを届けるWEBマガジン)などの自社メディア運用がメイン業務でした。実は「京橋ファクトリー」を始める前は、左利き楽器専門のオンラインショップをしていたんです。もっと遡ると、学生時代はバンドマンで、演奏するより楽器を眺めるのが好きでした。それもあって、左利き用のギターやベースを売るオンラインショップを始めたんです。起業当時は社会人3年目。そこそこ売れてはいたんですけど、サウンドハウスの利益率には敵わないわけです(笑)。それでやめて、次はものを売るビジネスではなく情報でいこうと。ネットショップを立ち上げた知見を使ってウェブメディアを始めました。「ビール女子」を立ち上げたらウェブメディアとしては好評で、2018年に事業譲渡させていただきました。そこで次に何をやろうとなって、音声に行き着きました。
楽器屋さん、ウェブメディアときて、インターネットの音声広告に行き着いたんですね。それまでやってきた業種とは違いますが、不安はなかったのでしょうか?
八木:
僕のなかでは繋がっているんです。バンドをしていて、そこから楽器屋さん。その後ウェブメディアというコンテンツ制作。ウェブメディアの運営をしている方はご存知だと思いますが、記事を配信するのにRSSという仕組みを使います。ブログでもよく使うやつです。実はこのRSSって、スマートスピーカー(アレクサのようなAIアシスタント機能を持つ多機能スピーカーのこと)にデータを読み込ませるときにも使っているんです。つまり、ウェブメディアの運用で得た知識を、音声データの世界で転用できたんですね。元から楽器屋さんをするぐらい “音” そのものも好きだったのもあり、不安は感じていませんでした。
最近はどんどん新しいスマートスピーカーが発売されています。八木さんがスマートスピーカーに注目したきっかけはなんでしょう?
八木:
2017年に子どもが産まれたのが大きなきっかけかもしれません。乳児を抱っこしながら仕事をしていたので、両手が塞がっているじゃないですか。そこで、スマートスピーカーや音声入力を使えばインプットもアウトプットも音声でできるということに気がついたんです。2017年って、日本で初めてスマートスピーカーが発売された年でもあるんです。発売されてさっそく使ってみたらすごく便利で、音声入力に魅了されてGoogleドキュメントの音声入力を使って本を一冊書きました(笑)。
それで「近い将来、音声の時代が来るぞ」と確信しました。今はラジオが家にある人って少ないと思うんです。スマホでも聴けるけど、ラジオ端末を持ってる人はほぼいないですよね。だけどスマートスピーカーが普及したら、またラジオを聴く人が増えるなと。ラジオというか、ポッドキャストも含めた音声コンテンツの時代がくると思います。
2019年前半の音声市場は、電通と僕らがポツンと平原に立っているという感じでした(笑)
社名がオトナルになった2018年頃は、まだ日本国内で音声コンテンツや音声広告専門の会社がなかったように思います。
八木:
そうですね、国内にはあまり事例がありませんでした。2019年の音声市場は、電通と僕らがポツンと平原に立っているという感じ(笑)。だからオトナルになった直後は海外に情報を集めに行っていました。
日本ってスマートスピーカーの発売が海外より3年遅れていますし、ポッドキャストも米国では市場がしっかりできている。海外では音声コンテンツの出稿もプログラマティックにバリバリやっている。そういう技術的なことや、市場を知るために国外に出ていました。国内では本当に何も情報がなかったので。今でも海外の企業と日常的にやりとりをしています。技術提供をいただいたり、パートナーシップを組んだりですね。国内はまだ発展途上です。
FIMMIGRMだったら「ピッタリがない」という状況がないってことですよね。
今回インタビューを受けていただくにあたり、事前にAI作曲サービス・FIMMIGRMを使用していただきました。FIMMIGRMは完全オリジナル曲をAIが提供してくれます。さらに権利まで買い取れるうえに、一度買い取った曲が他の人に渡ることもありません。実際に触っていただいていかがでしたか?
八木:
弊社の場合だと、音声広告制作をするときに活用できそうです。何パターンか作ってお客さんに選んでいただくことが多いので、そこを効率化できそうです。
あとは直感的に操作できたので、迷うことなく使えました。あと、管理画面がかっこいいです! 見たことがないレベルのかっこよさです。ひとつひとつについている模様のようなループのサムネイルも、全てかっこいいです。あと、権利買い切りが素晴らしいです! しかも安い! 商売っけなさすぎじゃないですか!? もっと高くても使いますよ?
普段は有料素材サイトから曲を探しているとお聞きしました。
八木:
うちが契約している有料音素材サービスは素材数が売りのひとつでもあるんですね。ラジオ局も使っているサービスです。膨大な量の音素材があります。それでも「ピッタリの音が見つからない」という状況がよくあります。でもFIMMIGRMだったらMIDIを編集できるから、「ピッタリがない」という状況がないってことですよね。それもすごいです。
あといちばん素晴らしいと思ったのは、かぶらないことですね。たとえばポッドキャストの音声番組で毎回使うBGMだと絶対にかぶりたくないんですよ。でもどうしても、使い勝手のいいものはかぶります。例えばお悩みトーク番組でよく使っているBGMが、別の場所ではお料理番組に使われてたりするとね…イメージがぶれますから(笑)。シリアスなニュアンスで使っていたものが、別ではコミカルになっていたら嫌じゃないですか。FIMMIGRMだと権利ごと買い切りだから他のユーザーとはかぶらないと聞いて、これは流行るぞ!と思いましたね。
ありがとうございます! 「こんな機能があったらいいな」があれば教えていただけますと幸いです。
八木:
ジャンル検索だけでなく、「HAPPY」とか「RAINY」とか、雰囲気や感情を表現する単語で出せるともっといいですね。広告やコンテンツのBGMを選ぶときって、テンポやジャンルはなんでもよくて、それよりも感情とか、雰囲気やテーマが重要になってきます。特にポッドキャストなんかだと、音で話の雰囲気を作ったりするので、具体的なテンポやジャンルに落とし込まずに感覚的に使えると嬉しいです。
人間はもっと創造的なことをやるべきだ。
FIMMIGRMを使用することは「AIとの共作」と言えると思います。自分以外、しかも人間ではくAIと共作することについて どう思いますか?
八木:
AI、すごく面白いと思います! だって僕はスマートスピーカーを作ろうとしていましたからね(笑)。スマートスピーカーって音声合成という技術なんですけど、これを使うと特定の人間の声を作ることができるんです。技術的な話になるんですけど、例えば僕が日本語のセンテンスを600から1000文ぐらい読むんです。1000ワードぐらいで日本語を大体網羅できるような文章があって、それを読んだ音声をディープラーニングで合成させるとAIが僕の声を作れるようになります。「今日はいい天気ですね」って僕の声で読めるようになるんです。ディープラーニングのバージョンが上がるとどんどん滑らかになります。
で、「人間はしゃべる必要ないな」って思っちゃいました。「人間はもっと創造的なことをやるべきだ」って。
最近はAIが描画する「Midjourney」が流行っていますが、今後創作はどうなっていくでしょう?
八木:
最初はちょっと怖いなって思いました。グラフィックをやっている方はもっと怖いんじゃないかな。でもあれも、全く人間の力がいらないかというと違う。AIに指示するディレクション力が必要になってくる。賛否両論あるでしょうし自分もまだ様子を見ている状況ですが…新しい仕事が生まれそうですよね。AIに指示を出す専門家みたいな。AIと共作というよりは「棲み分け」になるだろうと思っています。
音声合成の話に戻ると、ディープラーニングをバージョンアップしてどんなに滑らかにしても、感情表現は難しいんです。プロのナレーターさんやシンガーさんの抑揚とか、シャウトしたり、涙声になったり、強弱の付け方…例えば「ありがとう」って言葉だけど悲しい感情を込めるなんてことはAIには難しいですね。本当にハイエンドな人間らしい表現は、やっぱり人間が必要です。でも、例えばいろんな声色の「こんにちわ」が欲しい時はAIだといいですよね。要は役割分担だと思います。
いろんな声色の「こんにちわ」が気軽に確認できると便利ですね。声優さんを選ぶ前に誰がイメージに合うか声をあててみるだとか、曲調のパターン出しをするだとかで活躍しそうです。
八木:
そうですね。人間が10パターン作ると時間がかかっちゃいますから、そこはAIにお願いして。人間は創造的なことをするべきだと思うので、時間効率化のためにAIを活用していきたいです。人間の仕事は無くならないと思います。
取材・文:金延紗衣
画像提供:オトナル