小島秀夫が語る『Death Stranding』
『メタルギア』シリーズを終えた小島秀夫が "小島節" 全開の最新作について語った。
https://www.redbull.com/jp-ja/death-stranding-hideo-kojima-interview#:~:text=%E5%B0%8F%E5%B3%B6%E3%81%8C%E8%AA%AC%E6%98%8E,%E5%B0%8F%E5%B3%B6%E3%81%AF%E7%AC%91%E3%81%86%E3%80%82
現在のAIプロダクト開発には、画面の真ん中にチャットの履歴を置き、一番下にテキストボックスを配置する。いわゆる「Chat UI」が多い。
一方で、LLMがもたらした技術のポテンシャルと、それを包み込むChatインターフェースの間には、歪みが生じている。
文字で全てを指示しなければならない状態は、「言葉を尽くさないと何も伝わらない距離感」の証左でもある。実際、画面越しに顔の見えない初めましてのAIであるのは、そうだろう。
僕が好きなゲームHorizonとDeath Strandingは、同じゲームエンジン、Decimaエンジンから生まれた。
それはDecimaエンジンが技術的に優れていた、という以上に、人間としてのつながりがあったから。開発者がゲームを一緒にゲームを作る体験を共有したから。テクノロジーは人の体験の上にある、好きなストーリーを共有します↓
だから、体験の前に来る「とりあえずChat UI」では、本質的に使えるAIは作れない。
そもそも、LLMが実用性をもたらした、技術的転換点は「自然なチャットができるようになったこと」ではなく、自然言語、コードのロジック、画像、音声、動画、これまで別々の枠組みで処理するしかなかったあらゆる事象を、「トークン」という共通ののフォーマットに変換し、LLMのスケーリングに相乗りできたこにあると思う。
テキストだけでは越えられないデータの理解、世界や環境の理解を、テキストのスケールにトークン化して乗せることで、実現した。
人間はChatUIにより解像度が上がるだろうか?人間はChat UIで何がスケールするだろうか?
SFチックに聞こえるかもしれないが、これを最も早く、そして自然に実現できるのは「音声AI」だと考えている。
音声は、単なるテキストの読み上げではなく。声色、間、息遣い、ためらいといった、テキスト化する過程で削ぎ落とされてしまう「膨大なコンテキスト」を内包している。さらに、画面の前に縛り付けられることなく、歩きながら、作業しながら——つまり「ユーザーの現実の体験に並走しながら」情報をやり取りできる。 キーボードを叩くのではなく、声を介して文脈を共有することで、はじめて人間とLLMのスケールは同期して仕事ができる。
私たちは、言葉を尽くさなくても伝わる距離感をシステム上で再現する。
Chat UIというプロバイダ都合の単純化から脱却し、人間のポテンシャルを真に引き出す次世代の音声AI「モコボイス」を、私たちと一緒に作る人を募集しています。