Nishika 代表取締役CTOの松田です。
最近、「AIの進化はどこまで続くのか」と問われることが増えました。
経営者の方から質問いただくこともありますし、学生さんから今後のキャリアに悩んでいますという文脈で質問いただくこともありました。
純粋な技術トレンドの話として質問いただくこともありますが、
経営者にとっては、どこまでAIが伸びると見立てて事業戦略を組むか——どの業務をAIに委ね、どこに人を残し、どの領域に資本と時間を投じるか——という、実務的な問いです。
個人のキャリアにとっても同じで、これからの数年、人間が価値を出せる領域がどこに残るのかを把握できているかどうかで、キャリアの選択は変わります。
本稿では、この問いに対する現時点での私の見立てを整理しておきたいと思います。
先に結論を言えば、AIはまだしばらく伸びるが、その伸び方は領域によって不均一であり、その不均一さは「検証可能な環境があるか」と「その検証ループをどれだけ速く回せるか」の2つでほぼ決まると考えています。
出発点:コーディングエージェントの成功は何を示しているか
まず、出発点として参照したい論考があります。ELYZA曽根岡氏が、コーディングエージェントの成功要因についてこう述べています。
コーディングで LLM が人間に勝つようになってきたからすごいよね、という話はあるんですけど、別に LLMが勝っている領域ってコーディングだけじゃないんですよ。セールスマネージャーとか、アナリストとか、編集者も普通に超えている。だけど皆さんの関心がコーディングエージェントに集中しているのは、コーディングならではの特殊な状況があるからだと思います。
——その特殊な状況とは何か
大きく言うと2つあります。1つは、AI が作業する場として完全情報であること。(中略)もう1つは、AI が出した出力に対して自動的に検証ができるということ。
https://mugenlabo-magazine.kddi.com/list/elyza_1/
「完全情報」と「自動検証」。この2条件が揃っているからこそ、コーディングエージェントは爆発的な進化を遂げている、という整理です。納得感のある見方であり、私の見立ての出発点もここにあります。
結論:AIはまだ進化するが、均一には進まない
一言で言えば、AIの進化はまだかなり続くが、均一には進まないと考えています。伸びる順番は、おおよそ次の3層に分かれるはずです。
1. 完全情報 × 自動検証がある領域
コード、数学、表計算、データ分析、法務チェックの一部、広告運用など。ここは引き続き最速で進化します。SWE-benchのような実リポジトリの修正能力を測るベンチマークでも、急速な改善が報告されています。
2. コーパスはあるが、検証が弱い領域
戦略立案、編集、研究仮説、営業戦略、人事評価、投資判断など。「すごく賢く見える」のですが、真に自律化するには時間がかかります。なぜなら、出力の正しさを即座に機械判定できないからです。ここは、AIの進化というよりも、企業側が業務をエージェントレディにできるかどうかがボトルネックになります。
3. 実世界・身体性・五感の領域
ロボット、触覚、嗅覚、味覚、医療現場、介護、料理、建設、農業など。進化はするものの、生成AIほど爆発的には進みにくい。データ取得が高価で、センサーが標準化されておらず、失敗コストが高く、シミュレーションと現実のズレがあり、主観評価が多いためです。
重要なのは「測定・記録・評価できる世界」
ここで強調したいことが1つあります。それは、AIは「世界そのもの」を学ぶのではなく、「測定され、記録され、評価できる世界」を学ぶということです。
たとえば嗅覚については、分子構造から匂いの知覚を予測するPrincipal Odor Mapという研究があり、未知の匂い物質の記述で人間の平均パネルにかなり近い性能を示しています。食品分野ではe-nose / e-tongueが進み、鮮度・混入・真正性の判定で80〜96%程度の予測精度が報告されています。
しかし、これらは「人間が好む香りや味の総体を理解する」ものではなく、「化学センサーで測れる対象を分類する」に近い。Webコーパスがない領域でAIが進むには、Webコーパスではなく、センサーコーパス、行動コーパス、失敗コーパス、物理フィードバックの大規模な蓄積が必要になります。
自己学習も無条件ではない
「AIが自分で学習し続ければ無限に伸びるのではないか」という問いも、よく受けます。これも条件付きです。
自己生成データだけを無差別に再学習すると、分布の尾が失われる "model collapse" が起きることが示されています。つまり、自己学習が効くのは、外部の検証器、実世界フィードバック、人間検証済みデータ、シミュレータ、テスト環境がある場合に限られる。
ここでもやはり、「検証可能な環境があるか」という問いが効いてきます。
第二の軸:フィードバックループの速さ
ここまでは「検証可能か否か」という軸で整理してきましたが、これだけでは説明しきれない現象があります。同じく「完全情報 × 自動検証」が揃っている領域でも、進化スピードには明確な差が出る。鍵を握るのは、検証サイクルがどれだけ速く回るか——フィードバックループの速さです。
具体的なオーダーで比べると、その差は桁違いです。
- ミリ秒:コードのユニットテスト、SQLの実行、ゲームAIの自己対戦
- 秒〜分:ビルド・E2Eテスト、広告クリエイティブのA/B
- 時間〜日:UXのリリース実験、レコメンドの改修
- 週〜四半期:営業戦略、人事評価、投資判断
検証可能性が「学習信号が取れるか」を決めるのに対し、フィードバックループの速さは「単位時間あたり何回学習できるか」を決めます。前者は 存在条件、後者は 加速度 にあたります。強化学習的に言えば、ループが10倍速ければ、同じ計算予算で10倍多くの試行が積める。生成AIの進化が爆発する領域とそうでない領域を分けるのは、この2軸の積です。
つまり、これからのAI活用の競争力は、「検証可能か × どれだけ速く回せるか」という2次元の地図で測られていくはずです。同じ「検証可能領域」の中でも、ループが速い側から順に自律化が進む——コーディングが先行した理由は、ここにあります。
主戦場は「モデル単体の賢さ」から「検証可能な環境」へ
整理すると、AIの進化の限界は、「知能の限界」よりも先に、かなりの部分で観測・データ化・検証・実行環境の限界として現れるはずです。
そして、AIの進化の主戦場は、「モデル単体の賢さ」から「検証可能な環境をどれだけ作れるか」に移っていく。コードで起きたことは、会計、法務、営業、研究、医療事務、製造管理、教育などにも順に起きていきます。ただし、それぞれの領域で「完全情報」と「自動または半自動検証」の環境を作れた企業・業界から、順に、です。
一方、匂い・味・触覚・実世界ロボティクスは、人間の自然言語回答だけでは粗い分類に留まりやすい。ここでブレイクスルーが起きるには、Webコーパスではなく、センサー側・現場側のデータ蓄積が必要になります。
おわりに:Nishikaが取り組んでいること
ここまでの議論を、私たち自身の事業に引きつけて考えてみます。
Nishikaが提供する会議AI「SecureMemo」シリーズも、まさに「検証可能な環境」を作るという構造の中にあります。会議という現場には、検証信号として機能しうるデータが、本来であれば豊富に存在しているはずです。具体的に、たとえば次のような検証ループが考えられます。
文字起こし精度の検証ループ(実装済み)
ユーザーが文字起こし結果に修正を加えると、その差分がそのまま、組織固有の用語・人名・専門語に対する正解ラベルになります。使えば使うほど、その組織にとっての精度が向上していく。短サイクルかつ高頻度で回せる検証信号です。
「この問いにはこう返す」の蓄積
会議の中で、ある立場の人がある質問にどう返したか、というQ&Aの対応関係が蓄積されていきます。これが溜まれば、AIが生成した発言案・要約・論点整理を、過去の類似文脈と照合できるようになる。
実用的なイメージとしては、商談の会議録が溜まっていけば、新しい顧客から類似の質問を受けたときに、過去に有効だった回答を即座に提示できる、というような世界です。トップセールスの「型」が、データとして組織に残り、再利用されていく構造です。
アクションアイテムの実行可否
会議で決まったTODOが、その後実際に完了したか。どの粒度で、どの言い回しで書かれたものが実行されやすかったか。これが追えれば、要約・議事録生成の品質を、下流の業務遂行で検証できる。
これらに共通するのは、いずれも「会議」という同じデータソースから複数の検証信号を取り出せる、ということです。会議は本来、組織の意思決定と情報伝達が最も濃密に交差する場であり、そこを構造化・データ化していくことの価値は、生成AIの時代において一段と大きくなる。
言い換えれば、会議は、組織にとって最も検証信号が豊富な学習現場である——これが私たちの仮説です。そして、その学習信号を取り出し、組織の知に変えていくのがSecureMemoの役割だと考えています。
「検証可能な環境を作れるか」という問いは、AIを提供する私たちにとっても、それを導入する企業にとっても、これからの数年で重い意味を持ち続けるはずです。私たちは、会議という現場で、その答えを作っていきます。