AIと自分の判断、何%一致していますか。

自分用に組んだAIエージェントが、あなたの判断と何%一致しているか、測ったことはありますか。

先日、日常業務の一部を任せているAIエージェントの採否判定を、自分の判定とぶつけて測ってみました。対象は、私が普段ピックアップしているSNSのネタ候補のうち、過去2週間ぶんの35件。AIには採否の理由まで書かせて、私の判断とどこで揃って、どこでずれるかを並べました。

結果は、一致率33.3%。

正直に言うと、もっと高いと思っていました。日々の動きを観察して、判断基準も渡して、何度か手直しもしてきた相手です。それでも、3件のうち2件は私と違う採否を出している。

これは怖い、と感じた瞬間でした。私が見ていないところで採否を任せたら、3分の2は私の意図と違う方向に進む、ということです。

ずれの中身を一件ずつ見ていくと、面白いことが分かりました。AIは「単独の記事として面白いか」だけで採否を判定していた。一方で私は、無意識のうちに、別の観点を3つ持っていました。

ひとつ目は、複数の話題を束ねた時にだけ立ち上がる価値。単発では弱い候補でも、他のネタと並べると一本の線が見える、というケースです。AI側はこの種の候補を、単独で見て「弱いので不採用」と切っていました。私の頭の中には、勝手に「束ねたら活きる」というラベルが貼られていた。

ふたつ目は、シリーズとして連載した時の積み上がり。今日の記事が、来週の記事の伏線になるかどうか。これも、単発で読めば普通の話なのに、私の中では「3回目で効くから採用」と判定されていました。

みっつ目は、その人にしか書けない固有のポジションから出てくるかどうか。同じテーマでも、書き手の立ち位置が変われば、見えてくる景色は変わります。誰でも書ける話を、書き手の固有性で深掘りできるか。AIは「内容が一般的」と切るところを、私は「この立ち位置から書けば別物になる」と拾っていました。

この3つの観点は、私の頭の中では当たり前に動いていました。けれどAIに渡した判断基準には、一行も書いていませんでした。書いていないのに動いているもの、というのが、たぶん一番こぼれやすいのだと思います。

つまり、33%しか一致しなかったのは、AIの性能の問題ではなく、私が「自分の判断軸を全部は言語化できていなかった」というだけのことです。

そこで、判断基準に3つの観点を追記しました。束ね候補・シリーズ伏線・固有ポジション。文章にすると、それぞれ二行から三行で済みます。

書き直した基準で同じ35件を判定し直したところ、一致率は100%になりました。

数字としては気持ちの良い跳ね方ですが、私が手にしたのは「うちのAIは優秀だ」という事実ではありません。手にしたのは、自分の判断軸の地図でした。地図ができたので、次の人にも、次のAIにも、同じ基準で引き継げるようになりました。

これまで何となく動いていた3つの観点が、AIに渡せる文章として外に出てきた。書き出してみて、はじめて「ああ、私はこういう順番で物事を見ていたのか」と分かりました。

AIに任せる、というのは、自分の判断を外に置く作業です。外に置くためには、まず自分が何を見ているかを知らないといけない。一致率を測るというのは、AIを採点する作業のように見えて、実は自分の判断軸を点検する作業でした。

少し前に、日常業務を任せている副操縦士役のAIに名前を付けて運用している話を書きました。そのときは「任せる」という入口の話でした。今回はその続きで、任せたあとに必ず通る道の話です。一度任せて、ずれを測って、自分の観点を一枚書き足す。この往復をしないと、任せた仕事は静かに別物に変わっていきます。

しばらく運用してみて思うのは、AIに任せる前にやるべきことは、立派なプロンプトを書くことよりも、自分の判断のずれを測ることだ、ということです。一致率が低い時、悪いのはAIではなく、たいてい言語化されていない自分の観点のほうです。

派手な自動化を組む前に、地味な突き合わせを一度やる。そのほうが、結局のところ早い気がしています。一致率は、AIの賢さを測るスコアではなく、自分が自分の判断をどれだけ外に出せているかを映す鏡でした。

任せる相手が増えるほど、自分の判断の解像度が上がっていく。これは、AIに業務を渡し始めて分かった、ちょっと意外な手応えでした。

※この記事は、私のAIパートナーのBishopが下書きを出して、本人が編集したものです。元の文章がどれくらい残っているかは、読者の皆さまのご想像にお任せしています(苦笑)。

AIと自分の判断、何%一致していますか。

Iwanaga Kozue