“品質の床”を実装する——個人開発のAIガバナンスOSSと、私の設計判断

私は個人で、Axiarch（アクシアーク）というオープンソースのフレームワークを作って公開しています。
ひとことで言うと、AIにコードを書かせるときの「品質の床（最低ライン）」を、操縦者のスキルやツールに依存せず引き上げ・維持するための仕組みです。

この記事は機能紹介ではなく、私がどんな判断軸でものを作る人間なのかの記録です。
一緒に働くかもしれない方や、同じく個人開発をしている方に、判断のクセが伝わればと思っています。

なぜ「品質の床」を作るのか

AIに実装を任せるほど、怖いのは最高品質を出せないことではなく、気づかないうちに最低ラインを割ることです。

文脈が長くなったり、ツールが変わったり、自分の集中が切れていたりすると、品質は静かに下がる。
だから「誰が・どのエージェントで動かしても、ここから下には行かせない」という床そのものを設計対象にしました。

これが Axiarch の出発点です。
自分の本当のプロジェクトで使いながら、2ヶ月で57回コミット、ルールは38から50ファイルへと育ててきました。

最初から「ルールは書いただけでは守られない」を前提にしています。
AIは文脈が長くなると、自己判断で再確認を省きます。
だから「守ってくれるはず」という願望に賭けず、「守られない瞬間がある」という観測された事実に設計を合わせました。

お願い（リマインダー）と、どうしても外せない一線を機構で止める物理ブロックの二段で、「善意がなくても床は割れない」状態を作る。
意思決定として振り返ると、ここが一番の分岐でした。

床を守らせる手順には、AIエージェント開発の文脈で使われる「ハーネスエンジニアリング」という考え方を取り入れました。

憲法の3層（普遍ルール・プロジェクト固有・プロンプトテンプレート）は変えず、それを実行順序・監査・証跡・人間承認へ橋渡しする運用工学です。

新しい権威を足すのではなく、既存の床を実際に効かせる通り道を作る。
増やすのは判断の数ではなく、判断の通り道だ、という判断です。

床の上げ方は層で分けました。

普遍ルール（憲法本体）は、どのプロジェクトでも効くと分かった領域を足して引き上げる——38→50はこの普遍層の増分です（直近は認証スタック）。

一方、個々の現場で起きた教訓は、プロジェクト固有の層（Blueprint）で結晶化させて育てる——一か所のログにためておき、同じ領域で3件たまったら正式ルールへ昇華させる（昇華前に普遍ルールとの重複も確認）。

層を混ぜないまま、両方の床を使いながら上げていく。
最初に完璧な体系を組むより、フィードバックが床を一段ずつ押し上げていく流れのほうが、私には合っています。

検証できたことだけを言う、と決めています。

主対象の Google Antigravity・Claude Code・Codex は、いずれも実運用（ドッグフーディング）で稼働確認済み——この今回のリポジトリ自体、コミット履歴の大半が Claude Code・Codex 経由です。

ただし全環境での動作保証まではしない、とも明記する。
Codex でスラッシュコマンドを見送ったのも、思想ではなく確実に動く保証がなかったからです。

品質の床を扱う道具が、自分の床の高さを偽ったら本末転倒。
言い切れる範囲を狭く保つほど、その一言の重みが増す——これは仕事の進め方そのものについての信条でもあります。

品質の床は、一度引いて終わりの線ではなく、定義し・守らせ・上げ続けるものだと、この2ヶ月であらためて自覚しました。

仮説を立てて出してみて、実プロジェクトで検証して、観測された事実に素早く設計を合わせ直す。
そのループを、正直さを保ったまま速く回す。
それが私の進め方です。

もし、そういう向き合い方に共感してもらえる方がいたら、とても嬉しいです。

Axiarch はオープンソースで公開しています。
興味があれば、覗いてみてください。
→ https://github.com/hiroyuki-miyauchi/axiarch

“品質の床”を実装する——個人開発のAIガバナンスOSSと、私の設計判断

Hiroyuki Miyauti