ドメインの情報を組み込むためのモデリング

データサイエンスチームリードの中橋です。前回の記事で、我々JDSCでは現実の制約や先験的知識などドメインの情報を組み込んだモデリングに挑戦していることを紹介しました。そのためのアプローチの１つとしてベイズモデリングを挙げたのですが、今回は具体的な例を取り上げながら紹介してみたいと思います。

問題設定

製造業のデータ分析に関わっていると、次のような相談を受けることがあります：「不具合が１件だけ出ているのですが、これが今後増えるかわかりますか？」

これは大変むずかしい質問です。収集したデータからパターンを見つけていくという統計学や機械学習の立場からすると、「この状況では何も言えません。あえて言うなら不具合の発生確率は少なくとも０ではない、ぐらいです」というのが教科書的な意味で正しい・誠実な回答となるでしょう。

一方で特に品質保証の部門が一番知りたいのは正にこのような 不具合が１件しか発生していない状況における将来的な見通し です。この不具合が発生したのは偶然なのか、それとも設計・製造に起因するものであるのか。これから不具合が増加するのか、するとしたらどの程度か。こうした疑問に答えて意思決定を進めていくために、現場では「情報が少ない中でも判断するための枠組み」が求められます。

JDSCはこのような場面における意思決定を支援するためのアプローチを考えています。本記事では不具合の発生件数の分析でよく利用されるワイブル解析をベースとし、最初に「N=1ではパラメータの推定はできない」という原理的な限界を確認したうえで、それでも実務で議論を進めるための方法を検討します。その鍵になるのが、事前知識をどう扱うかという点です。

ワイブル解析

市場での不具合について分析する際、よく使われるのがワイブル分布です。ワイブル分布は２つ（または３つ）のパラメータによって不具合の発生が時間とともに増える・減るといった挙動を柔軟に表現でき、確率密度関数は次の形となります：

ここで k(>0)・λ(>0) はそれぞれ形状（shape）・尺度（scale）パラメータです。ワイブル分布は初期故障や経時的な摩耗による故障など製造業における代表的な不具合の発生パターンを表現できることから、ワイブル確率プロットなどで推定した shape や scale から故障モードを考察したり、また故障モードが変化するタイミングを評価することが可能［1］です。

［1］…実際には複数のモード・パラメータのワイブル分布が混合していることも多く、慎重に解釈する必要があります https://www.jstage.jst.go.jp/article/reajshinrai/42/3/42_102/_pdf

N=1となるケースでの問題

不具合の発生がワイブル分布にしたがう場合、十分なデータがあれば上記の手順で妥当な推定が可能です。一方で、問題設定の節で紹介したような「不具合が１件しか発生していない状況」ではこの手順が成立しません。というのもワイブル確率プロットは線形回帰により推定したパラメータをもとに shape/scale を求めますが、不具合が１件しかないケースでは shape / scale が一意に定まらないためです。

では、それでも何らかの判断を行いたいときにどのような方法が考えられるでしょうか。我々はベイズ化による事前知識の取り込みが１つのアプローチであると考えています。

事前知識の取り込み

ある製品において何かの不具合、たとえば特定の部品における設計や加工不良による異音や振動などが確認されたとき、製品の担当者は該当部品の不具合だけを気にするでしょうか。きっとそうではなく、例えば

この部品を利用している他の製品ではどうだろうか
このサプライヤーに加工を依頼している他の部品は大丈夫か
この部品を組み込んだアッシの他の部品はどうか

などを考えるでしょう。このような現場の担当者の思考をモデルに組み込むためのアプローチとしてベイズモデリングがあります。

ベイズモデリングとは、ベイズの定理を基盤とした分析・モデリング手法のことです。ここでベイズの定理とは以下の式を指し、事前分布と標本モデルによって事後分布がどのように変化するかを定めたものです：

ここで注目したいのは p(θ) で、これはパラメータ（ワイブル分布であれば shape や scale）自体に対する分布（信念）を表しています。ワイブル分布のパラメータ、例えば shape(k) において値が１未満であれば初期に不具合が集中する初期故障型であると解釈されますが、この shape の事前分布として１よりも低い値にピークを持つような分布、たとえば

を設定することで「この不具合は初期故障型であろう」という信念を表現することになります。実際には新たな不具合を観測するたびに事後分布が更新されるため、例えば一定期間が経過してもなお不具合が発生するようであれば「初期故障型である」という信念は徐々にデータによって覆されていくことになりますが、データが蓄積されないうちはこの信念が強く反映されることとなります。

ということは、shape や scale に対する事前分布を適切に設計できれば、少数（極端にはN=1）の不具合に対して何かしらの言及が可能になりそうです。「適切に」というのがポイントで、「どうせデータが収集されれば補正されるから何でも良い」というわけにはいきません。でも具体的にどうすればよいでしょうか？

ここで上記のような「現場の担当者が気にしていること」をもう一度思い出してみましょう。例えば、同一のサプライヤーで過去に初期の不具合が続いた、設計起因で不具合の発生が早まっている、あるいは特定の加工工程に偏りがある、などといった知見は経験則として現場に蓄積されていますが、それらの「現場感覚」を事前分布という形で表現できればモデルの中に明示的に反映することができるのです。例えば

同一のサプライヤーで過去に初期の不具合が続いた → shape を１未満に寄せる
設計起因で不具合の発生が早まっている → scale を小さくする

などが考えられますが、このように 現場の担当者が普段から注意しているポイントを p(θ) の設計として言語化できれば、彼らの経験則をモデルの中に取り込むことができるのです！ そうすることで、N=1 のようなデータが乏しい状況でも、どの程度リスクが高そうかを議論できる形になります。

おわりに

本記事では、前回紹介した「先験的な知識をモデルに組み込む」というアプローチについてより具体的に紹介しました。ただし、こうした現場の感覚をモデルに取り込むためには現場の業務や制約への理解と、数理モデルが何を表現しうるかという理解の両方が欠かせません。モデルという抽象的な表現と、現場という具体的な事象を行き来しながら、どの知識をどのパラメータにどう反映させるかを丁寧に設計する必要があります。

我々は今後もモデリングの技術を磨き続け、実用性の高い分析を提供していきたいと考えています。

JDSCのデータサイエンティストに興味のある方はこちら

Invitation from 株式会社JDSC

If this story triggered your interest, have a chat with the team?

ドメインの情報を組み込むためのモデリング

Nako Ichinose

株式会社JDSC / COO室/採用広報Mgr

データ分析データサイエンティスト JDSC ベイズ

株式会社JDSC

◆「利益に直結」したAI活用サービスの提供◆ デジタル化、AI構築に多額の費用を投資しても、収益が上がらなければ意味がありません。 JDSCは従来の人月単価に基づいた請求から決別し、成果に基づいたコミッション請求により、クライアント企業の利益貢献にコミットするプロフェッショナル集団です。アプリケーション開発を通して、需要予測・異常検知・物流最適化・教育・在庫最適化・与信評価・言語／画像認識など多岐にわたる課題に取り組んでいます。 ◆これまでの事業実績例とメディア掲載◆ ◇AIやデータサイエンス、機械学習を社会実装するために、さまざまな企業と協業をしています。最新の取り組みは、当社プレスリリースをご覧ください。 https://jdsc.ai/news/ ＜最近の取り組み＞・JERAとJDSCが太陽光発電の発電電力量を高精度で予測するシステムを共同開発・ディーエムエスとAIを活用したダイレクトメール送付先選定ソリューションを共同提供・センコーと物流倉庫作業工数の削減にむけ「AI職長プロジェクト」のパイロット運用を開始　〜経験と勘にAIを組み合わせ、意思決定の標準化・高度化を実現〜・AI活用による在庫・欠品削減効果を低コストで検証できる「JDSC 過剰在庫・欠品削減シミュレーション」を提供開始・三井物産と船舶の生涯価値向上に貢献する合弁会社を設立・パーソルグループとAIと自動搬送ロボット活用による工場・物流倉庫業務の生産性向上に向けた共同研究を開始・イオントップバリュの輸入発注業務に、demand insight® が導入され、倉庫在庫の改善と、作業時間の約60%を改善 ◇需要予測商品の売上を正確に予測することで、欠品による売上機会損失を防ぎ、過剰生産による廃棄費用・保管費用を削減することを行いました。自社データからだけでは正確な予測ができない場合でも、JDSCが保有する景気情報・消費情報や、SNS上のビッグデータ解析を組み合わせることで人力での予測を超える予測精度を実現しています。事例：大手消費財企業で、予測のブレを人力予測の7割に抑えることに成功 ◇不在配送の削減不在配送は全配送の２割近くを占め、数千億円のコストを生んでいます。2020年までに全戸配備されるスマートメータから得られる電力データを元に、人工知能が配達先の現在~将来の在不在を予測することで、不在を回避し、在宅と配達時間をつなげています。開発アルゴリズムを用いた実際の配送実験で不在配送が９割近く減少しています。 ◇日経新聞　1面にて、大きく取り上げられました。宅配時不在なくせ　東大発など2社、AIで商用化 https://www.nikkei.com/article/DGXMZO39181040Q8A221C1FFR000/

Like Nako Ichinose's Story

Let Nako Ichinose's company know you're interested in their content

株式会社JDSC

ドメインの情報を組み込むためのモデリング

問題設定

ワイブル解析

N=1となるケースでの問題

事前知識の取り込み

おわりに

株式会社JDSC

データ分析

Weekly ranking