Scaling Lawだけでは勝てないヘルスケア×ビッグデータの面白さ

JMDCは医療分野における社会課題を解決するために様々な取り組みを行っています。保有するレセプトデータを用いた傷病予測モデルや、健康状態を見える化し行動変容を促進する「Pep Up（ペップアップ）」など、ビッグデータを活用したソリューション開発もその1つです。今回は、データサイエンティストとして活躍する北野さんに、医療ビッグデータの面白さや、JMDCで働くからこその面白さについて伺いました。

＜プロフィール＞
北野道春（きたのみちはる）株式会社JMDC データサイエンティスト
大手証券会社グループにて、機械学習、自然言語処理などの技術を用いた株価予測モデル、リテール向け投信購買予測モデルなどを担当。株式会社JMDC入社後は、自然言語処理を用いた業務効率化、ヘルスケアビッグデータを用いた保険支払査定モデルの開発やウェアラブルデータの分析、アップリフトモデリングを用いた介入効果の推定等に従事。データサイエンティスト協会のスキル定義委員としてスキルチェックリストの作成等に従事。

コアビジネスが社会貢献につながる環境

ーーはじめに北野さんのご経歴を教えてください。

総合証券のグループ会社で、金融機関向けの機械学習モデルを作っていました。例えば株価予測モデルを用いて、証券会社に口座を持つ方に情報提供をするサービスなどです。

ーーJMDCへの転職理由を教えてください。

前職で健康保険組合関連のプロジェクトに関わる機会があり、そこでJMDCを知りました。当時からレセプトデータの価値を様々なヘルスケアサービスに繋げるJMDCのビジネスは、社会貢献の実感が得やすい印象を持っていました。その頃、ちょうど社会貢献を実感しながら働ける環境を求めていたため、JMDCの社会貢献性とスタートアップマインドに魅力を感じ、転職を決めたんです。

また、機械学習とコアビジネスの関係性も大きな要因でした。金融分野では、機械学習がコアビジネスに直接結びつくまでには時間がかかると感じていました。また、たとえそれが社会貢献に繋がるとしても、法規制や顧客基盤といった理由から、リスクを取って新規事業を始めるのが難しい環境でした。一方、JMDCではデータとICTが事業の中心であり、データサイエンスがコアビジネスに大きく影響していることに惹かれました。

ーースタートアップマインドはどのような点で感じましたか。

まず、レセプトデータの利活用は、多くの法律上のルール・規制がある領域でありながら、それらを遵守しつつも、様々な利活用を実現している点です。また、Pep Upのようなプラットフォームを次々と開発し、多種多様な事業に挑戦している点でも感じています。

JMDCの創業者である木村会長（当時）から聞いた話では、以前はレセプトデータが各健康保険組合で紙ベースで個別に管理されていました。それらを集計し、解析や標準化を行うことで、付加価値を生み出していたのです。機微性の高いデータであるため、利活用には多くの規制が存在します。しかし、木村会長と健康保険組合の方が「レセプトデータを匿名化し、二次利用という形で社会に流通させることが社会貢献に繋がる」という強い信念を持っていたことが、この事業が生まれるきっかけとなりました。

ーーレセプトデータの二次利用が、社会貢献に繋がる点についてもう少し詳しく教えてください。

レセプトデータを二次利用し、研究に活用することは、日本の医療発展において非常に重要な役割を担っています。例えば、当社では小児医療に関するデータをダッシュボード形式で公開している「BIG DATA for CHILDREN」プロジェクトがあります。このプロジェクトは、子ども向け医薬品の開発が少ないこと、臨床現場でオフラベルでの薬剤使用や大人用製剤が個々の医師や薬剤師の工夫により使用されていることなどを課題に感じたことをきっかけに立ち上がりました。

また、疾病負荷（Disease Burden）の観点で、疾病を抱えた子どもにかかる生活負担や経済的負担など、様々な負担に関わる調査・分析が十分行われていなかったり、子どもたちがどのような疾病にどのくらいかかり、どのくらいの通院や入院をしているか、といった基礎的な記述疫学も十分行われていないことも我々が小児医療に着目する理由です。

このような情報は、「特定の疾患が増加している」「ある処方が増えている」などの観点で、医薬品開発やリスク因子研究に携わる専門家にとって非常に価値あるデータとなっているのです。

レセプトデータとウェアラブルデータが紐づくJMDC独自のデータ価値

ーー先ほどの話と関連して、JMDCのデータのユニークさや面白さはどのような点にあると思いますか。

JMDCが扱う主要なデータは、レセプトデータです。このデータは「誰が」「いつ」「どの病気（レセプト傷病）で」「どのような診療行為を受け」「どの薬剤が処方されたか」という情報を持っています。保険証は病院で必ず提示しますよね。そこから「病院に行っていない方」を抽出することも可能なデータです。

「病院に行っていない方」がわかることで、「病気の発生率」を正確に把握できます。例えば、特定の項目で集団を作り、「その集団ではXX人ががんに罹った」と発生率をデータで導き出すことができます。JMDCのデータは1000万人以上の規模で全国範囲に渡り、病院に行っていない方のデータも把握できるため、「ある疾患がなぜ増えたのか」や「どのような方が疾患にかかりやすいか」を研究する疫学分野で非常に有用です。このデータはアカデミアにも公開され、500以上の医学論文で使用されており、疫学の研究者にはほとんど知られています。

▼過去のJMDCの論文実績について確認ができますので、ぜひご覧ください。

www.phm-jmdc.com

ーーレセプトデータから定性的な情報が入手でき、疫学分野で有用されているのですね。最近、Pep Upとウェアラブルデバイスが連携できるようになり、そこからデータを取得できるようになったと伺ったのですが、どのようなデータなのでしょうか。

弊社では、ウェアラブルデバイスから得られるデータを「ウェアラブルデータ」と呼んでいます。このウェアラブルデータからは主に心拍データ、睡眠データ、アクティビティデータの3つが取得できます。心拍データは平均心拍数、睡眠データは睡眠時間や睡眠の質が分かります。また、アクティビティデータは、歩数だけでなく運動量も把握できます。

弊社のユニークネスは、レセプトデータとウェアラブルデータが紐付いていることなんです。レセプトデータを使って「どのような病気になったか」を特定し、ウェアラブルデータと組み合わせることで、どのような方（たとえば睡眠状態、あるいはアクティビティの状態）が生活習慣病やメンタル疾患のリスクが高いのかを調査することができます。

ーーウェアラブルデータとレセプトデータはビジネスにそれぞれどのように活用されているのでしょうか。

ウェアラブルデータはまだ研究段階が多く、ビジネス活用は検討中です。一方、レセプトデータは「ハイリスクアプローチ」に活用されています。例えば、健康保険組合が医療費を削減するために、ハイリスクな方を特定し、対象者に対してかかりつけ医や栄養士を紹介して行動変容を促そうと考えています。しかし、ハイリスクな方を特定するのは健康が目に見えないため難しいわけです。そこで、JMDCのデータを用いたモデルを活用することで、ルールベース型よりも精度を高く抽出することができます。

ルールベース型の場合、年齢やいくつかの健診項目をもとに、ハイリスク者の推定を行いますが、それぞれの健診項目は独立に評価され、評価できる項目数も1~4つ程度が限界です。一方で、機械学習ベース型では、ほぼ全ての健診項目を総合的に評価することができるため、ハイリスクな方を高精度で特定することが可能なわけです。

ーー人間が把握できていない因果関係が見えてくることはありますか。

未知の関係を発見するよりは、既存のエビデンスと整合性が取れているかを確認しながらリスク推定を行っています。機械学習を用いることで、複数のパラメータを組み合わせてより精度の高いリスク評価が可能になりますが、基本的な因果関係は既に医学論文などで示されているものを参考にしています。

もちろん、新しいエビデンスを作るための活動も行っています。特にウェアラブルデータはまだまだエビデンスが少ない領域なので、JMDCのR&D活動の一つとして学会発表や論文投稿などを積極的に行い、専門家のレビューを受けています。

ーー先ほどレセプトデータの特異性について話がありましたが、事業ドメインとビッグデータの関係はどのように捉えていますか。

現在、注目されているChatGPTを抜きに語れないことですが、これは大規模言語モデルの背後にある「Scaling Law」という概念が関係しています。Scaling Lawとは、大量のデータと計算リソースを使えば、小さいモデルよりも高精度なモデルが得られる法則です。この法則が適用される限り、基本的に大手プレイヤーが優位に立ちます。しかし、ヘルスケア分野で同じ法則が成り立つわけではないと考えています。

ヘルスケアの領域では、ドメイン知識は機械学習モデルの構築に不可欠であり、その知識なしに単なる最適化問題として機械学習を適用するのは難しいと言えます。観測されているデータは限定的であり、それを解釈するのも容易ではありません。また、さまざまな要素が互いに影響を及ぼしているため、何らかの相関関係を学習したとしても、モデルが目的に応じた振る舞いをするかどうかを深く検証する必要があります。選択バイアス（セレクションバイアス）、交絡、およびその調整方法など、疫学の知識も不可欠です。

今後の技術進歩により、ChatGPTのような基盤モデルが多くのヘルスケアサービスに導入される可能性も考えられます。しかし、その導入には、データサイエンスとヘルスケア領域の両方に精通した人材が必要になると思っています。

働く時間の20%をR&Dに充てるデータイノベーションラボ

ーーデータイノベーションラボの具体的な業務について教えてください。

データイノベーションラボでは、さまざまな業務を行っています。例えば、保険の商品開発のためにデータ分析を行ったり、ヘルスケアサービスのために様々な疾病のリスクを推定する機械学習モデルを構築することもあります。また、地方自治体向けのサービスも提供しており、医療費削減のためにハイリスクな患者を特定し、介入の優先順位を決める支援を行っています。この分野では、アップリフトモデリングという最近の研究成果も取り入れています。

アップリフトモデリングとは、介入前後のアウトカムの差（介入効果）を個人ごとに推定する手法です。単純な方法だと、介入しているグループとしていないグループでそれぞれモデルを構築し、その予測値の差を取るといった方法が考えられますが、それでは介入あり群と介入なし群の集団特性の違いを考慮することができません。そこで、疫学や因果推論分野で用いられる傾向スコアを使用し、集団の特性の違いを調整する方法などが提案されています。

ーー保険向け、地方自治体向け、グループ会社向けでそれぞれ必要なスキルなどは変わるのでしょうか。

そうですね、プロジェクトによって必要なスキルは異なります。例えば、コンサルティング要素が強い案件では、専門的なアドバイスやガイダンスを提供することはもちろん、明確なゴールを定義し、成果物の期待値をクライアントと共有することが求められます。別のプロジェクトでは、エンジニアリング要素が中心となる場合もあります。

プログラミング言語やライブラリに関する知識はもちろん、クラウドサービスやCI/CDの仕組みなど、幅広い知識が必要となります。

また、グループ内のサービスに関わるプロジェクトにおいては、プロダクトマネージャー(PdM)の要素も必要となります。技術的な観点だけでなく、プロダクトが持つ価値を整理し、その方向性を含めて検討や提案を行うことが重要となります。

ーーなるほど、それぞれの得意分野に合わせてプロジェクトにアサインされるのですね。あとデータイノベーションラボでは、業務時間の20%をR&Dに充てると聞きました。

はい、我々のチームでは働く時間の20%をR&Dに充てることが可能です。興味ある研究を行い、利用可能なデータを活用して研究活動を進めています。

JMDCのR&Dでは、「社会貢献」と「プレゼンス向上」を目的にエビデンスの作成に取り組んでいます。社会貢献とは、我々が管理するデータの価値をアカデミアに還元すること、プレゼンス向上とは、JMDCの知名度を上げることを指します。

この2つの目的を実現するために、機械学習やデータ分析から得られた結果を医学的に正当化するために論文や学会での発表を行うエビデンス作成に取り組んでいるのです。チームメンバーはそれぞれ異なる役割を持ち、楽しみながら成果を出しています。

働き方についても育児をしながら働く方も多く、フレックス制度を活用して働き方を調整しています。また、研究のためのセミナーや海外の学会への参加、参考書籍の購入、クラウドサービスの利用などが可能です。

ーー北野さんが目指すキャリアについて、最後に教えていただけますか。

大規模言語モデル、例えばChatGPTのようなものが続々と登場していますが、私は特にヘルスケア領域でのデータサイエンスが今後も重要性を増していくと考えています。私のキャリアの形成は、引き続きこの「ヘルスケア×データサイエンス」の領域において進めていきたいです。

JMDCではほとんどのプロジェクトがチームで行われるため、チームとしての力を増すことが実感できています。そして、大規模なプロジェクトほど多様な力が必要になります。そのため、自分自身の能力をさらに向上させ、より大きな案件に取り組みたいと考えています。我々のチーム、ラボが成長を続けているため、自身もそれに見合う成果を出せるようになりたいですね。

また、ヘルスケア分野は技術の進歩が早く、常に新しい知識を取り入れていかなければなりません。しかし、JMDCはチーム内で情報の共有や新しい知識を蓄積するベースがあるため、自分自身の実力を相対的に向上させることが可能だと思っています。もし「ヘルスケア×データサイエンス」の領域に少しでもご興味がある方がいれば、ぜひまずはお話しからさせてください。

株式会社JMDC's job postings

If this story triggered your interest, why don't you come and visit us?

医療ビッグデータ×機械学習で新規事業をリードするデータサイエンティスト募集

Scaling Lawだけでは勝てないヘルスケア×ビッグデータの面白さ

新山真理

株式会社JMDC / HR

ビジネス機械学習ヘルスケアデータサイエンティストデータサイエンス

株式会社JMDC

【JMDCが目指すもの】健康で豊かな人生をすべての人に「医療費の増大」「医療の地域格差」「生活習慣病の増大」「労働力不足」、どれか一つは耳にしたことがあるのではないでしょうか。2025年に「超高齢社会」に突入します。社会保障費用が急増し、医療機関で受診をした際の負担金額が3割という今の制度を維持していくことも難しくなり、このままでは日本の医療が崩壊する恐れがあります。この課題を解決し、今存在している我々だけでなく、この先産まれてくる命も含めて、「健康で豊かな人生をすべての人に」届けたい。【ミッション】データとICTの力で、持続可能なヘルスケアシステムを実現する 2002年創業して以来、独自の匿名化処理技術とデータ解析力をもとに、健康保険組合や医療機関を支援してまいりました。20年の活動を通じ、業界のパイオニアとして現在では約1,893万人（総人口約15％）分を超える量の医療ビッグデータを保有するに至っています。そして、この医療ビッグデータを活用し「生活者個々のヘルスリテラシー向上（PHR/パーソナル・ヘルス・レコード実現）」「医師の貴重な医療スキル・リソースの最適配分」に繋げることで、医療費の健全化をしてまいります。 ※事業の詳細については会社紹介資料をご覧ください。→　https://speakerdeck.com/jmdc/about-jmdc （各データは、2024年3月末時点）医療ビッグデータを支える情報収集から集計・データ分析の仕組みを自社で開発・保有することで、大規模かつお客様にとって活用しやすい医療データベースサービスを提供しています。創業当初より培ってきた多くの健康保険組合や医療機関との強力な信頼関係と、医療ビッグデータに特化した事業展開をしてきたことで、蓄積してきた知見は他社には決してないものです。 ▼プロダクトについて ■JMDC Claims Database 民間利用可能な日本最大規模の医療データベースで、2024年3月時点で母集団数は約1,893万人を超えています。複数の健康保険組合より寄せられた入院、外来、調剤を含む医療診察報酬書（レセプト）および健診データを分析加工することで独自のデータベースを実現しています。 ■健助（けんすけ）健康保険組合ごとの加入者傾向や医療費の分析をサポートするサービスです。 ■JMDC Data Mart 特定の病気の推定発生数や投与の状況が調査できる製薬会社向けサービスです。 ■Pep Up（ペップアップ）健康保険組合の加入者の健康推進を直接サポートするWebサービスです。JMDCの持つ理論やデータを活用することで、個人の健康データを簡単に管理し、加入者の「健康年齢(R)」の維持改善に取り組むことが可能なサービスです。 ■clintal 患者さんが最適な医療を受けられるようにするためのサービス」を、全国の悩める患者さんにお届け ■JMDC QI 患者からも労働者からも選ばれる病院ための医療機関の診療の質を評価「データヘルス・予防サービス見本市」（厚生労働省）では2年連続の製品・サービス部門で、医療費の適正化や保健事業などにおける課題の解決に可能性を示したとして入賞するなど、医療×ビッグデータ領域において注目されています。

Like 新山真理's Story

Let 新山真理's company know you're interested in their content

株式会社JMDC

Scaling Lawだけでは勝てないヘルスケア×ビッグデータの面白さ

株式会社JMDC

ビジネス

Weekly ranking