1
/
5

【アイデミー座談会】データサイエンティストの現在と、一人ひとりが目指す未来

それぞれ異なるルーツを持つデータサイエンスグループのメンバー。一人ひとりがどのように学び、何を大事にして、今はどんな考えを持っているのでしょうか。データサイエンティストの仕事への取り組み方からも、アイデミーの多様性が見えてきます。
(2023年4月26日インタビュー)

技術部 データサイエンスグループ

データサイエンティスト  金指真之介 中沢信吾 相場雅彰 米倉和也

リーダー         品原悠杜

品原:

それでは、データサイエンスグループ座談会を始めましょう。ファシリテーターは品原が務めます。

今回参加の4人は、入社までの経歴もずいぶん異なりますよね。相場さん・米倉さんは大企業のデータサイエンス系部門からの転職、中沢さんはニューロサイエンスの研究者から大きくジョブチェンジ。金指さんにいたっては、フリーター期間に猛勉強を重ね、いくつかのデータサイエンス案件でのインターンシップを経た後、フリーターからデータサイエンティストへの転身。「スタートアップのデータサイエンス系のチームから来ましたよ〜」といった、近い畑から来ているメンバーが誰もいないので、まさに「殴り込み」というワードがすごくしっくりくるメンツです。

今回はアイデミーのデータサイエンティストがどんなメンバーの集まりなのか、読者のみなさんにお伝えできればと思っています。

機械学習モデルの開発で意識していること

品原:

では早速、我々が業務で特に試行錯誤する時間が多い機械学習モデルの開発について、意識していることを聞かせてください。

米倉:

私が最初に意識するポイントは、解くべき課題の詳細を把握することです。

そもそも機械学習を適用する必要があるかも含めて、何がボトルネックなのか、データ化されている事象が発生するまでのメカニズムはどうなっているのか、どういった目標を設定するのかなどを把握することを私は大事にしています。それが決まれば、どのくらいの規模のデータセットが必要で、それに対してどんなアルゴリズムを使って解くべきかというのも、自ずと決まってきます。

金指:

私も「本当にここに機械学習を適用していいのか」を一番意識しています。時々お客様からアルゴリズムを指定いただくこともありますが、それが本当に最善なのか考え、納得できるまでリサーチして、そこからやってみるようにしています。でも、それで立ち往生して前に進めないのは本末転倒なので、まず走り出しながら「今、この走り方でいいんだっけ?」と、常に考え続けるのが大事だと思っています。

また、自分のストレッチゾーンを意識して、成長に繋がる技術を使うようにもしています。長期的なスキルアップを目指し、お客様や今のプロジェクトにも影響を与えられるように、あくまでも自分勝手にならないように、積極的に新しい挑戦に取り組んでいます。

品原:

なるほど。これまでの案件で、「走りながら考える」スタイルが効果的だった事例はありますか?

金指:

私がメインで関わっている大手化学系メーカーさんの案件ですね。

今でこそデータも増えて、化学の知識やお客様のビジネスロジックへの理解もだいぶ深まってきましたが、案件スタート当初は暗中模索状態でのスタートでした。そのような状況でしたが、お客様と共に試行錯誤しながらその時点での最適なアプローチを追い求め、ときにはお客様に対して「これまでこういうアプローチで進めていたけれど、こういう背景があることが分かってきたので、アプローチを切り替えましょう」といった提案もしてきました。こういった「走りながら考える」というスタイルのもとで、少しずつ成果を積み重ねてきたことが、お客様からの信頼にもつながっていると思っています。

品原:

機械学習は、肌感でうまくいかないことがある程度予想できても、どこがどううまくいかないかは実際にやってみないとわからないと思っています。そういう不確実性があるからこそ、走ること・考えること、どちらの観点も大事ですよね。中沢さん、相場さんはいかがですか?

中沢:

米倉さんがおっしゃっていた「取り組む対象の理解」という点では、その対象をどんな切り口で見ようとするか、各データサイエンティストの技量が出るところだと思っています。

お客様へのヒアリングでも、どんな質問をするか、想像力が大事になる仕事ですよね。データサイエンティストは数学的な勉強ももちろんですが、いろいろな体験をしておくことが実はすごく大切なのではないかと最近よく思います。

相場:

そもそも機械学習を適用する必要があるのかについては、みなさんが言う通りです。たとえば、お客様の実現したいことがシンプルなルールベースのアプローチで解決できるなら、それが一番いいとは思っています。そのほうが説明性や計算量の観点でもメリットがあることが多いですしね。

ただ、ルールベースで作り込んでしまうと、後で条件が変わった時に使えなくなるリスクもあります。今後の展開も考えるならば、あえて機械学習を選択することもあるでしょう。お客様事情や作ったものの利用シーン、そして今後についても含めて考えられるのが理想的ではないかと思いますね。

品原:

みなさん、いかにいい機械学習モデルを作るかではなく、どうすれば課題を解決できるかという観点を強く意識されているということですね。とても大事な意識だと思います。

ChatGPTなどの昨今の生成AIに対して思うこと

品原:

では次の質問です。昨今のトレンドを踏まえて、どうしても外せないのが生成AIです。ChatGPT、Midjourneyといった大規模な生成AIを使ったサービスが、連日のようにメディアに取り上げられていますよね。私も含めて、みなさん1ユーザーとして楽しんだり驚いたりしながら利用していることだと思います。少し視点を変えて、1データサイエンティストとして昨今の生成AI全般に対して思うところを教えてください。

相場:

生成AIでいうと、ChatGPTはテレビのニュースでも見かけるくらい、データサイエンティストやエンジニアでなくても誰もが知っているものになりました。今まで個別最適だったAI技術がここまで汎用性に富むものになったのは本当にすごいですよね。私も感動して、ChatGPTのAPIをいろいろ試していたら、すぐに無料利用枠を使い切ってしまいました。

小4の娘もかなり食いついて、いろいろと遊んでいました。この先、子どもたちが成人したときに、生成AIがどうなっているのか楽しみでもあり、一方であまりリアルに想像できなくもあります。それくらい、昨今のAIの進化はすごいなと思っています。

中沢:

次の世代、現代の子どもたちはどういう時代を生きるのか。私自身も1歳の子どもがいるので、リアルにそれが我が身に迫っている状況です。間違いなく教育の仕方は変わるんだろうなと思っています。

品原:

今のような、もしくはもっとすごい生成AIに囲まれた世界で育った子どもは、私たちとは違うものの考え方や捉え方をするようになるのかもしれませんね。そんな未来が楽しみであると同時に、今現在この渦中に身を置くデータサイエンティストとして、不安な気持ちはありますか?

相場:

ChatGPTは、プログラミングに関しても「こういうソースコードを書いてください」と噛み砕いて指示したら、そこそこのものを書いてくれます。しかし、正直なところ、私自身はさほど不安を覚えておらず、仕事を奪われてしまうという心配もしていません。どんなにChatGPTが良いコードを書いてくれても、どんなに優れたレスポンスを返してきたとしても、それに対して最後に責任を持つのは絶対人間でしかありませんから。

そういう意味では、人間の仕事がなくなることはないだろうなと思っていますし、逆に吐き出したものをきちんと確認できる知識なり技術なりが人間には求められていくでしょう。月並みな表現ですが、上手にツールとして使っていけばこれほど素晴らしいものはないと思います。

中沢:

私は、生成AIの登場は、産業革命に匹敵するようなものだろうと捉えています。エンジニアとして「仕事が心配だ」という声もありますし、個々の作業レベルまで分解したら、なくなってしまうような仕事や作業は多いかと思います。ただ、仕事やものづくりの総体から考えると、生成AIは、自分自身の想像力や発想力をブーストしてくれる存在であり、それを具現化するための武器が増えたという捉え方ができます。蒸気機関やインターネットなどが出てきた時代も、振り返れば、人間の能力を拡張してくれる技術が生まれた、という位置づけで解釈できると考えています。

具体的な作業はこれまでと一変するかもしれませんが、もっと自分自身がやりたいことをやれる時代が来てくれるのではないでしょうか。

品原:

ありがとうございます。これから、さまざまな分野に生成AIが加速度的に浸透していくことが予想されますが、そのあたりについてはどうお考えですか?

中沢:

研究レベルだった生成モデルという枠組みが、どんどん実務の世界に流れてきていると毎日感じています。この世界にある物事を上手く形式化してやれば、生成モデルの枠組みにはめることができることもあって、いろいろな生成モデルを応用した仕事が生まれているのが最近の潮流です。

特に最近では材料合成や創薬などの、いわゆるマテリアルズ・インフォマティクスの分野で生成モデルの躍進が目につきます。この分野の課題は、実験などでの組み合わせが無限に考えられることです。人が実際に実験すると、時間がいくらあっても足りないので、なかなかアプローチできなかったところに、生成モデルを使って疑似的な実験をします。

例えば薬として有効な作用を持ちそうな化合物を見つけ、それを合成するための実験方法の候補を探るといった考え方がベースにあります。そこに、自分が解きたい課題や、目的に応じた工夫を持ってくることによって、オリジナルの手法が生まれてくるんです。そういった報告や論文が、毎日タケノコが生えるような早さで次々と出されているので、本当に面白い時代が来ているな、と毎日楽しんでいます。

品原:

今年4月に、我々が取り組んでいる論文サマリーで取り上げた論文も、まさにChatGPTとマテリアルズ・インフォマティクスの領域を掛け合わせた論文でしたね。このあたりの領域はすごいことになっていますよね。本当に、従来の「AI×⚪️⚪️」の進化とは比べ物にならないスピードです。だからこそ、最先端の研究まで含めたさまざまな情報を日々チーム内で共有してくださる中沢さんには、とても助かっています。

生成AIとリテラシー、ハルシネーションについて

相場:

生成AIを利用する上での注意点は、企業人、社会人として働いている限り、会社の情報を全部生成AIに投げてよいわけではないことです。本当に生成AIに投げていい情報なのか、各々注意する必要があると思います。そういうリテラシーも今後私たちに求められていくところなんだろうなと思います。

中沢:

生成モデルの学習に使われているデータや、アウトプットのデータに関する著作権の扱いは今非常に難しく、議論が交わされていますよね。生成AIには、嘘をもっともらしく上手な文章で出力するハルシネーション(幻覚)のリスクもあり、なかなかビジネスでは使いづらい面があります。

品原:

嘘が生成されるかもしれないとなると、使う場面の見極めが大事になってきます。先日、西村経産相が国会答弁作成時におけるChatGPT活用の可能性を追求していきたい旨を発言されていましたが、個人的にはこういう嘘が混じってはいけないところに嘘が混じるリスクのある技術を使うことは不安だし、注意が必要だと思いますね。

金指:

とはいえ近い将来、インターネットに繋がず外部情報を持たない、言語モデル単体で使うシーンは減っていきそうですね。情報の確からしさを判断するときには、Googleで検索して出てきた記事の信憑性を判断するときと全く同じような思考が要求されるだけかなと。

相場:

先の私の発言と重複しますが、結局、責任を持つのは人間でしょう、と私は思っています。

中沢:

そうですね。生成AIを使う人が、出てきたものの善し悪しを判断できないといけません。使う人がめちゃくちゃ勉強しなければいけない時代になるでしょうね。

米倉:

まさに「うそをうそであると見抜ける人でないと難しい」ですよね。

品原:

テクノロジーが進化してもなお、20年以上前のこの言葉が説得力に満ちているのはおもしろい話ですね。私たちがしっかり嘘を見抜けるように、少なくともデータサイエンス領域に関しては継続的に勉強を頑張っていきたいですね。

目指すデータサイエンティスト像

品原:

それでは最後の質問です。みなさんが今後もデータサイエンティストのキャリアを歩み続けるとして、今後はどのようなデータサイエンティストを目指していきたいですか。具体的なロールモデルが思いつく人は、それも教えてください。

米倉:

私は品質の高いAIを、サービスやソリューションに組み込んで経済実装して世の中に送り出していきたいと思っています。

「品質の高いAIを作る」というポイントに関しては、前職の頃から関心を持っていました。ブラックボックスになりがちな機械学習モデルへの説明解釈性の付与や、安定して機械学習モデルを運用するためのMLOps基盤の構築に取り組んでいきたいと思っています。

また、「経済実装する」にあたっては、顧客の課題を理解し、それに対して最適なソリューションを提案する能力が必要です。手元のテクニカルなスキルに閉じず、高い提案力や想像力も兼ね備えたデータサイエンティストを目指したいと思います。

相場:

私は周囲の困りごとをバンバン解決していけるデータサイエンティストとしてキャリアを歩んでいきたいなと、昔も今もそう思っています。具体的になりたいデータサイエンティスト像があってそこを目指していくというよりは、自らの仕事のモチベーションとなっている部分を実現するための手段として、データサイエンスのスキルを伸ばしていくイメージです。

私が機械学習を中心としたデータサイエンス領域に興味を持って勉強してきたのは、技術の適用範囲が広く、その分いろいろな困りごとが解決できるからです。

金指:

明確なデータサイエンティスト像があるわけではないのですが、新しくこの業界に参入してきた優秀な人材に負けないようにしたいですね。最近、AIエンジニアやデータサイエンティストを名乗るのに必要な技術レベルはどんどん下がっていて、求人もバブルになっているのが気になります。ただ、ハードルが下がった分、他分野で活躍している優秀な方や、優秀な学生さんが参入しやすくなっているのも事実です。こういった状況において、自分としてはスキルアップやキャッチアップの速度が相対的に遅くならないように頑張ろうと、最近改めて思います。

AIの発達の流れの中で、これからは今まで以上に積極的に新しいことに挑戦したり、今まで以上の速度でいろいろなことを勉強したりしなければいけない時代になっています。

幸い、私の強みとして、データサイエンティストとしてのスキルアップを、毎日安定して継続できる点があると思います。今後はその速度や質をより高い水準に保ちつつ、お客様への価値提供を通じてアウトプットしていきたいです。

中沢:

私は肩書きはどうでもいいかなと思っています。ただ、課題解決の専門家、すなわちサイエンティストという部分に重きを置いた生き方をしたいです。相場さん以上に目的志向なのかもしれません。

敢えてロールモデルを出すなら、大学院の指導教官を挙げます。ニューロサイエンスの研究者なので全然違うフィールドで仕事をしていますが、自分が取り組むべき課題を見つけて、その解決を目指しています。何をやりたいか、何を成し遂げたいか、大きなゴールを常に見据えながらも、実際は謙虚かつ真面目に、地に足をつけて、目の前の仕事を着実にこなす。最終的には人を巻き込んで大きなことを成し遂げ、世界を変えちゃおうぜ、という働き方ができたら理想的だと思っています。

今はたまたまデータサイエンティストの肩書きをいただいていますが、そういう働き方ができるのであれば、コンサルタントでも、プロジェクトマネージャーでも、何でもいいかなと思っています。

品原:

ありがとうございます。みなさん、四者四様の目指す姿に向かって邁進しているのが改めてわかりました。もしかすると、これからのキャリアで方向性を転換するタイミングも来るのかもしれません。しかし、たとえそうなっても、中沢さんも「いろいろな体験をしておくことがすごく大切なのではないか」とおっしゃっていたように、積み上げてきたものは無駄にはならないことでしょう。一人ひとりの裁量が大きく、いろいろな業務機会が転がっているのはスタートアップならではの強みだと思うので、みなさんにも引き続きいろいろなことにチャレンジしていってほしいです。そして、同じような志を持ったメンバーと一緒に働きたいですね。

アイデミーに入って一緒にでっかいことをやれるメンバーを我々は募集しています!

自己研鑽を業務の一部とする取り組み「skill++」

品原:

データサイエンスグループでは、業務時間のうち一定の時間を、本人が伸ばしたい・強みとしているスキルの研鑽に充てる「skill++」(仮称)の取り組みを最近試験的に始めました。もちろん、本務が疎かにならないことが大前提ですが。取り組む時間は業務時間内に含まれるので、そこでのアウトプットも評価項目に含まれます。

私が知る限り、データサイエンティストの界隈には「優秀かつ著名なデータサイエンティストと働いてみたい」という欲求の強い人が多い印象があります。そういう人材を採用するというのも1つの手段ではあるのですが、採用ハードルが高く、なにより、それだといつまでたっても外部人材に頼り続けることになってしまうので、自分たちも対外的に認知されるくらいに成長する必要があると考えました。私たち自身が、一緒に働きたいと思ってもらう側に成長して、集客力のあるチームになろうと。

前述のとおり、本人が伸ばしたい・強みとしているスキルにフォーカスしているので、取り組みの内容は人それぞれです。Kaggleでのメダル獲得を目標にしているメンバーもいれば、初学者向けのチュートリアルを作成・公開することでデータサイエンスコミュニティへの貢献を目標にしているメンバーや、お客様案件で取り組んだ内容を抽象化して、他案件や次なる自社プロダクトへの種まきになるようなWebアプリ開発をするメンバーもいます。こういった取り組みの成果や途中過程を対外的に発信していくことで、メンバー個人、ひいてはグループの知名度向上につながればと画策しています。



                                   (取材・執筆/川上桐子)

Invitation from 株式会社アイデミー
If this story triggered your interest, have a chat with the team?
株式会社アイデミー's job postings

Weekly ranking

Show other rankings
Like 本石 麻衣子's Story
Let 本石 麻衣子's company know you're interested in their content