【研修日記】データサイエンス未経験者にもチャンスが！はじめてkaggleコンペに挑戦してみたお話

こんにちは。

セラク・みどりクラウド事業部の技術部門リーダーの植田です。

先日新設された部門である農水産DX研究所配属のメンバーが研修日記を作成してくれたので紹介したいと思います。

セラク・みどりクラウド事業部のデータサイエンティスト(研修生)M・Sです。

はじめに簡単な自己紹介させていただきます。

今まではBIツールを用いたデータの可視化やECサイト構築、ERPパッケージの導入コンサルタントをしておりました。

2015年にalphaGoが出始めた頃からデータサイエンスには興味があったものの、大学時代に確率論専攻(統計学ではない)でしたが、当時は関連分野程度の認識でした。

案件に参画する中で、お客様が望んでいることが実はデータサイエンスも一つの解決手段になるというところで段々と惹かれまして、この度ご縁があり、1ヶ月ほど前にセラクへ入社しました。

つまるところデータサイエンス未経験者です。

今回は私が研修環境や内容の1つとしてkaggleコンペに挑戦した際のお話をします。

研修環境や内容について

入社から2週間ほどは西新宿にある本社で研修を進めておりましたが、

2022年1月から東京都のコロナ新規感染者が増加したことを受け、現在は全社としてテレワーク推奨となっております。

また、みどりクラウド事業部では人員増加により、2FにあるTech Labを貸していただけることに...！モニターも完備されており、オフィスチェアも座面が可動式になっており、快適なものになってます。

自宅のチェアよりも快適でした。

さて、研修内容に関してです。

未経験者の方と経験者の方ではカリキュラムも異なりますが、

データサイエンティストの研修目標として、業務で行うようなレポート作成・説明が行えるかです。

その前準備として、Pythonによるコーディングや機械学習に関する知識をキャッチアップした後、アウトプットとしてkaggleコンペに参加する形になっています。

私は未経験者ということもあり、kaggle初心者が取り組む課題の代表例としても挙げられる下記の住宅価格予測に取り組みました。

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

はじめは大学時代に統計学に触れていた名残から、基本は線形回帰だろうというところで、簡単にデータの基本統計量や型、Column毎の定義や値を確認して、前処理もざっくり欠損値を平均値で埋めて、One Hot Encordingを行い、線形回帰モデルを構築し、ホールドアウト法でモデル評価を行い、いざsubmitしてみると、