競馬データを用いた条件別分析システムの個人開発
Photo by Алекс Арцибашев on Unsplash
2000年以降のJRAレースデータを用い、条件指定に基づいて収益性の高い種牡馬を抽出するデータ分析システムを個人で開発しました。
本システムでは、競馬場・距離・芝/ダート・馬場状態などの条件をユーザーが任意で指定でき、その条件における種牡馬ごとの成績を集計します。
その上で、単勝回収率・複勝回収率および着別度数を算出し、特に単勝回収率が100%以上の種牡馬を「収益性が高い対象」として抽出する仕組みとしています。
データはCSV形式で管理されたレース情報・出走馬情報・血統情報・払戻情報を対象とし、pandasを用いて複数データを統合しています。結合後は条件に応じたフィルタリングを行い、種牡馬単位での集計処理を実装しています。
また、単勝・複勝の払戻情報をもとに回収率を算出し、着順データと組み合わせることで、条件ごとの傾向を数値として可視化できるようにしています。
さらに、データベース(Access形式)からCSVへの変換およびバッチ処理によるデータ更新機能も実装し、分析対象データを定期的に更新できる構成としています。
この取り組みを通じて、単なるデータ処理ではなく、複数データの構造理解や前処理設計、集計ロジックの設計が分析結果の精度に直結することを学びました。
今後は、業務システムやデータ処理の分野において、データを活用した業務効率化や分析ロジックの設計など、より実務的なシステム開発にも携わっていきたいと考えています。