フューチャーアーキテクト株式会社 / データエンジニア
GKEでのデータ分析基盤の構築に携わりました。
## プロジェクト概要 食品卸会社の子会社40数社のデータを取りまとめる、親会社のデータ分析基盤の構築に携わりました。 ### 担当した役割 サブPMとして、進捗管理や要件定義での議事録作成がメインのタスクでしたが、以下の構築にも携わりました。 ・構造化データのパイプラインおよびBigQueryの構築 PJでは、構造化データ・半構造化データ・非構造化データの全てを扱いました。 ただ私は、構造化データの主に取り込み口からの制御を担当しました。 具体的には、外部I/Fからファイル定義して、取り込み口を制御し、テーブル定義書から社内ツールで変換をかけ、BigQueryに分析させる土台を構築しました。 ### 使用技術や開発環境等 インフラ:GKE , Cloud Storage,Pub / Sub, Cloud Functions , BigQuery ### 取り組んだ課題 ・BigQueryに取り込むまでの地道なデータクレンジング 子会社40数社のデータは、フォーマットが統一されていないため、統合的に制御するために様々なデータ整理の施策を行いました。 1. 各社から送られてくるフォーマットとサンプルデータから、ひたすらデータ構造を統一的なフォーマットに書き起こしていました。 サンプルデータとフォーマットが異なるときに、各社に問い合わせて確認するといった作業も行いました。 2. 外部IFからGCPに取り込む際、会社間で表現が異なるが同じ意味の語句を論物変換でまとめるといった作業も行いました。 こちらも関係各社に問い合わせる作業も兼務しました。 3. 統一的なデータとしてBigQueryで解析するために、ある会社にはあって別の会社にないデータを削ってまとめていました。とはいえまとめすぎると削りすぎることになるので、程々にとどめたり、といった非常に神経を使う作業が多かったです。 3つめに関して補足すると、データ分析基盤を構築する目的が明確でないまま、PJ自体が進行しており、方針が定まらない中での構築を進めなければならない難しさもありました。