株式会社 Zaim / エンジニア
RDSのデータをBigqueryに入れる
提供していたサービスの内容上、かなり重要な個人情報を持っている状態でしたが、このプロジェクト以前では、ユーザのデータは本番 DB の中にだけ存在し、統計分析や解析などを実施することはほとんどできませんでした。これらのデータから個人情報に該当するデータなどを削除し、匿名化を進めたユーザデータを BigQuery にも複製するということを行いました。 ただし、データベースの規模的に全てのデータを同期し続けることは困難で、日毎の partitiontime を設定して管理するようにしました。 データの移行には Embulk を使い、データが正しく入っているかどうかの確認のために、GAS を使って Bigquery のレコード数などを Slack に投稿するようにしました。 バッチ処理は Kuroko2 を使い実施しています。 このプロジェクトの保守は現在も継続して行っていて、最近ではいれるデータの文字を正規化したりするなどを増やしています。