株式会社pluszero / PM / Dev
ふるさと納税システムのレコメンド機能実装
Word2Vecを用い、Airbnbが発表している「Real-time Personalization using Embeddings for Search Ranking at Airbnb」という論文を元にレコメンドシステムのPoC作成を行いました。 担当部分はWord2Vecの利用したレコメンド機能のための前処理、学習モデルの生成、学習モデルを用いた近似ベクトルの出力と結果の整形、出力結果の精度調査です。 学習データの前処理の段階ではデータベース(BigQuery)に登録してあるデータを必要分抽出し、gensim(word2vec)で利用できる様にnull値を置き換える、カテゴリカルエンコーディングを利用してカテゴリを数値で表現する作業を行いました。その際データベースがstar schema型を利用していたり、BigQueryの利用などが初でしたので、少々苦労しました。 こちらの記事で紹介されている様にBigQueryには構造体という概念があり、構造体での取得、構造体をRDB方式で取得するようにSQLをコネコネする作業がこの案件の業務内では比較的苦労しました。 https://dev.classmethod.jp/articles/bigquery-advent-calendar-2020-array-type-and-struct-type/ 使用技術: Python, Docker, gensim (word2vec), GoogleBigQueryを用いて必要な情報を抽出 gensim(word2vec) https://radimrehurek.com/gensim/models/word2vec.html