マネーフォワードさん、空さん、LAPRASのクローラーのアーキテクチャを発表しました

こんにちは、CTOの伊藤です。

12/3に Crawler Night 2020 Winter という、クローラーの開発&運用に関する知見の共有イベントを実施したので、そのイベントレポートとなります。

前回の scouty Crawler Night 2019 に続き今回は第二回目のCrawler Nightとなりました。クローラーに関するイベント/勉強会は探してもほとんどありませんが、趣味や仕事でクローラーを書いている方はたくさんいるように思っています。気をつけないと法律を違反しやすい分野でもあるのでなかなか情報をアウトプットしづらいのだと思いますが、そのような特性を持つ分野だからこそ、私達はこうやってホワイトにやっているよ！という発信が大事だと思っています。

今回の発表ではクローラーのアーキテクチャに関する話が大半でしたが、次回は法律周りの話などもしてみたいです。

それでは、タイムテーブルに沿ってレポートを書いていきます。

発表の前に懇親会を行いました。最近弊社が開催しているイベントではこのようにすることが多いのですが、発表前に交流しておくことで場が温まるのと、会場にいる方のバックグラウンドをなんとなく把握した上で登壇できるので、より参加者の属性を意識した発表ができるというメリットがあります。

イベント終了後にアンケートを取ったのですが、そこにも最初に懇親会をしたのが良かったという声がありました。

LAPRAS クローラーの技術課題とアーキテクチャの変遷 - LAPRAS株式会社 DJ☆エンジニア両角和軌

LAPRASのクローラーエンジニアによる発表で、弊社のクローラーの変遷に関する発表です。今までScrapyをメインで使っていましたが、以下の点で辛かったという話でした。

Scrapyはコールバック地獄で複数ページを一度に辿っていくクロールする処理を書くのがつらい。
テストの書き方がつらい。独自でテストフレームワークを作成したが、イマイチ。
拡張が難しい。

最近は新しいアーキテクチャを試しており、蔵(データ提供のAPI) + scraping モジュールの2つに分離し、クロールのハンドリングは蔵が行い、scrapingはステートレスでただクロールするだけ、というように責務を分けました。新しいアーキテクチャにしたことで2つのメリットを享受できました。

テストがしやすくなった
設計に集中できるようになった

スクレイピングのフレームワークにも使い方によって向き不向きがあり、Scrapyが得意なのは並列リクエストで、検索エンジンに対するクロールやウェブのアーカイブ目的。うちでの使い方には向いていなかったようです。

AWS Lambda（SAM）でつくるクローラー - 株式会社空田仲紘典

ホテル業界には料金設定の無駄やムラが多いという課題があり、空さんは競合ホテルの料金を解析して、料金の最適化を行うことでその課題を解決しようしていらっしゃる会社です。

クローリングの種類には大きく、定期的に情報を収集するバッチ型、取得タイミングが不定で速さが求められるリアルタイム型の2種類があり、空さんの場合にはサービスの特性上リアルタイムなクローリングをする必要があります。

負荷のタイミングが不定である点や、インフラはベストプラクティスに乗るという設計方針からLambda(SAM) + S3という構成にしているそうです。

また、技術選定の際には

(管理観点で)ローコストで本番稼働ができること
ローカル環境で単体テストができる + 周辺の統合テストまで実行できること

を大切にしており、Lambda(SAM)はその前提にも合致していたようです。

発表の後半はLambda+SAMの開発Tipsを紹介をされていたので、詳細に興味があるかたはスライド資料をご覧ください。

とこしえに毎日改修し続けるスクレイピングアーキテクチャの一つのあり方 - 株式会社マネーフォワード内波生一

マネーフォワードさんに入社してから5年間ずっと毎日クローラーの修正をしてきた内波さんによる発表です。インフラのアーキテクチャよりはアプリケーション設計で気をつけていることを中心にお話頂きました。

マネーフォワードさんのクローリングにおける三大義務として

「正しい」情報を取らなければいけない
個人情報を守らなければならない
変わり続けなければならない

というものがあるようです。それぞれより詳細に説明すると。

1.「正しい」情報を取らなければいけない

以前は個人向けのサービスのみを提供していたので、(誤解を恐れずに表現すると)多少の不具合は許されうる状況であったが、近年は事業者向けのサービスも提供しているため、誤った情報を取ることは許されない状況になっているようです。

そのため いかに誤った情報を保存しないか を重要視されており、少しでも想定していないデータを見つけたときにはすべてエラーにして落ちる様な設計をされているようです。そのためのクローリングフレームワークも自作しており、専任でそれを保守している方もいらっしゃるようです。

2. 個人情報を守らなければならない

顧客から銀行口座等のユーザ名・パスワード情報を受け取り、本人に代わり情報を取得しているため、それにより得た情報は何があっても外に漏れないようにする必要があります。そのためデバッグ時にもエンジニアが生のパスワードを手にしてイレギュラー対応をすることは許されず、すべでのケースをコード上で管理しているようです。(例外対応も含めて手作業で修正することは許されないようです)