This page is intended for users in Singapore. Go to the page for users in United States.

クローラー開発の知見をオープンにしよう ~ Crawler Night 2019 イベントレポート ~

こんにちは、CTOの伊藤 勝梧です。
scouty では今まで人事担当者向けのイベントを開催することが多かったのですが、今回エンジニア向けのイベント Crawler Night を開催したので、その様子紹介します。


Crawler Night 開催の目的

scouty ではネット上の情報をクロールして転職候補者となる方のデータベースを構築しており、社内の7名のソフトウェアエンジニアのうち3名がクローラー開発に携わっています。

価格比較サイトやニュースサイトを運営している会社でも少なからずクローラーエンジニアがいらっしゃると思うのですが、クローラー開発に関する知見がネット上を探しても少なく、勉強会もほとんど開催されていない現状がありました。

scouty のバリューには「オープンであれ」というものがあり、オープンにすることで予期しない新しいシナジーや発見が生まれるという考え方が根付いています。私達がクローラーを開発していて培ってきた知見を外部に公開することで、なにか面白いことができるのではないかと感じこのイベントを開催することにしました。

仕事でなくても、趣味でクローラーを書いているエンジニアは多数いると思うのですが、クロールの仕方によっては法律的にグレーになることもあるため気軽に情報発信ができず、また相談相手もなかなか見つけることができず、悩みを抱えている人が意外と多いのでは?とも考えており、これもイベント開催のきっかけとなった一つの要因です。

イベント開始

イベント参加率は6~7割ぐらいだとうと、歩留まりを考えて少し多めに参加者を応募していたのですが、9割ぐらいの方に参加して頂けました。結果的に会場のキャパがギリギリで、みなさんに窮屈な思いをさせてしまうことになりましたが、それだけ楽しみにしていただけていたと考えると嬉しい限りです!

タイムスケジュールは15分程度の発表2本と、LT4本でした。

発表① 株式会社scouty 両角 和軌

クローラーの開発もプロダクトのフェーズによって注力すべき箇所が変化していき、0→1 の段階では設計を考えずにガンガンクロール先を増やしていくことが大事、1→10 や 10→100 の段階では次第に保守性も大事になり、リファクタリングをするためにもクローラーにもテストが必要であるというお話でした。
クロール先のサービスステータスに依存しない様に、モックデータを使ってパース&スクレイピング部分のテストをしていると紹介しました。



発表② 株式会社Gunosy 吉澤 直哉さん

Kotlinでクローラーを作成する時に使用すべきライブラリの紹介から、AWSで作るクローラーのアーキテクチャ全体像までをお話してくださいました。
クローラー部分とスクレイピング部分は分離して、それぞれ AWS Lambda と Step Functions でその責務を分担している話が興味深かったです。Webアプリケーションの時代の流れと同じ様に、クローラーも責務毎にマイクロサービス化してみたところ、テストの書きやすさや開発の分担など得られたメリットは大きかったようです。

LT × 4名

LTのテーマは多種多様で面白い話ばかりでした。

  • 同じIPアドレスでリクエストしているとBANされるけど、どうしてる?
  • scrapy の翻訳やっていて、翻訳作業はこんなツール使っているよ
  • ログの収集は非常に大事で、クローラーのアクセスログもちゃんと取って可視化しようね

トークの内容的に、登壇者のポジション的にイベントレポートには詳細を書くことができない内容もありましたが、濃い話がたくさん聞けて皆満足そうにしていました。

懇親会

予定では懇親会は 20:50 ~ 21:30 の予定でしたが、発表/LTが盛り上がり質問が大量に出てきたので21時を過ぎての懇親会開始でした。

参加者もクローラーを書いている経験を持っている方が多く、クローラー話に花を咲かせていたように思います。私は私用で22時前に抜けてしまったのですが、22:30ぐらいまで残ってお話をされていた方もいたようです。

21:30の中締めでも「今日のCrawler Night楽しかった人〜 🖐」と聞いたら全員手を上げてくれたので、イベント企画した甲斐があったなと嬉しい気持ちになりました。

イベント参加者からは半年後にまたやってください!との声もありましたが、次回は1年後のこの時期に「Crawler Night 2020」を開催予定です。(しばらく間空く方がみんな面白いネタ溜められるよね?)

今年は20名の参加でしたが、来年は50~60名のイベントにしようと思っています。この記事を読んだ方はぜひ来年の「Crawler Night 2020」にお越し下さい。私は2019年12月の予定に「Crawler Night 2020 の企画開始」と入れておきました!

LAPRAS株式会社's job postings
Anonymous
C3e68115 4701 45eb 88ec 489eee413961?1546673073
6a68192d 4f93 4bad 921b 900f08ef2a08?1557111891
18195118 1349687681790449 4172859564459079699 n
23231609 884906325012153 7340051220649470478 n
86b66fcb deb4 4a94 9e0d 582e29f5c3c6?1556172558
5 Likes
Anonymous
C3e68115 4701 45eb 88ec 489eee413961?1546673073
6a68192d 4f93 4bad 921b 900f08ef2a08?1557111891
18195118 1349687681790449 4172859564459079699 n
23231609 884906325012153 7340051220649470478 n
86b66fcb deb4 4a94 9e0d 582e29f5c3c6?1556172558
5 Likes

Weekly ranking

Show other rankings
If this story triggered your interest, go ahead and visit them to learn more

Page top icon