【Python】スクレイピング

こんにちは、三橋です。

弊社では、ある業者の複数社のホームページにある情報をチェックするスクレイピングツールを作成しております。
今回スクレイピングがどのようなものなのか調べてみたらPythonで出来ることが分かったので調べて実施してみました。

スクレイピングとは

スクレイピングとは、Webページからデータを抽出するプロセスです。これは、ウェブスクレイピングとも呼ばれます。スクレイピングは、Webページからテキスト、画像、動画、価格情報、レビューなど、様々な情報を抽出することができます。スクレイピングには、プログラミング言語を使用してWebページのHTMLコードを解析し、必要なデータを抽出することが必要です。

Pythonで使用できる主なスクレイピング用ライブラリ一覧

BeautifulSoup4
Requests
Selenium

Python環境でBeautifulSoup4を使用できるようにする

pipコマンドでBeautifulSoup4をインストールします。

pip3 install beautifulsoup4

タグで指定してデータを抽出する

下記ソースを実行し「タイトル: Home - 株式会社クオリアシステムズ」と表示されれば成功です。

import requests
from bs4 import BeautifulSoup

url = 'https://qualias.jp/'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

#タイトルを取得
title = soup.title.string
print('タイトル:', title)

タイトル: Home - 株式会社クオリアシステムズ

class で指定してデータを抽出する

下記ソースを実行し「株式会社クオリアシステムズ」と表示されれば成功です。

import requests
from bs4 import BeautifulSoup

url = 'https://qualias.jp/'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

#タイトルを取得
title = soup.find(class_="hero-small-text").get_text()
print(title)

株式会社クオリアシステムズ

スクレイピング結果をExcelに貼り付ける

下記ソースを実行し「text.xlsx」がこのソースを配置している箇所に作成され、A列とB列に値が入力されれば完了です。

import requests
import re
import openpyxl
from bs4 import BeautifulSoup

# エクセルを開く
wb = openpyxl.Workbook()
sheet = wb.active
sheet .title = "スクレイピング結果"

url = 'https://qualias.jp/blog/'

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

cnt = 1

#配列ループ
for a in soup.find_all("a"):
	data = str(a.string).rstrip()
	if data == "None":
		continue
	# シートの番号を決める
	sel1 = "A"+str(cnt)
	sel2 = "B"+str(cnt)
	sheet[sel1].value = data
	sheet[sel2].value = a.get("href")
	cnt += 1

# エクセルにデータを保存する
wb.save("text.xlsx")

wb.close()

上記のものを組み合わせてスクレイピングツールを作成していることがわかりました。
スクレイピングは効率的にWebサイトからデータを取得することが出来ます。

株式会社クオリアシステムズ's job postings

【Python】スクレイピング

三橋遥香

株式会社クオリアシステムズ /

1 Likes

株式会社クオリアシステムズ

Child-Dream×クオリアシステムズでは新しいオリジナルのMMORPGを制作するためのゲームプログラマを募集します。ゲームが好きで一緒に創造的な仕事をしたい方、大手とは異なる少人数の制作チームで力を発揮されたい方。従来のMMORPGとは異なるシンプルでストーリー性に富んだゲームを目指します。本制作はゲーム企画およびネットワークの専門会社によるジョイントベンチャーの開発体制で、小規模開発ながら、MMORPGを実現可能としています。大手のようなきれいなオフィスは無いですが、短期集中でゲーム開発に携わりたい方を募集します。もちろん、その後も様々な開発プロジェクトがあります。応募や質問はお気軽にお問い合わせください。 ■募集要件・開発はUnityベースになりますが、Unity必須ではありません。（クライアント側の募集なので、サーバ知識は無くても可です）・ゲームが好きで意欲的な方・何らかのソフトウエアやアプリの開発経験がある方・2018年9月～10月にメインで働くことが可能な方。ただし、勤務時間などは個人の都合により調整ができます。 ■勤務条件勤務時間・曜日：・週休２日・フレックスタイム制度あり・自宅作業なども応相談交通アクセス： JR中央線西荻窪駅から徒歩５分待遇・福利厚生：慶弔休暇、昇給年１回（４月）、社宅制度ありその他：書類選考ののち、面接１回〜２回行います。雇用形態: 正社員, アルバイト･パート, 派遣社員, インターン, 契約社員, 業務委託給与（正社員の場合）：180,000円～500,000円 /月給 ―――――――― ■開発体制ゲームプランナー／シナリオライター　H.Miyashita 物語性を重視したRPG、アドベンチャーゲームを制作、1997年のRPG「Lost Memory」などがヒットし、株式会社Child-Dreamを立ち上げ。代表作は下記。・「フォークスソウル」プレイステーション3用アクションAVG。全シナリオ執筆、企画リーダー担当・「人形の傷跡」　推理小説専門誌にも掲載、PC、スマホ累計100万DL超のサスペンス・「千里の棋譜」　高橋道雄九段が出演の将棋ミステリー、トップ棋士もプレーし、将棋連盟公式にも掲載株式会社クオリアシステムズ 2001年設立、大手証券会社などのシステム開発を長年手がける一方で、スマホアプリも開発。「神経衰弱できるもん　おすしやさん」はAppStoreカジュアルゲーム部門１位を獲得、なお人気が継続中で、現在累計150万DLに達した。デザイン、ネットワーク、AIにも専門社員を有する。2018年4月よりゲーム部門を拡充。

Like 三橋遥香's Story

Let 三橋遥香's company know you're interested in their content