dak ブログ

python、rubyなどのプログラミング、MySQL、サーバーの設定などの備忘録。レゴの写真も。

requests+lxmlでhtmlをスクレイピング

2019-07-07 15:15:33 | python
requests+lxmlでhtmlをスクレイピングする方法のメモ。

import sys
import requests
from lxml import html


url = 'https://www.goo.ne.jp/'

req = requests.get(url)
html_obj = html.fromstring(req.text)

title = html_obj.xpath("//title")
og_title = html_obj.xpath("//meta[@property='og:title']")
og_desc = html_obj.xpath("//meta[@property='og:description']")

print("title: %s" % (title[0].text_content()))
print("og_title: %s" % (og_title[0].get('content')))
print("og_description: %s" % (og_desc[0].get('content')))


実行結果
title: goo
og_title: goo
og_description: NTTレゾナントが運営する安心・安全のポータルサイト。使えば使うほど、あなたの興味・関心、趣味・嗜好を学習し、限られた時間で効率よく「あなた専用」のポータルサイトとして必要な情報を収集することができます。