python で selenium でウェブページをクロールする方法のメモ。
selenium でブラウザを使ってクロールすると、javascript も実行してくれます。
■firefox のインスト―ル
■gecodriver のインストール
https://github.com/mozilla/geckodriver/releases/tag/v0.31.0 から gecodriver をダウンロードします。
■プログラム
selenium でブラウザを使ってクロールすると、javascript も実行してくれます。
■firefox のインスト―ル
sudo yum install firefox
■gecodriver のインストール
https://github.com/mozilla/geckodriver/releases/tag/v0.31.0 から gecodriver をダウンロードします。
gtar zxvf geckodriver-v0.31.0-linux64.tar.gz sudo cp geckodriver /usr/bin
■プログラム
import time from selenium import webdriver from selenium.webdriver.firefox.options import Options opts = Options() opts.headless = True driver = webdriver.Firefox(options=opts) urls = [ 'https://www.goo.ne.jp/', 'https://news.goo.ne.jp/', 'https://search.goo.ne.jp/', ] for url in urls: print(url) driver.get(url) time.sleep(3) html = driver.page_source print(html) driver.close()