内容へ移動
くえびこwiki
ユーザ用ツール
ログイン
サイト用ツール
検索
ツール
文書の表示
以前のリビジョン
最近の変更
メディアマネージャー
サイトマップ
ログイン
>
最近の変更
メディアマネージャー
サイトマップ
現在位置:
くえびこwiki ~ソフトウェア開発に関する諸々~
»
プログラミング
»
Python
»
webスクレイピング
»
Seleniumを使用したスクレイピング
トレース:
プログラミング:python:webスクレイピング:seleniumを使用したwebスクレイピング
この文書は読取専用です。文書のソースを閲覧することは可能ですが、変更はできません。もし変更したい場合は管理者に連絡してください。
===== Seleniumを使用したスクレイピング ===== ==== ブラウザ起動 ==== webdriverを使用してブラウザを起動し、ターゲットとするURLを開きます。\\ 以下の例ではChromeを起動しています。他のブラウザを使用する場合は、webdriverから対象ブラウザの起動メソッドを探してください。 <code python> from selenium import webdriver # Chrome起動 browser = webdriver.Chrome('ドライバのパス') browser.get('ターゲットURL') # ~~~ 解析処理 ~~~ # Chrome終了 browser.quit() </code> ※環境変数を設定してある場合は'ドライバのパス'は不要です。 ==== HTMLから値取得 ==== === ID属性指定 === webdriverのfind_element_by_id()を使用します。 <code python> browser = webdriver.Chrome() # ~~~ 省略 ~~~ element = browser.find_element_by_id('ID属性名') print(element.text) </code> === タグ指定 === == 単一要素取得 == webdriverのfind_element_by_tag_name()を使用します。 <code python> browser = webdriver.Chrome() # ~~~ 省略 ~~~ element = browser.find_element_by_tag_name('タグ名') print(element.text) </code> == 全要素取得 == webdriverのfind_elements_by_tag_name()を使用します。\\ リスト型で返却されるので、for文等で処理を加えます。 <code python> browser = webdriver.Chrome() # ~~~ 省略 ~~~ elements = browser.find_elements_by_tag_name('タグ名') for i in elements: print(i.text) </code> ==== HTMLから画像取得 ==== === SRC属性から取得 === <code python> import io from urllib import request # ~~~ 省略 ~~~ element = browser.find_element_by_tag_name('img') url = element.get_attribute('src') in_data = io.BytesIO(request.urlopen(url).read()) img = Image.open(in_data) img.save(保存ファイル名) </code> ==== ブラウザの操作 ==== === テキスト入力 === WebElementのsend_keys()を使用します。 <code python> browser = webdriver.Chrome() # ~~~ 省略 ~~~ element = browser.find_element_by_id('ID属性名') element.send_keys('文字列入力') </code> === ボタン押下 === WebElementのclick()を使用します。 <code python> browser = webdriver.Chrome() # ~~~ 省略 ~~~ element = browser.find_element_by_id('ID属性名') element.click() </code>
プログラミング/python/webスクレイピング/seleniumを使用したwebスクレイピング.txt
· 最終更新: 2019/07/15 04:56 by
sotoyama
ページ用ツール
文書の表示
以前のリビジョン
文書の先頭へ