タイトル: phpQueryの導入と使い方
phpQueryとは?
phpで簡単にWebスクレイピングが出来るライブラリです。
こちらから最新の「phpQuery-~-onefile.zip」をダウンロードしましょう。
中にある「phpQuery-onefile.php」をrequire_onceすれば使えるようになります。
対象ページの取得
まずスクレイピングしたいページのHTMLを取得しましょう。
file_get_contentsの引数にページのURLを指定しましょう。
【例】
$html = file_get_contents(https://ja.wikipedia.org/wiki/ウェブスクレイピング); $doc = phpQuery::newDocument($html); print $doc; |
これで対象ページの情報を取得できたことを確認できます。
要素を指定して取得
h1要素を取得するには以下の様にします。
※1行目と2行目どちらでもOK
print $doc['h1']; print $doc->find('h1); |
IDやクラスを指定して取得
bodyContentというIDを指定するには以下の様にします。
※1行目と2行目どちらでもOK
※クラスの場合は「#」ではなく「.」を指定
print $doc['#bodyContent']; print $doc->find('#bodyContent'); |