3.5 KiB
3.5 KiB
title | author | date | url | wordtwit_post_info | categories | |||
---|---|---|---|---|---|---|---|---|
WWW::Mechanize::Cookbookの抄訳 | kazu634 | 2008-09-20 | /2008/09/20/_1105/ |
|
|
Introduction
LWP::UserAgentでも同じことができると言うことは了解しておいてね。
Basics
Launch the WWW::Mechanize Browser
use WWW::Mechanize; my $mech = WWW::Mechanize->new( autocheck => 1 );
この「autocheck => 1」は、失敗したら自動的に終了するためのフラグ。自分で初期化できなかったのときの処理を書きたければ、外してね。
Fetch a page
$mech -> get( "http://search.cpan.org" ); print $mech->content;
$mech->contentは、getしたウェブページの生のHTMLを格納している。contentメソッド上では、いかなる方法でもパースされていなければ、処理も加えられていないよ。
Fetch a page into a file
取得したページを直接ファイルに書き込みたい場合がある。その場合には、以下のようにする。
$mech->get( "http://www.cpan.org/src/stable.tar.gz", ":content_file" => "stable.tar.gz");
Links
Find all image links
my @links = $mech->find_all_links (tag => "a", url_regez => qr/\.jpe?g|gif|png)$/i);
Find all download links
“download”とあるリンク全て取得するよ。
my @links = $mech->find_all_links (tag => "a", text_regex => qr/\bdouwnload\b/);