--- title: WWW::Mechanize::Cookbookの抄訳 author: kazu634 date: 2008-09-20 wordtwit_post_info: - 'O:8:"stdClass":13:{s:6:"manual";b:0;s:11:"tweet_times";i:1;s:5:"delay";i:0;s:7:"enabled";i:1;s:10:"separation";s:2:"60";s:7:"version";s:3:"3.7";s:14:"tweet_template";b:0;s:6:"status";i:2;s:6:"result";a:0:{}s:13:"tweet_counter";i:2;s:13:"tweet_log_ids";a:1:{i:0;i:4283;}s:9:"hash_tags";a:0:{}s:8:"accounts";a:1:{i:0;s:7:"kazu634";}}' categories: - CPAN - Perl ---
LWP::UserAgentでも同じことができると言うことは了解しておいてね。
use WWW::Mechanize; my $mech = WWW::Mechanize->new( autocheck => 1 );
この「autocheck => 1」は、失敗したら自動的に終了するためのフラグ。自分で初期化できなかったのときの処理を書きたければ、外してね。
$mech -> get( "http://search.cpan.org" ); print $mech->content;
$mech->contentは、getしたウェブページの生のHTMLを格納している。contentメソッド上では、いかなる方法でもパースされていなければ、処理も加えられていないよ。
取得したページを直接ファイルに書き込みたい場合がある。その場合には、以下のようにする。
$mech->get( "http://www.cpan.org/src/stable.tar.gz", ":content_file" => "stable.tar.gz");
my @links = $mech->find_all_links (tag => "a", url_regez => qr/\.jpe?g|gif|png)$/i);
“download”とあるリンク全て取得するよ。
my @links = $mech->find_all_links (tag => "a", text_regex => qr/\bdouwnload\b/);