blog/2008-09-20-00001029.md at 3c8b202f54cc32e3b2b9f62ab3caaa5deaac71f5

title

author

date

url

wordtwit_post_info

LWP::UserAgentでも同じことができると言うことは了解しておいてね。

use WWW::Mechanize;
my $mech = WWW::Mechanize->new( autocheck => 1 );

この「autocheck => 1」は、失敗したら自動的に終了するためのフラグ。自分で初期化できなかったのときの処理を書きたければ、外してね。

$mech -> get( "http://search.cpan.org" );
print $mech->content;

$mech->contentは、getしたウェブページの生のHTMLを格納している。contentメソッド上では、いかなる方法でもパースされていなければ、処理も加えられていないよ。

取得したページを直接ファイルに書き込みたい場合がある。その場合には、以下のようにする。

$mech->get( "http://www.cpan.org/src/stable.tar.gz",
":content_file" => "stable.tar.gz");

my @links = $mech->find_all_links
(tag => "a",
url_regez => qr/\.jpe?g|gif|png)$/i);

“download”とあるリンク全て取得するよ。

my @links = $mech->find_all_links
(tag => "a",
text_regex => qr/\bdouwnload\b/);