blog/content/post/2008/09/20/2008-09-20-00001029.md

3.4 KiB

title author date wordtwit_post_info categories
WWW::Mechanize::Cookbookの抄訳 kazu634 2008-09-20
O:8:"stdClass":13:{s:6:"manual";b:0;s:11:"tweet_times";i:1;s:5:"delay";i:0;s:7:"enabled";i:1;s:10:"separation";s:2:"60";s:7:"version";s:3:"3.7";s:14:"tweet_template";b:0;s:6:"status";i:2;s:6:"result";a:0:{}s:13:"tweet_counter";i:2;s:13:"tweet_log_ids";a:1:{i:0;i:4283;}s:9:"hash_tags";a:0:{}s:8:"accounts";a:1:{i:0;s:7:"kazu634";}}
CPAN
Perl

Introduction

LWP::UserAgentでも同じことができると言うことは了解しておいてね。

Basics

Launch the WWW::Mechanize Browser
use WWW::Mechanize;
my $mech = WWW::Mechanize->new( autocheck => 1 );

この「autocheck => 1」は、失敗したら自動的に終了するためのフラグ。自分で初期化できなかったのときの処理を書きたければ、外してね。

Fetch a page
$mech -> get( "http://search.cpan.org" );
print $mech->content;

$mech->contentは、getしたウェブページの生のHTMLを格納している。contentメソッド上では、いかなる方法でもパースされていなければ、処理も加えられていないよ。

Fetch a page into a file

取得したページを直接ファイルに書き込みたい場合がある。その場合には、以下のようにする。

$mech->get( "http://www.cpan.org/src/stable.tar.gz",
":content_file" => "stable.tar.gz");

Links

Find all image links
my @links = $mech->find_all_links
(tag => "a",
url_regez => qr/\.jpe?g|gif|png)$/i);
Find all download links

“download”とあるリンク全て取得するよ。

my @links = $mech->find_all_links
(tag => "a",
text_regex => qr/\bdouwnload\b/);