blog/2008-09-04-00001019.md at e44c14657ade5f1d72cc2174a2a4b8c872523774

4.7 KiB

Raw Blame History

title

author

date

wordtwit_post_info

相対URLを絶対URLへ

# === Libraries ===
use strict;
use warnings;
# LWP module
use LWP 5.64;
# Character Encoding
use Encode;
use utf8;
binmode(STDERR, ':raw :encoding(utf8)');
my $url = 'http://www.cpan.org/RECENT.html';
# get then content of the url.
my $browser = LWP::UserAgent->new;
my $response = $browser->get(
$url,
'User-Agent' => 'Mozilla/4.77 [en] (Win98; U)',
'Accept' =>
'image/gif, image/x-xbitmap, image.jpeg, image.pjpeg, image/png, */*',
'Accept-Encoding' => 'gzip',
'Accept-Language' => 'ja,en',
'Accept-Charset'  => 'iso-8859-1, *, utf8',
);
die "$url を読み込めませんでした。", $response->status_line
unless $response->is_success;
die "HTMLを読み込んだはずなのに、", $response->content_type,
"が返ってきました。"
unless $response-> content_type eq 'text/html';
# decoding.
# Note how to use "decode":
# decode($content's character code, the target string)
my $content = decode('shiftjis', $response->content);
# ここで相対URLを絶対URLに変換している
while ( $content =~ m/<A HREF=\"(.*?)\"/g ) {
print(URI->new_abs( $1, $response->base ), "\n");
}

ここの

while ( $content =~ m/<A HREF=\"(.*?)\"/g ) {
print(URI->new_abs( $1, $response->base ), "\n");
}

がポイントだよ。

4.7 KiB Raw Blame History

相対URLを絶対URLへ

4.7 KiB

Raw Blame History