[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[jfriends] Re: UrlRetriever.java



>ていました。HTMLファイルを読み込んだら、片っ端からURLの文字列を見つけて、
>世界中のリンクを辿り続けるものでした。パケットの無駄遣いとはまさにこの事で
>す。(^^;

なかなか凶悪なコードですね。^^;
かなりの時間がかかるのではないでしょうか?

><3>1行を「"」で区切り、文字列(spec)を切り出す

基本的にはこれでいいと思います。
ただし私がやった例では、例えば <FRAME SRC=./main.htm などという
" 記号が無い凶悪なものがあり、Netscape などのブラウザーでは
表示できてしまうので厄介でした。
MagicMapper も " 記号が無いタグの解析は失敗していました。

これが自分で書こうと思った動機です。

><4>切り出した文字列を利用して、URL url = new URL(base, spec)
>                               URL url = new URL(spec)
>  を行い、MalformedURLExceptionを検出する

うーんその手があったか。

私の場合どうしても文字列処理的発想になってしまうようです。

サイトマップではありませんが、Java で書かれた HTML プリフェッチャーを
ひとつご紹介します。(ソースは無いみたい)

「ピータン」
 http://www.ff.iij4u.or.jp/~ahirusan/Java/ptan/ptandoc.shtml

この あひる さんのページには、Javaによるデザインパターンの記事もあり
興味深いです。(でもまだ Gammaの『デザインパターン』読んでない^^;)
------------------------------------------------------------------
遠藤靖之 (えんどう やすゆき) <yasuyuki@xxxxxxxxxx>
http://www.freepage.total.co.jp/jfriends/ (Java互助会ホームページ)
株式会社タイムインターメディア 情報通信サービス部 TEL 03-5362-9009
〒162-0065 新宿区住吉町3-11 新宿スパイアビル8F    FAX 03-5362-9008