[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[jfriends] Re: UrlRetriever.java

To: jfriends@xxxxxxxxxx
Subject: [jfriends] Re: UrlRetriever.java
From: ENDO Yasuyuki <yasuyuki@xxxxxxxxxx>
Date: Thu, 03 Dec 1998 12:59:09 +0900
In-Reply-To: <199812030329.MAA29977@xxxxxxxxxx>
References: <199812020859.RAA09369@xxxxxxxxxx><199812030329.MAA29977@xxxxxxxxxx>
Reply-To: jfriends@xxxxxxxxxx
Sender: jfriends-request@xxxxxxxxxx

>ていました。HTMLファイルを読み込んだら、片っ端からURLの文字列を見つけて、
>世界中のリンクを辿り続けるものでした。パケットの無駄遣いとはまさにこの事で
>す。(^^;

なかなか凶悪なコードですね。^^;
かなりの時間がかかるのではないでしょうか？

><3>１行を「"」で区切り、文字列(spec)を切り出す

基本的にはこれでいいと思います。
ただし私がやった例では、例えば <FRAME SRC=./main.htm などという
" 記号が無い凶悪なものがあり、Netscape などのブラウザーでは
表示できてしまうので厄介でした。
MagicMapper も " 記号が無いタグの解析は失敗していました。

これが自分で書こうと思った動機です。

><4>切り出した文字列を利用して、URL url = new URL(base, spec)
>                               URL url = new URL(spec)
>  を行い、MalformedURLExceptionを検出する

うーんその手があったか。

私の場合どうしても文字列処理的発想になってしまうようです。

サイトマップではありませんが、Java で書かれた HTML プリフェッチャーを
ひとつご紹介します。(ソースは無いみたい)

「ピータン」
 http://www.ff.iij4u.or.jp/~ahirusan/Java/ptan/ptandoc.shtml

この あひる さんのページには、Javaによるデザインパターンの記事もあり
興味深いです。(でもまだ Gammaの『デザインパターン』読んでない^^;)
------------------------------------------------------------------
遠藤靖之 (えんどう やすゆき) <yasuyuki@xxxxxxxxxx>
http://www.freepage.total.co.jp/jfriends/ (Java互助会ホームページ)
株式会社タイムインターメディア 情報通信サービス部 TEL 03-5362-9009
〒162-0065 新宿区住吉町3-11 新宿スパイアビル8F    FAX 03-5362-9008

Follow-Ups:
- [jfriends] でざぱた(Re: UrlRetriever.java)
  - From: inami <inami@xxxxxxxxxx>
- [jfriends] Re: UrlRetriever.java
  - From: Tomohiro Takahashi <t_takahashi@xxxxxxxxxx>

References:
- [jfriends] UrlRetriever.java
  - From: ENDO Yasuyuki <yasuyuki@xxxxxxxxxx>
- [jfriends] Re: UrlRetriever.java
  - From: ENDO Yasuyuki <yasuyuki@xxxxxxxxxx>

Prev by Date: [jfriends] Re: UrlRetriever.java
Next by Date: [jfriends] でざぱた(Re: UrlRetriever.java)
Prev by thread: [jfriends] Re: UrlRetriever.java
Next by thread: [jfriends] でざぱた(Re: UrlRetriever.java)
Index(es):
- Date
- Thread