[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[jfriends] Re: UrlRetriever.java




>いつも楽しく読ませていただいております。岡本と申します。ずっとROMしてい
>たら、NiftyのIDが変わってしまい投稿できなくなってしまいました。これがう
>まく投稿できれば良いのですが...

ようこそ Java互助会へ。ちゃんと読めてますよ。

そういえば、この前参加者リストをとったら、niftyserve.or.jp の人がまだ
残っていました。管理者権限で nifty.ne.jp に変えていいんでしょうか>各位

>実はワタクシも似たようなクラス作ったことがあります。
>
>http://member.nifty.ne.jp/s_okamoto/java/source.html の中にある、
>
>jp.gr.java_conf.sol.io.HTMLReader
>jp.gr.java_conf.sol.io.HTMLStateTransition
>jp.gr.java_conf.sol.sample.StateTransitionSample

見せて頂きました。私はステートマシンが良く分からないのでコメントできませんが、
岡本さんのは立派な HTML パーザーですね。

同じ HTML のリンク解析でも、

 (1)ワイルド派: トークンを取り出して片端から URL を new して Exception を catch
 (2)文字列処理派: HREF= や SRC= を String#indexOf() で探す
 (3)パージング派: HTML パーザーを書く

それぞれ個性があって楽しいです。(勝手に分類してごめんなさいm(_ _)m>各位)

>そうなんですよね。あとパラメータに数字が含まれる場合、
>
>...WIDTH=32HEIGHT=32ALIGN=... などもブラウザは理解してしまうようでした。
>他にもまだあるのかもしれません。ちょっとがんばりすぎだと思います。

これも凶悪ですね。Netscape 5.0 のソースが公開されましたが、
このへんはどうやってパージングしているんでしょうね。

>#JavaCCはなんかよくわかんないです。

Sun の Java3D コンテストで入賞した今野さんの VRML パーザーは
たしか JavaCC を使っているんですよね。

「さいば〜小金井出張所」
 http://www.cyber.koganei.tokyo.jp/
------------------------------------------------------------------
遠藤靖之 (えんどう やすゆき) <yasuyuki@xxxxxxxxxx>
http://www.freepage.total.co.jp/jfriends/ (Java互助会ホームページ)
株式会社タイムインターメディア 情報通信サービス部 TEL 03-5362-9009
〒162-0065 新宿区住吉町3-11 新宿スパイアビル8F    FAX 03-5362-9008