[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[jfriends] Re: UrlRetriever.java
>いつも楽しく読ませていただいております。岡本と申します。ずっとROMしてい
>たら、NiftyのIDが変わってしまい投稿できなくなってしまいました。これがう
>まく投稿できれば良いのですが...
ようこそ Java互助会へ。ちゃんと読めてますよ。
そういえば、この前参加者リストをとったら、niftyserve.or.jp の人がまだ
残っていました。管理者権限で nifty.ne.jp に変えていいんでしょうか>各位
>実はワタクシも似たようなクラス作ったことがあります。
>
>http://member.nifty.ne.jp/s_okamoto/java/source.html の中にある、
>
>jp.gr.java_conf.sol.io.HTMLReader
>jp.gr.java_conf.sol.io.HTMLStateTransition
>jp.gr.java_conf.sol.sample.StateTransitionSample
見せて頂きました。私はステートマシンが良く分からないのでコメントできませんが、
岡本さんのは立派な HTML パーザーですね。
同じ HTML のリンク解析でも、
(1)ワイルド派: トークンを取り出して片端から URL を new して Exception を catch
(2)文字列処理派: HREF= や SRC= を String#indexOf() で探す
(3)パージング派: HTML パーザーを書く
それぞれ個性があって楽しいです。(勝手に分類してごめんなさいm(_ _)m>各位)
>そうなんですよね。あとパラメータに数字が含まれる場合、
>
>...WIDTH=32HEIGHT=32ALIGN=... などもブラウザは理解してしまうようでした。
>他にもまだあるのかもしれません。ちょっとがんばりすぎだと思います。
これも凶悪ですね。Netscape 5.0 のソースが公開されましたが、
このへんはどうやってパージングしているんでしょうね。
>#JavaCCはなんかよくわかんないです。
Sun の Java3D コンテストで入賞した今野さんの VRML パーザーは
たしか JavaCC を使っているんですよね。
「さいば〜小金井出張所」
http://www.cyber.koganei.tokyo.jp/
------------------------------------------------------------------
遠藤靖之 (えんどう やすゆき) <yasuyuki@xxxxxxxxxx>
http://www.freepage.total.co.jp/jfriends/ (Java互助会ホームページ)
株式会社タイムインターメディア 情報通信サービス部 TEL 03-5362-9009
〒162-0065 新宿区住吉町3-11 新宿スパイアビル8F FAX 03-5362-9008