カテゴリー
雑記

JavaでWebクローラー

Web クローラーで必要な情報を集めるって、いちから作るのって大変ですからすでにライブラリがあればそれを利用したいと思ってしらべたらよさそうなのがありました。

「crawler4j」 というJava でかかれたオープンソースのWebクローラーは WebCrawlerクラスを継承して独自のクラスで shouldVisit と visit メソッドを実装すれば簡単なクローラーが作成できる。

shouldVisit では、与えられたURLをクロールするか否かを決定し、
visit は、URLのコンテンツが取得できたときに呼ばれるので、コンテンツを解析したりする

https://code.google.com/p/crawler4j/