JavaでWebクローラー

Web クローラーで必要な情報を集めるって、いちから作るのって大変ですからすでにライブラリがあればそれを利用したいと思ってしらべたらよさそうなのがありました。

「crawler4j」 というJava でかかれたオープンソースのWebクローラーは WebCrawlerクラスを継承して独自のクラスで shouldVisit と visit メソッドを実装すれば簡単なクローラーが作成できる。

shouldVisit では、与えられたURLをクロールするか否かを決定し、
visit は、URLのコンテンツが取得できたときに呼ばれるので、コンテンツを解析したりする

https://code.google.com/p/crawler4j/

ディスカッションに参加

1件のコメント

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください