Apache Nutchを利用してみた

Apache NutchはJavaで開発されたオープンソースのクローラソフトです。バッチ処理に最適なApache Hadoopによる拡張性が特徴で、「Nutch 1.x」系は成熟し、製品化準備の整ったクローラになっています。ここでは、Apache Nutchについて解説していきます。

bash


# バイナリをダウンロード
$ curl -O http://ftp.jaist.ac.jp/pub/apache/nutch/1.13/apache-nutch-1.13-bin.tar.gz

# 解凍/展開
$ tar xfvz apache-nutch-1.13-bin.tar.gz
$ cd apache-nutch-1.13

# 検索のシードになるURLリストを作成
$ mkdir urls
$ nano urls/seed.txt

# クロール
$ mkdir crawls
$ bin/crawl urls crawls 1

# linkdbの中身を見る。
$ bin/nutch readlinkdb crawls/linkdb -dump dumplinkdb

# crawlsdbの中身を見る。
$ bin/nutch readdb crawls/crawldb -dump dumpcrawldb

# segmentsの中身を見る。
$ s1=$(ls crawls/segments | tail -1)
$ bin/nutch readseg -get crawls/segments/$s1 http://nutch.apache.org/ -nofetch -nogenerate -noparse -noparsedata -noparsetext

seed.txt


http://nutch.apache.org