忍者ブログ

開発者ブログ

忍者ブログの元開発者が送る愛と感動と涙のスペクタクル。プログラムの開発日誌やタダの日記です。

nutch2.0を触ってみる 第1回「インストール編」

こんにちは。misneyです。

今日はnutch2.0が出たということで、少し触ってみました。

nutchというのは簡単に言うと、検索エンジンを作れるオープンソース。
GoogleやYahooのような本格的な検索エンジンが作れてしまうのです。

今回は検索エンジンを作るというよりも、被リンク網を作成することが主目的です。
link:が使えなくなって久しいですよね・・・w

では、さっそくnutch2.0をインストールしてみます。
nutch2.0のチュートリアルページを見ながら進めてみます。
※ちなみにCentOSを使ってます。

nutch2.0を使うために以下が必要になるそう。

1. JDK
2. Apache Ant
3. Apache Maven
4. Apache Gora
5. Apache HBase

■JDK インストール

# wget http://download.oracle.com/otn-pub/java/jdk/6u33-b03/jdk-6u33-linux-x64.bin
# chmod a+x jdk-6u33-linux-x64.bin
# ./jdk-6u33-linux-x64.bin
# vi /etc/profile
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
# source /etc/profile


■Apache HBaseインストール + 実行

# cd /etc/yum.repos.d/
# wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo
# yum install hadoop-hbase hadoop-hbase-master hadoop-0.20-namenode hadoop-0.20-jobtracker hadoop-0.20-secondarynamenode hadoop-0.20-tasktracker hadoop-zookeeper
# vi /etc/hbase/conf/hbase-evn.sh #以下の行のコメントアウトを外す
export HBASE_MANAGES_ZK=true
# vi /etc/hbase/conf/hbase-site.xml #<configuration>の中に以下を追加
<property>
<name>hbase.zookeeper.quorum</name>
<value>127.0.0.1</value>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
</property>
<property>
<name>hbase.zookeeper.property.maxClientCnxns</name>
<value>200</value>
</property>
# service hadoop-0.20-datanode start
# service hadoop-0.20-jobtracker start
# service hadoop-0.20-namenode start
# service hadoop-0.20-secondarynamenode start
# service hadoop-0.20-tasktracker start
# service hadoop-hbase-master start


■Apache Mavenインストール

# wget ftp://ftp.riken.jp/net/apache/maven/binaries/apache-maven-3.0.4-bin.tar.gz
# tar zxf ./apache-maven-3.0.4-bin.tar.gz
# mv /usr/local/src/apache-maven-3.0.4 /usr/share/maven
# vi /etc/profile
export M2_HOME=/usr/share/maven
export M2=$M2_HOME/bin
export PATH=$PATH:$M2
# source /etc/profile


■Apache Gora インストール

# wget ftp://ftp.meisei-u.ac.jp/mirror/apache/dist/gora/gora-0.2-src.tar.gz
# tar zxvf ./gora-0.2-src.tar.gz
# cd ./apache-gora-0.2/
# mvn clean compile


■Apache Antインストール

# cd /usr/local/src
# wget http://ftp.riken.jp/net/apache//ant/binaries/apache-ant-1.8.4-bin.tar.gz
# tar zxf ./apache-ant-1.8.4-bin.tar.gz
# cp -R /usr/local/src/apache-ant-1.8.4 /usr/share/ant
# vi /etc/profile
export ANT_HOME=/usr/share/ant
export PATH=$PATH:$ANT_HOME/bin


■nutch2.0 インストール

# cd /usr/local/src
# mkdir ./nutch2.0
# cd ./nutch2.0
# wget ftp://ftp.riken.jp/net/apache/nutch/2.0/apache-nutch-2.0-src.tar.gz
# tar zxvf ./apache-nutch-2.0-src.tar.gz
# vi conf/nutch-site.xml #<configuration></configuration>の中に以下を追加
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<property>
<property>
<name>http.agent.name</name>
<value>nutch2.0</value>
</property>
# vi ivy/ivy.xml #108行目付近にある下記の記述のコメントアウトを外す
<dependency org="org.apache.gora" name="gora-hbase" rev="0.2" conf="*->default" />
#vi conf/gora.properties
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
# ant

BUILD SUCCESSFUL
Total time: 3 minutes 33 seconds



ふう。インストールだけでおなかいっぱい。
他にもSolrやらなんやら使えるみたいですが、まずはチュートリアル通りにそろえてみました。

正常にインストール出来れば以下のように表示されます。


# cd /usr/local/src/nutch2.0
# ./runtime/deploy/bin/nutch
Usage: nutch COMMAND
where COMMAND is one of:
inject inject new urls into the database
hostinject creates or updates an existing host table from a text file
generate generate new segments to fetch from crawl db
fetch fetch URLs marked during generate
parse parse URLs marked during fetch
updatedb update web table after parsing
updatehostdb update host table after parsing
readdb read/dump records from page database
readhostdb display entries from the hostDB
solrindex run the solr indexer on parsed segments and linkdb
solrdedup remove duplicates from solr
parsechecker check the parser for a given url
plugin load a plugin and run one of its classes main()
junit runs the given JUnit test
or
CLASSNAME run the class named CLASSNAME
Most commands print help when invoked w/o parameters.


拍手[0回]

PR

おまとめボタン

忍者カウンター

忍者ビジター

忍者アド

ブログ内検索

最新コメント

プロフィール

HN:
mizuno
年齢:
43
HP:
性別:
男性
誕生日:
1974/02/13
職業:
主に侍などを少々
趣味:
SEO(「申し訳ございません」や「指ぱっちん」「指定したサイトへは接続できませんでした」でググルと上位に。)
自己紹介:
母子手帳の仮死と書かれてる場所に丸されてます。

フリーエリア

忍者ツールズプロフィール

忍者ツールズプロフィールは終了しました