[Solr] 教程4: Nutch 1 + Solr的互联网爬虫与检索例子

Nutch2.x引入了Gora作为存储抽象层,但是必须使用HBase、Cassandra等数据库,所以我常用Nutch1来进行爬数、然后再建立solr索引使用。Nutch2需要编译,Nutch1有二进制安装包

版本:nutch-1.12、Solr-5.5.4

Nutch1的安装
1.下载安装包 http://www.apache.org/dyn/closer.lua/nutch/1.12/apache-nutch-1.12-bin.tar.gz
我的计划安装目录:/home/hadoop/BigData/nutch-1.12

$ tar zxvf apache-nutch-1.12-bin.tar.gz -C /home/hadoop/BigData/
$ mv /home/hadoop/BigData/apache-nutch-1.12-bin /home/hadoop/BigData/nutch-1.12

 

2.修改agent.name
$ vi /home/hadoop/BigData/nutch-1.12/conf/nutch-site.xml 内容参考如下

<configuration>
<property>
<name>http.agent.name</name>
<value>SpiderTest1</value>
</property>

</configuration>

3.如有需要可以设置regex

4.配置schema.xml
直接用nutch1中的schema.xml,基本适用大多数爬取。路径: /home/hadoop/BigData/nutch-1.12/conf/schema.xml
由于我用的是solr5,使用的managed-schema,而nutch1中的schema.xml某些参数不支持,所以需要改造。
删除掉schema.xml种所有的enablePositionIncrements=”true”,并将其重命名为managed-schema.
然后将schema.xml与solrconfig.xml上传到zookeeper创建collection,名称为nutch。创建collection命令如下

$ ${SOLR_HOME}/bin/solr create_collection -c nutch -d server/solr/configsets/nutch_configs/conf -shards 3 -replicationFactor 3

5.适用Nutch进行爬取
创建需要爬取的url

$ cd /home/hadoop/BigData/nutch-1.12/
$ mkdir urls
$ echo "http://www.baidu.com/" >> urls/url01.txt

使用爬取命令
$ bin/crawl urls crawl_dir 1

然后将爬取结果导入solr建立索引
$ bin/nutch solrindex http://192.168.111.140:8983/solr/nutch crawl_dir/crawldb crawl_dir/linkdb crawl_dir/segments/*

 

6.这时,打开solrAdmin即可看到已经建立索引成功。

分类上一篇:     分类下一篇:

Leave a Reply