Nutch相关框架视频教程8
第八讲
土豆在线视频地址(38分钟)
超清原版下载地址
压缩高清下载地址?
1、指定LUKE工具的分词器?
访问https://code.google.com/p/mmseg4j/downloads/list???
下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip?
将压缩包里面的dist文件夹里面的jar解压,将解压出来com和data文件夹拖到lukeall-4.0.0-ALPHA.jar里面?
启动luke,在Search选项卡的Analysis里面选择com.chenlb.mmseg4j.analysis.ComplexAnalyzer?
2、安装配置SOLR4.2
?wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz?
tar ?-xzvf ?solr-4.2.0.tgz?
cd ?solr-4.2.0/example?
复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件?
修改solr/collection1/conf/schema.xml,在<fields>下增加:<field name="_version_" type="long" indexed="true" stored="true"/>?
3、给SOLR4.2配置分词器mmseg4j?
wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip?
unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -d? mmseg4j-1.9.1?
将mmseg4j-1.9.1/dist/*.jar复制到solr下的lib目录
将schema.xml文件中的
??<tokenizer mode="complex"/>?
4、运行SOLR并提交索引?
启动SOLR服务器
?java -jar start.jar &?
Web界面
?http://host2:8983?
提交索引?
bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments?