nutch的中文分词插件

singlerwong | 2008-07-17 14:48:29 阅读：16279

试用了好多的中文插件，有CJK，ICTCLAS的还有IK_CAnaylzer的，经过试用测试后，发现最后一个比较好用。CJK基本就是二元分词没有一点意义。本文分两个部分，第一部分是两种插件测试结果的对比，第二部分是如果给nutch增加插件。
第一部分：
================================原文=============================================
他从马上摔下来了。
你马上下来一下。
结合成分子时
薄熙来字词担任商务部长以来，一直兢兢业业。
张华平1995年离开江西鄱阳老家就读于北方工业大学，如今已经是中科院计算所的副研究员，他说ICTCLAS就像是他的孩子一样珍爱；
=================================ICTCLAS==========================================
他从马上摔下来了。
你马上下来一下。
结合成分子时
薄熙来字词担任商务部长以来，一直兢兢业业。
张华平 1995年离开江西鄱阳老家就读于北方工业大学，如今已经是中科院计算所的副研究员，他说 ICTCLAS 就像是他的孩子一样珍爱；
=================================IK_CAnalyzer======================================
马上摔下来摔下下来来了马上上下下来来一下一下一下结合合成成分分子子时时薄熙来字词担任商务部长商务部商务部长以来一直一兢兢业业业张华平 1995年 1995 年离开开江江西鄱阳老家就读于就读北方工业大学工业业大大学大如今已经是已经中科院计算所计算副研究员研究员研究员 ictclas 就像像是孩子一样一珍爱爱
==============================总结===========================================
大家发现了吧，后一种分词的可能性更多，更适合做中文搜索引擎。

第二部分
IK_CAnalyzer的下载地址：http://download.csdn.net/source/160428
这个下载到是一个jar文件，我命名成analysis-ikc.jar，在项目的plugins目录下建立了一个新的目录：analysis-ikc，把该jar包复制过来，建立了一个plugin.xml，代码如下：
<?xml version="1.0" encoding="UTF-8"?>
<plugin
   id="analysis-ikc"
   name="Basic Indexing Filter"
   version="1.0.0"
   provider-name="nutch.org">

   <runtime>
      <library name="analysis-ikc.jar">
         <export name="*"/>
      </library>
   </runtime>

   <extension id="org.mira.lucene.analysis"
              name="IK_CAnalyzer"
              point="org.mira.lucene.analysis.IK_CAnalyzer">
   <implementation id="NutchAnalyzer"
                      class="org.apache.nutch.analysis.NutchAnalyzer"/>
   </extension>
</plugin>
===================我是分割线=============================================
修改nutch-default.xml文件，主要是里面的plugin.includes段，把analysis-ikc写入value对中，如果你还添加了别的分词插件，要把别的插件的名字删掉，写入下面的plugin.excludes里面。保存退出，重启tomcat，然后就可以执行爬行了。
爬行时，先建立一个urls目录，里面建立网址文件，比如我的eepw文件，里面只有一个网址。
再修改crawl-filter.txt把里面网址部分的正则表达式改掉，然后就可以在nutch目录下执行爬行了。爬好后修改tomcat里面classes/nutch-site.xml里面，把搜索目录改成你的索引目录，重启tomcat后，就可以执行搜索了。
爬行命令：[root@xxx] # bin/nutch crawl nutch -dir crawl.eepw -depth 3 -threads 4 -topN 50 >&crawl.log

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。

参与讨论

登录后参与讨论