首页
诗词
字典
板报
句子
名言
友答
励志
学校
网站地图
开源软件
互联网
操作系统
开源软件
共享软件
系统运维
其他相关
当前位置:
首页
>
教程频道
>
其他教程
>
开源软件
>
目无全牛分词之自定义词库
2013-08-25
庖丁解牛分词之自定义词库庖丁解牛分词之自定义词库[自定义词典]?????? 发现很久很久没更新了,尤其是这个
庖丁解牛分词之自定义词库
庖丁解牛分词之自定义词库[自定义词典]?????? 发现很久很久没更新了,尤其是这个模块,也就好久没进步了!学习如逆水行舟,不进则退!趁着还没到白首之际,应该多学习。
首先,还是先贴出来参考来源,毕竟非原创。
(1)、http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx
(2)、http://qipei.javaeye.com/blog/365207
现在继续:
1、到http://code.google.com/p/paoding/downloads/list下载paoding-analysis-2.0.4-alpha2.zip
2、然后解压缩,找到dic文件夹,复制到你想存放的文件夹下
?????????
3、配置环境变量,如果不配置,运行会报错,报错的中文信息也是需要进行配置环境变量
4、删除.compiled文件
5、新建一个文本文件,后缀名问.dic,采用utf-8保存到dic的文件目录中,这里保存在了E:\paodingTest\dic\locale中
???????
6、下面我们写个分词测试程序
7、自定义词库的情况下分词结果,首先看到的是词库的编译信息
8、带自定义词库的分词结果
9、删除自定义词库和.compiled文件,重新分词
10、放在一起比较,效果还是有的
11、假设我们在分词的时候,需要把运、动分开,默认情况下是不分开的
12、在词库中增加两个词运和动
13、当然,如果想把这个分词器用得更好,还需要深入去了解和思考该分词方法,比如,“我是运动员”,虽然我们在自定义词库中填加了词“运动员”,但是依旧没有切分成“我”,“是”,“运动员”,反而出现了不相关的”动员“这个词语。而需要同时将”运动“切分为“运”,“动“,”运动“,那也是需要好好思考用法,当然这也和中国汉语的特殊性有关,例如:“乒乓球拍卖完了”,在没有上下文的情况下本身就存在歧义。
查看更多
下一篇
本文网址:
https://www.reader8.com/jiaocheng/20130825/2233369.html
读书人精选
热点排行
VIM diff 方式使用
hbase施用随记1
SWTBot中 dialogs的处置
步骤缓存
libvirt的一些惯用virsh命令
red5 scope跟context 实践
ActiveMQ in Action(五)
【圣诞呈献】高性能 Socket 组件 HP-Soc
9.1 批改stock portfolio示例程序
批改tomcat内存