首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

怎么计算出一篇文章中出现频率最高的字符或词组

2012-03-21 
如何计算出一篇文章中出现频率最高的字符或词组?比如有一篇文章:请您对您的言行负责,遵守中华人民共和国

如何计算出一篇文章中出现频率最高的字符或词组?
比如有一篇文章:

"请您对您的言行负责,遵守中华人民共和国有关法律、法规,尊重网上道德,发表问题前,建议搜索已有问题,社区发表新贴子.   发帖咨询问题前,建议你搜索,看是不是已经有人解决了这个问题。 "

要如何才能计算出里面出现频率最高的词组和单字呢????
散分啊,,,超级难的   问题呀

[解决办法]
首先要分词阿,不分词怎么统计。去搞一个中科院开源的分词工具先。然后根据你的分词去分析字符串就可以了
[解决办法]
好像lucene中有一个统计词个数的方法。自己可以去研究一下

[解决办法]
先进行多元分词,然后对分词进行编码化,最后按编码进行统计
[解决办法]
然后对分词进行编码化,最后按编码进行统计
[解决办法]
好像lucene中有一个统计词个数的方法。自己可以去研究一下 

[解决办法]
找个词库,然后用后向最大匹配的分词把里面的词组都解析出来。接下来就是统计咯。

现成的工具不知道有没有,好久没碰这个东西了。。。。

热点排行