如何计算出一篇文章中出现频率最高的字符或词组?
比如有一篇文章:
"请您对您的言行负责,遵守中华人民共和国有关法律、法规,尊重网上道德,发表问题前,建议搜索已有问题,社区发表新贴子. 发帖咨询问题前,建议你搜索,看是不是已经有人解决了这个问题。 "
要如何才能计算出里面出现频率最高的词组和单字呢????
散分啊,,,超级难的 问题呀
[解决办法]
首先要分词阿,不分词怎么统计。去搞一个中科院开源的分词工具先。然后根据你的分词去分析字符串就可以了
[解决办法]
好像lucene中有一个统计词个数的方法。自己可以去研究一下
[解决办法]
先进行多元分词,然后对分词进行编码化,最后按编码进行统计
[解决办法]
然后对分词进行编码化,最后按编码进行统计
[解决办法]
好像lucene中有一个统计词个数的方法。自己可以去研究一下
[解决办法]
找个词库,然后用后向最大匹配的分词把里面的词组都解析出来。接下来就是统计咯。
现成的工具不知道有没有,好久没碰这个东西了。。。。