首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > Ruby Rails >

春风何处是人间(ruby版)

2012-09-08 
东风何处是人间(ruby版)在今年3月份的,就看到这个帖子《东风何处是人间》了,对宋词进行分词计数,当时就保存

东风何处是人间(ruby版)
在今年3月份的,就看到这个帖子《东风何处是人间》了,对宋词进行分词计数,当时就保存了这个帖子,想以后有时间写个ruby版的。后来就忘记了
近期这个帖子大火啊,也终于抽出时间写ruby版的了。
个人水平有限,程序写的很糟糕,至少比原文的看着复杂多了,不知道是否能有ruby高手给大家写个示例。

数据:《全宋词》文本

#coding: utf-8require "iconv"s1 = Iconv.conv 'gbk','utf-8',","s2 = Iconv.conv 'gbk','utf-8',"。"s3 = Iconv.conv 'gbk','utf-8',"!"s4 = Iconv.conv 'gbk','utf-8',"?"s5 = Iconv.conv 'gbk','utf-8',"、"NUM1 = 2  #分词长度NUM2 =500  #显示大于多少的记录def splitword(s,l)    #分词,x是字符串,l是字符分词长度  lt  = s.length  k = Array.new  0.upto(lt-l) do |i|     k<<s[i..i+l-1]  end  return kendx = Array.new     #记录分词结果的数组File.open("ci.txt","r") do |file|   file.each do |line|    if line.length<500 and line.length>10      line.gsub!(s2,s1)     #把标点都替换为",",再统一进行分割      line.gsub!(s3,s1)      line.gsub!(s4,s1)      line.gsub!(s5,s1)      line.chomp!      column = line.split(s1)       #用逗号分割      column.delete_if {|i| i.length >10 } #去除大于10个字的语句      column.each do |col|         splitword(col,NUM1).each{|i| x<<i}  if col.length>=NUM1 # 分词      end      end  end end h = Hash.newh = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hashh.delete_if {|key, value| value <NUM2}               #去除hash中小于指定数值的部分y = Array.newy  = h.sort {|a,b| b[1]<=>a[1]}                      # 从大到小排序y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }

热点排行