首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 其他相关 >

拆分文件统计topN的有关问题

2014-05-27 
拆分文件统计topN的问题如果对一个只包含ip地址文件进行统计,需要求出频率最高的前10个IP地址应该如何处理

拆分文件统计topN的问题

如果对一个只包含ip地址文件进行统计,需要求出频率最高的前10个IP地址应该如何处理?文件2G,内存128MB。

解决办法:先拆分文件统计,然后再合并?

但如何处理如下的问题呢?

?

对于A,B两组机器,如果取top3,貌似A1,A2,A3就是。但如何避免A6和B6是同一个IP,如果相加会超过A1。其实答案应该是A6,A1,A2。

?123456A300029992998299729962995B1000999998997996995

?

?

解决办法:

通过hash(ip)%2来避免同一个ip落在不同的机器上。

热点排行