首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

海量数据处理中的hash单调有关问题

2012-07-23 
海量数据处理中的hash单调问题参加百度的面试,面试官提了一个海量数据问题,貌似自己的回答没能让人家满意,

海量数据处理中的hash单调问题

参加百度的面试,面试官提了一个海量数据问题,貌似自己的回答没能让人家满意,纠结点是:


大规模数据一般先用hash来分为小的数据段,然后在内存里处理之,然而如果hash后hash值还是各不相同(及其变态的情况),怎么办?

?

回来思考了下,下面是自己的想法,大家说说看:

?

如果一遍hash后,数据还是十分单调,可以采用另一个hash函数,或者不是单纯按照hash值分类,而是按照hash后的值范围,例如,原来hash(query)%100, 现在可以1-10为一个文件,间隔10建立子数据集,应该能解决问题吧?

?

? ? 轻拍。。。

热点排行