首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

亿级数据处理有关问题-散分帖

2014-05-24 
亿级数据处理问题-散分帖下面是原帖的地址:http://topic.csdn.net/u/20120713/14/fc000fc5-22de-4d4d-aedb

亿级数据处理问题-散分帖
下面是原帖的地址:
http://topic.csdn.net/u/20120713/14/fc000fc5-22de-4d4d-aedb-232080c477cf.html?seed=1144342143&r=79197332#r_79197332

  发言了的都可以在这里得分~~

  在这边或者原帖发表观点都可以奥~~

  知识在于分享!

[解决办法]
hash不好使,因为要随时添加和更新查找。
[解决办法]
我觉得还是用hash应该更加方便一些吧。
[解决办法]
感谢楼主。

如果只存在一种查询条件的话,就使用Hash索引吧,就是那个HashMap。

提出Tree索引,也是因为,这两天做了一个多模式匹配的算法实现,感觉使用树这种数据结构,
还是很方便,很神奇的事情。其实数据库也有用树做索引的。
[解决办法]

探讨

hash不好使,因为要随时添加和更新查找。

[解决办法]
印象中我好想接过分了呀!只好再来一次!
[解决办法]
简单说说我做过的项目所采用的策略,以供参考,该策略可以支持每天10亿笔数据的存储,支持在3个月数据中,秒级查询响应,分钟级数据反馈完成。
1、在处理海量数据时,建议先根据业务特性设计存储策略,例如:
设置以规则“类型1-类型2-当前日期-分布批次”生成的数据表路由元数据,以分布批次保证在不同数据库引擎下的极限结构化查询性能。(例如在ORACLE11中,单表保持在1500万的数据,可保证不建立索引的快速查询)
2、根据应用级别设置存储大区,以保证读写分离(入库操作与查询操作分离;在线数据与历史数据分离),例如:
1)实时数据缓存区,面向数据采集与入库,按规则定期迁移到历史数据库
2)常用数据存储区,面向主要业务查询,维持热点数据,按规则动态挂载历史数据
3)历史数据存储区,面向离线压缩存储应用,支持动态挂载特定数据区到常用数据存储区
3、在数据使用时,将数据表路由加载到内存中(可使用MAP/SQLITE/BDB),查询响应时按业务分类即可得到相应的数据表路由分布情况,再执行分布式查询,异步返回结果。(注,在得到路由的过程中,可以采用各种HASH策略得到最佳性能)

热点排行