首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

大数据处理点滴札记

2013-04-21 
大数据处理点滴笔记自我头脑风暴,说得对与错都请指点,后续补充。?当下三大技术热点:高并发、分布式、大数据(

大数据处理点滴笔记

自我头脑风暴,说得对与错都请指点,后续补充。

?

当下三大技术热点:高并发、分布式、大数据(也许,还有很多,这只是自我修炼的三个目标)。

大数据处理系统有几点要求:

    低延迟高性能分布式可扩展(更多的要求是可横向扩展)容错

现在用的比较多的就是Hadoop、Storm。

?

Hadoop

    依赖于HDFS磁盘延时较高(可精确到小时)统计结果存在HBase

Storm

    依赖于内存计算延时较短(可以精确到10秒)统计结果存在MySQL

数据收集,交给Kafka

?

kafka是LinkedIn开源的一款分布式的发布-订阅消息系统,它具有:

    通过O(1)的磁盘结构持久化存储消息,即使TB级的数据也能保持长期稳定;高吞吐率:即使非常普通的硬件,kafka也能支持每秒数十万的消息;支持通过kafka服务器和消费集群来分区消息;支持Hadoop并行加载;

storm参考:http://www.searchtb.com/2012/09/introduction-to-storm.html

?

暂做记录

热点排行