大数据技术调研
1 目前跟大数据相关的常见的基础架构:hadoop,spark,飞天(阿里云自主研发的分布式计算平台)。
2storm
参考链接:http://tech.uc.cn/?p=2159
Storm是一个免费开源、分布式、高容错的实时计算系统。
3 Impala
参考链接:http://tech.uc.cn/?p=817
impala是和hive类似的一个数据库。Impala 号称在性能上比Hive高出3~30倍,甚至预言说在将来的某一天可能会超过Hive的使用率而成为Hadoop上最流行的实时计算平台(也许我这里有点曲解Impala专家的意思,但其诱惑的言辞足以令Hadoop迷不禁有蠢蠢欲试的激动)。
4 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。
5 NoSQL
参考链接:http://zh.wikipedia.org/wiki/NoSQL
NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关联式数据库的数据库管理系统的统称。(注依据Martin Fowler,NoSQL 不是英文Not Only SQL, 因为这会是NOSQL 而不是NoSQL)
两者存在许多显著的不同点,其中最重要的是NoSQL不使用SQL作为查询语言。其数据存储可以不需要固定的表格模式,也经常会避免使用SQL的JOIN操作,一般有水平可扩展性的特征。NoSQL的实现具有二个特征:使用硬盘,或者把随机存储器作存储载体。基于Key/Value存储。Hbase就是一种NoSql。
6 NewSQL