牛人看过来,关于海量存储问题
现在有这样一批数据,这些数据是围绕PC的一些操作行为,如通信,进程等。现在的存储方式是将所有人的通信存在一起,分库分表存储。这样的话,我想看某台PC的所有行为,很不方便,而且查询起来代价也有些大。所以想按PC为中心去存储,可以对数据做一些预处理工作。要求可以按某行为,或按PC等去快速查询,不知道各位大神有什么好的建议么。再说一下,数据量相当的大,每天大约有180G的数据。
[解决办法]
为什么要分库存呢,难道对一组操作行为建一个库?有什么好处。。。
[解决办法]
你这需求,相当猥琐
[解决办法]
首先考虑需要存这么多数据么?能把旧数据删掉么?因为这些 运行数据留着一般是为了取证。如果没这需求就删掉吧。
[解决办法]
是否可以将这些数据(历史数据)处理为较高的粒度,以缩小总的数据量,然后将粒度较小的数据移出到其它地方?
[解决办法]
这么大的数据量和查询要求,需要在LINUX上搭建HADOOP,HABASE,HIVE来处理,效果会明显些,相信你的环境应该没经费上TERADATA,那就用HADOOP吧,呵呵