网站每天有超过10亿次的页面访问量,想统计一个指定时间段内的区域ip地址访问量问题
假设某个网站每天有超过10亿次的页面访问量,出于安全考虑,网站会记录访问客户端访问的ip地址和对应的时间,如果现在已经记录了1000亿条数据,想统计一个指定时间段内的区域ip地址访问量,那么这些数据应该按照何种方式来组织,才能尽快满足上面的统计需求呢,设计完方案后,并指出该方案的优缺点,比如在什么情况下,可能会非常慢?
[解决办法]
哦,来说说优缺点的问题。hadoop是一款nosql数据库。学期曲线比较陡。对人员要求,尤其是linux方面的要求较高。鉴于数据量这么大1000亿的数据已经超过事务性数据库处理能力。nosql数据库在处理数据的成本更低。但是mapreduce是通过多次迭代来得到最终结果。不合适复杂的sql查询式的汇总。
[解决办法]
没学过就学学吧。1000亿这个量太大。之前到了上亿这种规模。oracle已经基本上无法处理。当然我没有用过专门的数据仓库来做这个分析。你的网站都有这种规模了,我觉得hadoop貌似是必然的选择。不会了就学呗。