网站每天有超过10亿次的页面访问量，想统计一个指定时间段内的区域ip地址访问量有关问题

2012-02-20

网站每天有超过10亿次的页面访问量，想统计一个指定时间段内的区域ip地址访问量问题假设某个网站每天有超过

网站每天有超过10亿次的页面访问量，想统计一个指定时间段内的区域ip地址访问量问题
假设某个网站每天有超过10亿次的页面访问量，出于安全考虑，网站会记录访问客户端访问的ip地址和对应的时间，如果现在已经记录了1000亿条数据，想统计一个指定时间段内的区域ip地址访问量，那么这些数据应该按照何种方式来组织，才能尽快满足上面的统计需求呢，设计完方案后，并指出该方案的优缺点，比如在什么情况下，可能会非常慢？

[解决办法]
哦，来说说优缺点的问题。hadoop是一款nosql数据库。学期曲线比较陡。对人员要求，尤其是linux方面的要求较高。鉴于数据量这么大1000亿的数据已经超过事务性数据库处理能力。nosql数据库在处理数据的成本更低。但是mapreduce是通过多次迭代来得到最终结果。不合适复杂的sql查询式的汇总。
[解决办法]
没学过就学学吧。1000亿这个量太大。之前到了上亿这种规模。oracle已经基本上无法处理。当然我没有用过专门的数据仓库来做这个分析。你的网站都有这种规模了，我觉得hadoop貌似是必然的选择。不会了就学呗。

热点排行

Java相关

网站每天有超过10亿次的页面访问量，想统计一个指定时间段内的区域ip地址访问量有关问题