首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

url查看是否已经存在的有关问题

2012-04-26 
url查看是否已经存在的问题我是定向抓取的数据,第一期抓取了很多的url,第二期也也抓取了很多的url,但是要

url查看是否已经存在的问题
我是定向抓取的数据,第一期抓取了很多的url,第二期也也抓取了很多的url,但是要对比一下,把已经存在第一期里面的url,不能再在第一期里面抓取,这个时候需要一个url的比较,我的做法是,创建了一个uni_url表,里面存储唯一的url,但是每次抓取来的都要跟这个表进行对比,数据量大的话,时间上回事一个问题,请问有没有更好的办法呢?

[解决办法]
db索引之, 速度就不是问题了.


[解决办法]

用索引以后的查询是很快的。

一般一次磁盘io是8ms, 现在的sata硬盘应该比8ms还快很多。

假设10^9( 10亿条数据),如果用索引查找某个url是否在其中,(按照1000的b树分支策略来组织索引的话)最多需要3次磁盘io, 大约24ms内就解决了问题。

你想要多块? 要更快的话就只能把数据尽可能放到内存中去。或者至少把第一层次的索引放到内存中。



热点排行