url查看是否已经存在的问题
我是定向抓取的数据,第一期抓取了很多的url,第二期也也抓取了很多的url,但是要对比一下,把已经存在第一期里面的url,不能再在第一期里面抓取,这个时候需要一个url的比较,我的做法是,创建了一个uni_url表,里面存储唯一的url,但是每次抓取来的都要跟这个表进行对比,数据量大的话,时间上回事一个问题,请问有没有更好的办法呢?
[解决办法]
db索引之, 速度就不是问题了.
[解决办法]
用索引以后的查询是很快的。
一般一次磁盘io是8ms, 现在的sata硬盘应该比8ms还快很多。
假设10^9( 10亿条数据),如果用索引查找某个url是否在其中,(按照1000的b树分支策略来组织索引的话)最多需要3次磁盘io, 大约24ms内就解决了问题。
你想要多块? 要更快的话就只能把数据尽可能放到内存中去。或者至少把第一层次的索引放到内存中。