做搜索引擎易,做通用爬虫难!的确如此。就技术上实现的难度,大家觉得呢?注意:这里搜索引擎指索引和搜索部分,不包括数据采集部分。[解决办法]搜索引擎难,爬虫简单。[解决办法]我在补充通用spider需要注意的一些地方:效率,种子调度,垃圾去除,黑洞,信息抽取,除重,编码识别