开发垂直搜索遇到一些问题,跪求高人解答
我在用heritrix开发一个给“大众点评网”定制的搜索引擎。
我可以在自己的FrontierScheduler里面得到正确的url,但为什么无法成功下载页面的镜像html文件,只是得到了许多文件属性为文件的文件,我把FrontierScheduler贴出来:
package my.postprocessor;import java.util.logging.Logger;import org.archive.crawler.datamodel.CandidateURI;import org.archive.crawler.postprocessor.FrontierScheduler;public class FrontierSchedulerFordian extends FrontierScheduler { private static Logger LOGGER = Logger.getLogger(FrontierSchedulerFordian.class.getName()); public FrontierSchedulerFordian(String name) { super(name); } protected void schedule(CandidateURI caUri) { String url = caUri.toString(); System.out.println("后去处理1"+url); try { if (url.indexOf("www.dianping.com/shop/") != -1 || url.indexOf("www.dianping.com/search/category/16/10/g10") != -1 || url.endsWith(".gif") || url.endsWith(".jpg") || url.endsWith(".jpeg") || url.indexOf("robots.txt") != -1 || url.indexOf("dns:") != -1) { System.out.println("后去处理2"+url); if (url.indexOf("#") == -1) { getController().getFrontier().schedule(caUri); } } else { return; } } catch (Exception e) { e.printStackTrace(); } finally { } }}