关于定制Heritrix1.14爬取
在网上参考了不少文章说可以继承FrontierScheduler,定制自己的爬取规则。我自己试了一下好像是不行的。
如下是我自己写了一个正则式,爬取门户网站中教育新闻。
使用之前要写入Extractor 规则里,爬取时选用这个Extractor 。