[转]nutch1.2断电可能断网后继续爬取的方式

2012-11-10

[转]nutch1.2断电或者断网后继续爬取的方式最近用nutch抓取了几个g的数据，爬了两天了。中途要断电，网上找到

[转]nutch1.2断电或者断网后继续爬取的方式

最近用nutch抓取了几个g的数据，爬了两天了。中途要断电，网上找到别人的断点继续爬取的方式，解决了问题。

nutch抓取过程是分阶段的，每个阶段完成后都会写到文件中。

附nutch抓取的阶段： (injector) ->generator -> fetcher -> crawldb updater -> linkdb updater -> indexer ->deldup -> merger。

下面是从fetcher阶段之后，各个阶段的调用命令：
(假设crawl为抓取目录，crawl/segments存放每一轮抓取的结果，crawl/crawldb为crawldb的目录，crawl/linkdb存放所有的链接，crawl/segments/20091102091322是本轮generate产生的待抓取的网页)
fetch??? usage:
??????? bin/nutch fetch crawl/segments/20091102091322

updatedb usage:
??????? bin/nutch updatedb crawl/crawldb crawl/segments/20091102091322 -filter

updatelinkdb usage:
??????? bin/nutch invertlinks crawl/linkdb crawl/segments/20091102091322

index usage:
??????? bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/20091102091322

deldup usage:
??????? bin/nutch nearDedup crawl/indexes

merge usage:
??????? bin/nutch merge crawl/index_20091102091322 crawl/indexes

转自：http://www.hadoopor.com/thread-453-1-1.html

（求救！NUTCH中途爬行中断怎么继续未完成的任务！！！高人指点下）

补充：其实后来实践，并没有很好地解决问题。这种措施只能继续被中断的某个segment(比如本例子的20091102091322)的各个抓取步骤，紧接下来的别的segment并不能继续.大家可以实践并交流

热点排行

编程

[转]nutch1.2断电可能断网后继续爬取的方式