一个简略的单线程爬行网站目录的脚本！Py达人看过来吧！

2012-12-28

一个简单的单线程爬行网站目录的脚本！Py达人看过来吧！！以下是一个简单的python 爬行网站目录的脚本。目的：1

一个简单的单线程爬行网站目录的脚本！Py达人看过来吧！！
以下是一个简单的python 爬行网站目录的脚本。
目的：
1、爬行某个网站存在特定的目录，目录字典。
2、如果存在某个目录，如/admin/ 就返回成功。

不足之处：
1、是个单线程，不实用
2、一次爬行多个url，需要把被爬行的url 做为字列表来处理。

Q&A:
希望py达人们，多指出不足之处，多提一些好的建议，完善下这个脚本，非常感谢！

if __name__=='__main__':
    
    import sys,httplib2,time
    
    print 'usage:'+sys.argv[0]+' site urlfile\n'
    fo = open(sys.argv[2])
    
    try:
        urls = fo.readline()
        print 'Load urls Sucessfully...\n'
    finally:
        fo.close()
        time.sleep(10)
    print 'Connecting to ',sys.argv[1]
    
    domain=sys.argv[1]
    h=httplib2.Http('.cache')
    for url in urls:
        (resp_headers, content) = h.request('http://'+domain+'/'+url.strip(), "GET")

[解决办法]
可以对比一下商业级的爬虫代码
[解决办法]
说实话，没看懂你写的啥意思，呵呵。

简单的python抓取网页和模拟登陆，可参考：
【教程】抓取网并提取网页中所需要的信息之 Python版

【教程】模拟登陆网站之 Python版（内含两种版本的完整的可运行的代码）

专业的爬虫，可参考：
【记录】折腾Scrapy的Tutorial
[解决办法]
Scrapy就可以了, 不需要造轮子.

热点排行

perl python

一个简略的单线程爬行网站目录的脚本！Py达人看过来吧！