首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

一个简略的单线程爬行网站目录的脚本!Py达人看过来吧!

2012-12-28 
一个简单的单线程爬行网站目录的脚本!Py达人看过来吧!!以下是一个简单的python 爬行网站目录的脚本。目的:1

一个简单的单线程爬行网站目录的脚本!Py达人看过来吧!!
以下是一个简单的python 爬行网站目录的脚本。
目的:
1、爬行某个网站存在特定的目录,目录字典。
2、如果存在某个目录,如/admin/ 就返回成功。

不足之处:
1、是个单线程,不实用
2、一次爬行多个url,需要把被爬行的url 做为字列表来处理。

Q&A:
希望py达人们,多指出不足之处,多提一些好的建议,完善下这个脚本,非常感谢!

if __name__=='__main__':
    
    import sys,httplib2,time
    
    print 'usage:'+sys.argv[0]+' site urlfile\n'
    fo = open(sys.argv[2])
    
    try:
        urls = fo.readline()
        print 'Load urls Sucessfully...\n'
    finally:
        fo.close()
        time.sleep(10)
    print 'Connecting to ',sys.argv[1]
    
    domain=sys.argv[1]
    h=httplib2.Http('.cache')
    for url in urls:
        (resp_headers, content) = h.request('http://'+domain+'/'+url.strip(), "GET")

[解决办法]
可以对比一下商业级的爬虫代码
[解决办法]
说实话,没看懂你写的啥意思,呵呵。

简单的python抓取网页和模拟登陆,可参考:
【教程】抓取网并提取网页中所需要的信息 之 Python版

【教程】模拟登陆网站 之 Python版(内含两种版本的完整的可运行的代码)

专业的爬虫,可参考:
【记录】折腾Scrapy的Tutorial
[解决办法]
Scrapy就可以了, 不需要造轮子.

热点排行