一个简单的单线程爬行网站目录的脚本!Py达人看过来吧!!
以下是一个简单的python 爬行网站目录的脚本。
目的:
1、爬行某个网站存在特定的目录,目录字典。
2、如果存在某个目录,如/admin/ 就返回成功。
不足之处:
1、是个单线程,不实用
2、一次爬行多个url,需要把被爬行的url 做为字列表来处理。
Q&A:
希望py达人们,多指出不足之处,多提一些好的建议,完善下这个脚本,非常感谢!
if __name__=='__main__':
import sys,httplib2,time
print 'usage:'+sys.argv[0]+' site urlfile\n'
fo = open(sys.argv[2])
try:
urls = fo.readline()
print 'Load urls Sucessfully...\n'
finally:
fo.close()
time.sleep(10)
print 'Connecting to ',sys.argv[1]
domain=sys.argv[1]
h=httplib2.Http('.cache')
for url in urls:
(resp_headers, content) = h.request('http://'+domain+'/'+url.strip(), "GET")