python 网络爬虫(一) 简单demo
用python写爬虫的最简单的版本。
效果是把目标URL的所有想要的URL抓出来。
URLLister.py
import urllib,URLListerparser = URLLister.URLLister()url = urllib.urlopen("http://www.baidu.com")parser.feed(url.read())url.close()parser.close()for u in parser.urls: print ufor i in parser.imgs: print i科普4:urllib在python标准库中。
科普5:urlopen() 如文件对象一般,打开一个web url,所以也要close()。
科普6:SGMLParser的feed(str)就是把str填充给SGMLParser去解析。