Python中网络抓取和分析
1.前言
Python的网络抓取有很多包可以实现,比如:urllib、urllib2、httplib、httplib2。其中httplib、httplib2是专门处理与http相关的;而urllib、urllib2是借助于httplib、httplib2实现的,相当于在httplib、httplib2上又封装了一层来进行处理web数据。而urllib2是urllib的高版本,httplib2是httplib的高版本。
这里我给出一个学习python库的网址,里面有各种lib库的讲解:http://docs.python.org/library/index.html 。有兴趣的读者可以联系一下。
由于最近在使用httplib2进行网上抓取数据,所以下面对httplib2进行介绍。
2.httplib2
(1)安装
httplib2的安装:首先下载python的httplib2的安装包,下载地址为:http://code.google.com/p/httplib2/downloads/list;其次, 在dos窗口下进入httplib2的解压目录,执行命令:python setup.py install 。 即完成安装。
(2)使用讲解
下面再给出一个httplib2的学习地址,是httplib2的一个wiki,里面有几个httplib2的简单例子:http://code.google.com/p/httplib2/wiki/Examples 。
3.HTMLParser
该模块是用来解析HTML元素的。可以从HTML中筛选出指定的标签。下面给出一个例子,读取百度首页www.baidu.com中的所有链接,并打印出来。