首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

Python中网络抓取跟分析

2012-08-07 
Python中网络抓取和分析1.前言Python的网络抓取有很多包可以实现,比如:urllib、urllib2、httplib、httplib2。

Python中网络抓取和分析

1.前言

        Python的网络抓取有很多包可以实现,比如:urllib、urllib2、httplib、httplib2。其中httplib、httplib2是专门处理与http相关的;而urllib、urllib2是借助于httplib、httplib2实现的,相当于在httplib、httplib2上又封装了一层来进行处理web数据。而urllib2是urllib的高版本,httplib2是httplib的高版本。

        这里我给出一个学习python库的网址,里面有各种lib库的讲解:http://docs.python.org/library/index.html  。有兴趣的读者可以联系一下。

        由于最近在使用httplib2进行网上抓取数据,所以下面对httplib2进行介绍。

2.httplib2

(1)安装      

         httplib2的安装:首先下载python的httplib2的安装包,下载地址为:http://code.google.com/p/httplib2/downloads/list;其次, 在dos窗口下进入httplib2的解压目录,执行命令:python setup.py install  。 即完成安装。

(2)使用讲解

        下面再给出一个httplib2的学习地址,是httplib2的一个wiki,里面有几个httplib2的简单例子:http://code.google.com/p/httplib2/wiki/Examples 。

3.HTMLParser

        该模块是用来解析HTML元素的。可以从HTML中筛选出指定的标签。下面给出一个例子,读取百度首页www.baidu.com中的所有链接,并打印出来。





热点排行