首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

【提问】python中web编程的第三方库(主要用于网络爬虫)

2013-10-27 
【提问】【急】python中web编程的第三方库(主要用于网络爬虫)python中有没有这样的第三方库,就是比如一个html

【提问】【急】python中web编程的第三方库(主要用于网络爬虫)
python中有没有这样的第三方库,就是比如一个html标签是这样的:<a href = "FileList.asp?FileCategory=游戏">
想要提取href内的链接,但是它是一个相对路径,我想要的是一个绝对路径,有没有这样的第三方库,能够帮你将相对路径转换为绝对路径呢。 网络爬虫 python 编程 库 web
[解决办法]

from urllib.parse import urljoin
newurl = urljoin(baseurl, href)

这个是py3的,如果用的是py2,你要查查py2手册,应该也有的,但模块应该不同,urllib.parse是py3统一后的模块
我记得这个函数有个小小问题,就是遇到带父级相对路径超出根路径会有点问题,要稍微留意处理一下
状况现在说不清,你遇到就知道了
[解决办法]
urlparse.urljoin(base, url[, allow_fragments]) 

热点排行