首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

python3 可恶的编码有关问题

2012-12-17 
python3 可恶的编码问题这两天写了个监测网页的爬虫,作用是跟踪一个网页的变化,但运行了一晚出现了一个问

python3 可恶的编码问题
这两天写了个监测网页的爬虫,作用是跟踪一个网页的变化,但运行了一晚出现了一个问题。。。。希望大家不吝赐教!
我用的是python3,错误在对html response的decode时抛出,代码原样为:


response = urllib.urlopen(dsturl)
content = response.read().decode('utf-8')

抛出错误为
 File "./unxingCrawler_p3.py", line 50, in getNewPhones
    content = response.read().decode()
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb2 in position 24137: invalid start byte

之前运行都没问题,经过一晚上就出现了。。。。最不明白的是在它声明为utf-8编码的网页中为什么会出现utf-8无法解析的字符?
[最优解释]
试试 decode('utf-8', 'ignore')
[其他解释]
引用:
试试 decode('utf-8', 'ignore')

谢谢,你太牛了!!!我发现了出现错误的原因。。。。原来是有些用户上传的评论中含有不可解析的字符,浏览器对它们的处理是用了一个乱码表示。。。非常感谢!~

热点排行