python3 可恶的编码有关问题

2012-12-17

python3 可恶的编码问题这两天写了个监测网页的爬虫，作用是跟踪一个网页的变化，但运行了一晚出现了一个问

python3 可恶的编码问题
这两天写了个监测网页的爬虫，作用是跟踪一个网页的变化，但运行了一晚出现了一个问题。。。。希望大家不吝赐教！
我用的是python3，错误在对html response的decode时抛出，代码原样为：


response = urllib.urlopen(dsturl)
content = response.read().decode('utf-8')

抛出错误为
File "./unxingCrawler_p3.py", line 50, in getNewPhones
content = response.read().decode()
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb2 in position 24137: invalid start byte

之前运行都没问题，经过一晚上就出现了。。。。最不明白的是在它声明为utf-8编码的网页中为什么会出现utf-8无法解析的字符？
[最优解释]
试试 decode('utf-8', 'ignore')
[其他解释]

引用:

试试 decode('utf-8', 'ignore')

谢谢，你太牛了！！！我发现了出现错误的原因。。。。原来是有些用户上传的评论中含有不可解析的字符，浏览器对它们的处理是用了一个乱码表示。。。非常感谢！～

热点排行

perl python

python3 可恶的编码有关问题