python3 可恶的编码有关问题
python3 可恶的编码问题这两天写了个监测网页的爬虫,作用是跟踪一个网页的变化,但运行了一晚出现了一个问
python3 可恶的编码问题
这两天写了个监测网页的爬虫,作用是跟踪一个网页的变化,但运行了一晚出现了一个问题。。。。希望大家不吝赐教!
我用的是python3,错误在对html response的decode时抛出,代码原样为:
response = urllib.urlopen(dsturl)
content = response.read().decode('utf-8')
抛出错误为
File "./unxingCrawler_p3.py", line 50, in getNewPhones
content = response.read().decode()
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb2 in position 24137: invalid start byte
之前运行都没问题,经过一晚上就出现了。。。。最不明白的是在它声明为utf-8编码的网页中为什么会出现utf-8无法解析的字符?
[最优解释]试试 decode('utf-8', 'ignore')
[其他解释]谢谢,你太牛了!!!我发现了出现错误的原因。。。。原来是有些用户上传的评论中含有不可解析的字符,浏览器对它们的处理是用了一个乱码表示。。。非常感谢!~