【提问】python解析网页源代码返回乱码问题
代码
输出
直接print中文是可以的,注释的中文也不会乱码,就解析网页乱码
求有用解决方案!!
源代码 python 乱码
[解决办法]
1、你的内容直接 .encode('utf8')看看,换成你的编码格式
2、页面返回值是压缩的,gzip
[解决办法]
以前有个帖子也将到抓取编码的问题,可以参考下
http://bbs.csdn.net/topics/390564445
[解决办法]
.read().decode('gbk').encode('utf-8')
[解决办法]
帮你分析了字符串问题表象背后的原因
并给出了3种解决方案
但是又推测出你问题背后的条件,没给全,
然后又帮你分析是二进制乱码的原因
且也给出了解决办法
并且给出了,相关涉及到的各种知识,多对应的我所写的教程
需要的自己看吧:
【问题解答】python解析网页源代码返回乱码问题