首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

[D]透过cPAMIE获取Javascript渲染后的网页HTML源码

2013-07-23 
[D]通过cPAMIE获取Javascript渲染后的网页HTML源码本帖最后由 fibbery 于 2012-04-02 17:32:15 编辑在使用

[D]通过cPAMIE获取Javascript渲染后的网页HTML源码
本帖最后由 fibbery 于 2012-04-02 17:32:15 编辑 在使用python爬去网页时,有的网页中包括javascript,为了获取js渲染之后的源码,我试着用cPAMIE模块进行获取,即利用ie浏览器进行获取。

现在的问题是,有的网页打开连接之后就自动运行其js,这样的网页只需在打开链接后等待几秒钟进行源码提取即可,而有的网页,比如新浪博客的留言评论部分,在刚打开网页时候其js并不执行,只有人为地将滑块向下移动使评论部分在窗口中显示的时候,这部分的js才会加载。也就是说,用同样的方法获取源码时候,就会出现两种结果。一、打开网页后不拖动滑块或转动鼠标滚轮,此时获取到的是js加载之前的源码;二、打开网页后向下滚动鼠标滚轮至评论位置,此时进行源码提取,获取到的是js加载之后的源码。

cPAMIE有没有可以自动控制浏览视图的方法?或者怎么才能爬取到类似 新浪博客评论 这样的内容,大家有什么好的想法?
--------
Double行动:
原帖分数:40
加分:40
[解决办法]
cPAMIE可以得到点击按钮,随便找页面某个按钮点一下就行了吧

ie.buttonClick('btnName')

热点排行