首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > Java相关 >

httpClient怎的获取网页中js执行完后的网页源码

2012-12-21 
httpClient怎样获取网页中js执行完后的网页源码本帖最后由 michael2988 于 2010-11-22 18:42:20 编辑最近

httpClient怎样获取网页中js执行完后的网页源码
本帖最后由 michael2988 于 2010-11-22 18:42:20 编辑 最近用httpClient抓取网页源码的时候,如果源码是静态的能全部抓取,但是如果源码中含有js,httpClient抓取的源码不包括js,得到的源码不正确。我怎样才能获取网页中js执行完后的网页源码,比如获取"https://mail.qq.com/"的网页源码。
在论坛上看到有解决方案是:
调用一个浏览器组件来完成这个事, js执行完后再取其内容;具体怎样实现?
望请高手指点。。。
[最优解释]
这个光靠httpclient是无法做到的,抓到的只能是最原始的数据

[其他解释]
httpClient抓取的是服务器端的输出,难道不是js执行完后的最终结果吗?
[其他解释]
不是,比如我想抓取qq邮箱主页的的源码得到的只有下面的一小段:
<html>
    <head>
    <meta http-equiv="refresh" content="0; url=/cgi-bin/loginpage">
    </head>
</html>
[其他解释]
关注中,, 我也在找取得js分页页面数据的资料,可是都没有。  
[其他解释]
这个是的

引用:
这个光靠httpclient是无法做到的,抓到的只能是最原始的数据

[其他解释]
用htmlunit试试
[其他解释]
引用:
这个光靠httpclient是无法做到的,抓到的只能是最原始的数据
那要怎么做呢,能不能给点思路!
[其他解释]
引用:
最近用httpClient抓取网页源码的时候,如果源码是静态的能全部抓取,但是如果源码中含有js,httpClient抓取的源码不包括js,得到的源码不正确。我怎样才能获取网页中js执行完后的网页源码,比如获取"https://mail.qq.com/"的网页源码。
在论坛上看到有解决方案是:
调用一个浏览器组件来完成这个事, js执行完后再取其内容;具体怎样实现?
望请高手指点。。。
楼主,你的实现没有,能不能交流一下给点思路!
[其他解释]
楼主,怎么不出现了呢,问题解决了吗?我也遇到这样的问题,求赐教!
[其他解释]
用浏览器网页另存为试试
[其他解释]
楼主,请赐教.qq:497746404
[其他解释]
你另存为只能是手动多费劲啊。很不科学。我们想获取的是活值。并且能读出js中的内容。现在出现的情况是请求会i来的数据没有js的内容。其他的数据根本是没有用的。什么方法能使得有js数据呢?非常想知道这个问题。或者哪位能做。我可以花钱雇人的。
[其他解释]
引用:
你另存为只能是手动多费劲啊。很不科学。我们想获取的是活值。并且能读出js中的内容。现在出现的情况是请求会i来的数据没有js的内容。其他的数据根本是没有用的。什么方法能使得有js数据呢?非常想知道这个问题。或者哪位能做。我可以花钱雇人的。
你准备出多少钱。我会,你发邮件给我吧,geogreno1@gmail.com

热点排行