首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

急信息抽取的有关问题

2012-02-29 
急!!!信息抽取的问题我现在要做信息抽取,使用正则做模板,从下载的网页中提取需要的信息。在使用浏览器浏览

急!!!信息抽取的问题
我现在要做信息抽取,使用正则做模板,从下载的网页中提取需要的信息。在使用浏览器浏览网页时看到评论信息,但是下载下来的网页代码中并没有评论的内容,这样该如何抽取信息呢?
比如,这个网页http://news.xmnn.cn/gnxw/200902/t20090213_900083.htm中,从代码中无法获取到评论内容,而是需要跨页获取。

HTML code
<div style="text-align:center; padding-top:5px; padding-bottom:3px; background:#fff"><div><div style="display:none;" id="commentkey">http://bbs.xmnn.cn/comments.php?action=showform&newsid=900083&subject=习近平痛批少数外国人对中国事务指手划脚&newsurl=&threadmessage=  【深圳卫视报道】国家副主席习近平11日在墨西哥会见华侨时表示,今年是中国经济发展最严峻的一年,不过中国会从容面对。他批评有少数外国人对中国事务指手画脚。&nbsp;<br>  离开墨西哥前,习近平与当地华侨见面,介绍当前中国经济新势。他说,在国际金融风暴中,中国能够基本解决13亿人口的吃饭问题,已经是对全人类最伟大的贡献。他还指出,有少数外国人对中国事务说三道四:“有些吃饱了没事干的外国人,对我们的事情指手画脚...&commentfid=821&key=<script language="JavaScript" src="http://bbs.xmnn.cn/comments.php?action=getkey&newsid=900083"></script></div>

可以看到,实际上是通过下面的JavaScript脚本加载请求http://bbs.xmnn.cn/comments.php?action=getkey&newsid=900083中评论数据:
JScript code
=<script language="JavaScript" src="http://bbs.xmnn.cn/comments.php?action=getkey&newsid=900083"></script>

评论信息从论坛中获取,有没有解决方案呢?谢谢

[解决办法]
当然有办法,你既然知道评论是通过JS的跨域请求,那么你请求第一次得到的文本就包含了评论的地址,通过搜索(正则表达式)获取这个地址以后, 再次请求,就可以得到评论页面。
[解决办法]
既然已经得到了数据,那就直接解析了。找出HTML文件的格式,提取就简单一些了

热点排行