急!!!信息抽取的问题
我现在要做信息抽取,使用正则做模板,从下载的网页中提取需要的信息。在使用浏览器浏览网页时看到评论信息,但是下载下来的网页代码中并没有评论的内容,这样该如何抽取信息呢?
比如,这个网页http://news.xmnn.cn/gnxw/200902/t20090213_900083.htm中,从代码中无法获取到评论内容,而是需要跨页获取。
<div style="text-align:center; padding-top:5px; padding-bottom:3px; background:#fff"><div><div style="display:none;" id="commentkey">http://bbs.xmnn.cn/comments.php?action=showform&newsid=900083&subject=习近平痛批少数外国人对中国事务指手划脚&newsurl=&threadmessage= 【深圳卫视报道】国家副主席习近平11日在墨西哥会见华侨时表示,今年是中国经济发展最严峻的一年,不过中国会从容面对。他批评有少数外国人对中国事务指手画脚。 <br> 离开墨西哥前,习近平与当地华侨见面,介绍当前中国经济新势。他说,在国际金融风暴中,中国能够基本解决13亿人口的吃饭问题,已经是对全人类最伟大的贡献。他还指出,有少数外国人对中国事务说三道四:“有些吃饱了没事干的外国人,对我们的事情指手画脚...&commentfid=821&key=<script language="JavaScript" src="http://bbs.xmnn.cn/comments.php?action=getkey&newsid=900083"></script></div>
=<script language="JavaScript" src="http://bbs.xmnn.cn/comments.php?action=getkey&newsid=900083"></script>