首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > CSS >

【多线程数据采集课题】java+Jsoup 正则过滤html网页标签

2012-11-11 
【多线程数据采集专题】java+Jsoup正则过滤html网页标签java采集数据,获取了 html整个文本之后。 该考虑的是

【多线程数据采集专题】java+Jsoup 正则过滤html网页标签

java采集数据,获取了 html整个文本之后。

该考虑的是如何过滤掉html标签, 得到自己所需要的重要数据了。

实现方法有多种办法,第一:用正则,第二:用第三方jar包,其实本质也是封装了正则表达式

今天就以 Jsoup 第三方jar包来讲解。

jsoup详细资料:http://blog.csdn.net/yjflinchong/article/details/7743995

转载注明出处:http://blog.csdn.net/column/details/threadgrab.html

现在贴上一个网页过滤的方法实例

String type = "景点门票";List<String> images = new ArrayList<String>();data = new DataBean(id,title,url,content,type,city,images);Dom4jUtil.createFile("data/["+type+"]"+title+".xml", Dom4jUtil.createDocument(data));

走完这3部,就算是从html源代码文件中取到了 我们需要的数据了。

转载注明出处:http://blog.csdn.net/yjflinchong

java采集数据过滤html标签,获取指定数据,就搞定了



热点排行