首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > CSS >

htmlparser 除了html标签体(获取body,title纯文本)

2012-12-25 
htmlparser 去除html标签体(获取body,title纯文本)package testimport java.io.*import org.htmlparser.

htmlparser 去除html标签体(获取body,title纯文本)

package test;

import java.io.*;

import org.htmlparser.Parser;
import org.htmlparser.visitors.HtmlPage;

class Test {
public static void main(String[] argv) throws IOException, InterruptedException {
?? Parser parser;
????? String body = "";
????? String title = "";
?????
?? try {
??? parser = new Parser("http://www.hao123.com");
????? parser.setEncoding("UTF-8");
????? HtmlPage htmlpage = new HtmlPage(parser);
????? parser.visitAllNodesWith(htmlpage);
????? //通过htmlparser 获取body内容
????? body = htmlpage.getBody().asString();
????? //通过htmlparser 获取title内容
????? title =htmlpage.getTitle();
????? body = body.replaceAll("[ \\t\\n\\r\\f( |gt) ]+"," ");
????? System.out.println(title);
????? System.out.println(body);
?? } catch (Exception e) {
??? // TODO: handle exception
??? e.printStackTrace();
?? }
}
}

?

//获取源文件

?? Parser parser = new Parser(address);
?? parser.setEncoding("gbk");
?? System.out.println(parser.parse(null).toHtml());

热点排行