首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > CSS >

Java发送Http请求,解析html回到

2012-11-19 
Java发送Http请求,解析html返回今天是2008年7月7日星期一,下午一直在学校做个人开始页面。因为离不开google

Java发送Http请求,解析html返回
今天是2008年7月7日星期一,下午一直在学校做个人开始页面。因为离不开google的翻译,所以想把google的翻译整合到我的开始页面中来,于是乎就遇到了一个问题,怎样使用java程序发送http请求然后截获远程服务器返回的数据进行适当处理之后再输出?另外,google的翻译页面是使用post的方法提交数据的,无法直接通过网址进行处理,于是乎,这又涉及到了一个怎样使用java去post数据的问题。
经过拜读百度知道的提问(花了我20分),找到了一个htmlparser的jar包组件,据说是可以很高效率的进行html的解析。于是乎,立马下载了一个过来。(文后附件中有)试了一下果然不错。同时,在这个过程中也学会了怎样利用java来和其它网站交互,这可是一个非常不错的功能,配合htmlparser,可以随心所欲的截取别人网站的信息了!
废话不多说了,下面是具体的使用步骤。

首先,向一个Web站点发送POST请求只需要简单的几步:
注意,这里不需要导入任何第三方包

package com.test;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.io.OutputStreamWriter;import java.net.URL;import java.net.URLConnection;public class TestPost {public static void testPost() throws IOException {/** * 首先要和URL下的URLConnection对话。 URLConnection可以很容易的从URL得到。比如: // Using *  java.net.URL and //java.net.URLConnection */URL url = new URL("http://www.faircanton.com/message/check.asp");URLConnection connection = url.openConnection();/** * 然后把连接设为输出模式。URLConnection通常作为输入来使用,比如下载一个Web页。 * 通过把URLConnection设为输出,你可以把数据向你个Web页传送。下面是如何做: */connection.setDoOutput(true);/** * 最后,为了得到OutputStream,简单起见,把它约束在Writer并且放入POST信息中,例如: ... */OutputStreamWriter out = new OutputStreamWriter(connection.getOutputStream(), "8859_1");out.write("username=kevin&password=*********"); //post的关键所在!// remember to clean upout.flush();out.close();/** * 这样就可以发送一个看起来象这样的POST:  * POST /jobsearch/jobsearch.cgi HTTP 1.0 ACCEPT: * text/plain Content-type: application/x-www-form-urlencoded * Content-length: 99 username=bob password=someword */// 一旦发送成功,用以下方法就可以得到服务器的回应:String sCurrentLine;String sTotalString;sCurrentLine = "";sTotalString = "";InputStream l_urlStream;l_urlStream = connection.getInputStream();// 传说中的三层包装阿!BufferedReader l_reader = new BufferedReader(new InputStreamReader(l_urlStream));while ((sCurrentLine = l_reader.readLine()) != null) {sTotalString += sCurrentLine + "\r\n";}System.out.println(sTotalString);}public static void main(String[] args) throws IOException {testPost();}}


执行的结果:(果真是返回了验证后的html阿!神奇!)
<html><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><title>账户已经冻结</title><style type="text/css"><!--.temp {font-family: Arial, Helvetica, sans-serif;font-size: 14px;font-weight: bold;color: #666666;margin: 10px;padding: 10px;border: 1px solid #999999;}.STYLE1 {color: #FF0000}--></style></head><body><p>&nbsp;</p><p>&nbsp;</p><p>&nbsp;</p><table width="700" border="0" align="center" cellpadding="0" cellspacing="0" height="192"><div align="center"><img src="images/err.jpg" width="54" height="58"></div></td>    <td width="563"><p><span name="code">package com.test;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.filters.TagNameFilter;import org.htmlparser.tags.TableTag;import org.htmlparser.util.NodeList;/*** 标题:利用htmlparser提取网页纯文本的例子*/public class TestHTMLParser {  public static void testHtml() {    try {        String sCurrentLine;        String sTotalString;        sCurrentLine = "";        sTotalString = "";        java.io.InputStream l_urlStream;        java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");        java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();        l_connection.connect();        l_urlStream = l_connection.getInputStream();        java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));        while ((sCurrentLine = l_reader.readLine()) != null) {          sTotalString += sCurrentLine+"\r\n";        //  System.out.println(sTotalString);        }        String testText = extractText(sTotalString);        System.out.println( testText );    } catch (Exception e) {        e.printStackTrace();    }  }   public static String extractText(String inputHtml) throws Exception {    StringBuffer text = new StringBuffer();    Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");    // 遍历所有的节点    NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {        public boolean accept(Node node) {          return true;        }    });    System.out.println(nodes.size()); //打印节点的数量    for (int i=0;i<nodes.size();i++){         Node nodet = nodes.elementAt(i);         //System.out.println(nodet.getText());         text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");              }    return text.toString();  }   public static void test5(String resource) throws Exception {    Parser myParser = new Parser(resource);    myParser.setEncoding("GBK");    String filterStr = "table";    NodeFilter filter = new TagNameFilter(filterStr);    NodeList nodeList = myParser.extractAllNodesThatMatch(filter);    TableTag tabletag = (TableTag) nodeList.elementAt(11);       }  public static void main(String[] args) throws Exception {    // test5("http://www.ggdig.com");    testHtml();  }}



1 楼 日头的影子 2008-07-10   学习,暂时用不上,收藏有机会拜读一下!:-) 2 楼 zhuyx808 2008-07-10   可以玩一下,哈~ 3 楼 glamey 2008-07-10   向一个网站做发送post,get请求正规的用httpclient.
抓取或者是分析页面的话,就用httppa...就可以了。 4 楼 zzmacoolboy 2008-07-10   好像会重复打印出来哦,还有就是&nbsp空格好像不能去掉哦! 5 楼 rmn190 2008-07-11   不错,记下来,以备后用.

热点排行