首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > Java Web开发 >

怎么获得一个网页的字符编码格式

2011-12-03 
如何获得一个网页的字符编码格式?最近在用java设计搜索引擎。在设计蜘蛛程序的时候,遇到一个痛苦的问题,字

如何获得一个网页的字符编码格式?
最近在用java设计搜索引擎。

在设计蜘蛛程序的时候,遇到一个痛苦的问题,字符编码的问题。
因为抓取到的如果是gb2312的就没事。如果是utf-8的就会成为乱码。
所以我希望要在抓取的时候提前知道这个url指向的网页的编码格式。

所以,问题就是,java如何知道(或者得到)一个指定url所指向的页面的字符编码格式?

[解决办法]
URL url=new URL( " ");
String s=url.openConnection().getContentEncoding();
[解决办法]
用chardet.jar这个包就可以的,用法很简单,只要把文件路径传进去就行了

热点排行