基于XML技术的网页内容提取,该怎么处理

2012-03-16

基于XML技术的网页内容提取如题我这学期选的课题是这个但是不知道该怎么准备，导师也没怎么说清楚，希望各位

基于XML技术的网页内容提取
如题
我这学期选的课题是这个但是不知道该怎么准备，导师也没怎么说清楚，希望各位达人能指点一二，小弟在这谢过啦！

[解决办法]
思路如下：
使用C#+XML技术如下：
1、WebClient获取网页内容
2、网页内容是HTML标签，用XML的技术提取，页面肯定要符合XML的基本语法。
因此要将不规则的标签，转换成XHTML的合法格式，关于XHTML的dtd，参考W3C的网站。
把大写标签转换成小写标签，可以用正则表达式的替换功能
3、下步就是分析获取什么样的内容，这步可能用到的技术XQuery和XSLT

具体没有说的很清楚，这是自己的想法，第1、2两点我是做过的，不过我是提取里面的图片

热点排行

XML SOAP

基于XML技术的网页内容提取,该怎么处理