基于XML技术的网页内容提取
如题
我这学期选的课题是这个但是不知道该怎么准备,导师也没怎么说清楚,希望各位达人能指点一二,小弟在这谢过啦!
[解决办法]
思路如下:
使用C#+XML技术如下:
1、WebClient获取网页内容
2、网页内容是HTML标签,用XML的技术提取,页面肯定要符合XML的基本语法。
因此要将不规则的标签,转换成XHTML的合法格式,关于XHTML的dtd,参考W3C的网站。
把大写标签转换成小写标签,可以用正则表达式的替换功能
3、下步就是分析获取什么样的内容,这步可能用到的技术XQuery和XSLT
具体没有说的很清楚,这是自己的想法,第1、2两点我是做过的,不过我是提取里面的图片