html文件转成xml,好取里面的数据
做个小试验时,想用VB取一个网页里的数据。
1.用WebBrowse打开网址
2.取得页面的html:
WebBrowser1.Document.All(0).outerHTML
3.用DOMDocument.LoadXML()
到第三步时就会出错
原因:html中有些如 <META content= " "> ,而标准处理XML的语句要求: <META> </META>
请教大家,看有什么方法转成XML标准格式,或者其他方法解决
谢谢大家
[解决办法]
html中有些如 <META content= " "> ,
标准语法应该是 <META content= " "/> ,动手改一下html页面吧
[解决办法]
可以使用HTML Tidy
开源项目 http://tidy.sourceforge.net/
或者
http://www.codeproject.com/csharp/Html2XhtmlCleaner.asp
http://www.fawcette.com/vsm/2002_03/online/online_eprods/c_wagner_03_18/
[解决办法]
引用,dhtml.dll
然后用childnodes的方式去取各个节点的属性或值。
省事多了,吼吼