为啥抓取HTML代码抓出来的源码少了很多双引号啊

2013-03-17

为什么抓取HTML代码抓出来的源码少了很多双引号啊？本帖最后由 hslx_ 于 2013-03-07 14:04:55 编辑我这边想

为什么抓取HTML代码抓出来的源码少了很多双引号啊？
本帖最后由 hslx_ 于 2013-03-07 14:04:55 编辑我这边想个小软件，抓取网页中的内容。
其中我的网页中有个下拉列表框，我想将下拉列表框中的内容通过软件读取出来，再转到ListView上。
我的列表框HTML代码如下：

<select>
<option selected="selected" value="">请选择</option>
<option value="1111">aaaa</option>
<option value="2222">bbbb</option>
<option value="3333">cccc</option>
<option value="4444">dddd</option>
<option value="5555">eeee</option>
<option value="6666">ffff</option>
<option value="7777">gggg</option>
<option value="8888">hhhh</option>
<option value="9999">jjjj</option>
</select>

但是我通过软件抓取出来的内容却和源文件不一致是怎么回事啊？
抓取出来的HTML代码里的value后面的双引号都没有了。
我的代码部分：


        IHTMLDocument2   *document;
        IHTMLElement   *body;
        BSTR   title,source,content;
        HRESULT hr;
        hr = CppWebBrowser1->Document->QueryInterface(IID_IHTMLDocument2, (void**)&document);
 if (hr == S_OK)
             {
                  hr = document->get_body(&body);
                  if(hr == S_OK)
                  {
                        body->get_outerHTML(&content);

                        AnsiString Str1= AnsiString(content);
                        AnsiString selectpart= "<?xml version='1.0' encoding='GBK'?> "+ Str1.SubString(Str1.Pos("<SELECT>"),Str1.Pos("</SELECT>")-Str1.Pos("<SELECT>")+8);
                        Memo1->Text=Str1;
                  }
             }

html C++ 抓取
[解决办法]
这个，建议lz用clever suit组建吧

很easy

很高效。
[解决办法]
这段代码加XML头没问题
[解决办法]
html怎么样写的，抓下来就是什么样，你要看浏览器-右键查看源代码里的html样子，抓的是这个代码

热点排行

C++ Builder

为啥抓取HTML代码抓出来的源码少了很多双引号啊