为什么抓取HTML代码抓出来的源码少了很多双引号啊?
本帖最后由 hslx_ 于 2013-03-07 14:04:55 编辑 我这边想个小软件,抓取网页中的内容。
其中我的网页中有个下拉列表框,我想将下拉列表框中的内容通过软件读取出来,再转到ListView上。
我的列表框HTML代码如下:
<select>
<option selected="selected" value="">请选择</option>
<option value="1111">aaaa</option>
<option value="2222">bbbb</option>
<option value="3333">cccc</option>
<option value="4444">dddd</option>
<option value="5555">eeee</option>
<option value="6666">ffff</option>
<option value="7777">gggg</option>
<option value="8888">hhhh</option>
<option value="9999">jjjj</option>
</select>
html C++ 抓取
IHTMLDocument2 *document;
IHTMLElement *body;
BSTR title,source,content;
HRESULT hr;
hr = CppWebBrowser1->Document->QueryInterface(IID_IHTMLDocument2, (void**)&document);
if (hr == S_OK)
{
hr = document->get_body(&body);
if(hr == S_OK)
{
body->get_outerHTML(&content);
AnsiString Str1= AnsiString(content);
AnsiString selectpart= "<?xml version='1.0' encoding='GBK'?> "+ Str1.SubString(Str1.Pos("<SELECT>"),Str1.Pos("</SELECT>")-Str1.Pos("<SELECT>")+8);
Memo1->Text=Str1;
}
}