问个比较难的正则，vbScript格式的,该怎么解决

2012-01-05

问个比较难的正则，vbScript格式的VBScript codea hrefhttp://WWW.AAA.COM/A.htm target_blankimg

问个比较难的正则，vbScript格式的

VBScript code

<a href="http://WWW.AAA.COM/A.htm" target="_blank"><img src="http://www.ccc.net/site_logo/media.gif" border="0" alt="合作媒体" /></a> <br /><a href="http://www.ddd.net/" target="_blank">[<b>天启-独立网店</b>]</a><br/> <a href="http://bbs.kkk.com/" target="_blank">中中社区</a><br/><a href="http://www.it33363.org/" target="_blank"><font color=red>☆</font><font fize=2>天龙教育网</font></a><br/>

我希望一次过用vbScript的正则提取出：
1、
(1)链接部分：http://WWW.AAA.COM/A.htm (2)内容部分：（图片链接）：http://www.ccc.net/site_logo/media.gif

2
(1)链接部分：http://www.ddd.net (2)内容部分（纯文字）：[天启-独立网店]

3
(1)链接部分：http://bbs.kkk.com (2)内容部分（纯文字）：中中社区

4
(1)链接部分：http://www.it33363.org/ (2)内容部分（纯文字）：☆天龙教育网
并且文字部分是可以过滤掉那些加粗、字体样式、大小之类的html标签的，纯文字即可。

[解决办法]
有点难度!

[解决办法]
没有学过 VBSCRIPT；

会 JAVASCRIPT:

如果让我做的话：

第一步：解析链接部分和内容部分（比较粗糙）
href="(.*)".*>(.*)</a>

第二步：具体解析内容部分
根据 2 中情况，如果有连接地址取地址
正则： src="(.*)"\s+border
如果没有地址的话，取文本；
正则：过滤 html 标记，
/// <summary>
/// 移除HTMl 标记
/// </summary>
/// <param name="Html"></param>
/// <param name="RegStr"></param>
/// <returns></returns>
public static string Remove(string Html)
{
string regesstr = "<.*?>";
return Regex.Replace(Html, regesstr, string.Empty, RegexOptions.IgnoreCase);
}
得到纯文本。

热点排行

C#

问个比较难的正则，vbScript格式的,该怎么解决