用正则表达式提取网页中的文字
我想从下面的网页源码中提取以下内容,不知道使用正则表达式是不是可以做到。
需要的截取的结果:
1、Dear My friends, 2011已经过去了,烦恼也统统过去了,寒冷也悄悄走了,疲惫也渐渐消失了,让我们梳理下心情,携着幸福,带上快乐一起狂奔,2012我们来了!
2、[]里面的09:12
以下是网页源码:
*****************************************************
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">
<wml>
<head>
<meta forua="true" http-equiv="Cache-Control" content="no-cache" />
<meta forua="true" http-equiv="Cache-Control" content="max-age=0" />
<meta forua="true" http-equiv="Cache-Control" content="must-revalidate" />
</head>
<card id="start" title="消息会话">
<p>
<img src="/im/images/scorelevel/xin.gif" alt="." ></img><a href="/im/box/alllist.action?t=65222026047422869">1条新消息</a>
<a href="/im/chat/toinputMsg.action?touserid=901049322&backUrl=&t=65222026047537869">刷新</a>[<a href="/im/chat/setchatrefresh.action?touserid=901049322&backUrl=&t=65222026047610869">手动</a>]
<br/>
<a href="/im/user/userinfoByuserid.action?touserid=901049322&t=1326676803399">民</a>[在线]><a href="/im/index/recentcontacts.action?touserid=901049322&t=65222026047753869">换人</a><br/>
[新]Dear My friends, 2011已经过去了,烦恼也统统过去了,寒冷也悄悄走了,疲惫也渐渐消失了,让我们梳理下心情,携着幸福,带上快乐一起狂奔,2012我们来了!
(使用电脑登录飞信,更多功能更精彩)[09:12]<br />
<input name="msg1326676803287" title="" value="" type="text" emptyok="true"
maxlength="1000" /><br/>
<anchor>发送消息<go method="post" href="/im/chat/sendMsg.action?touserid=901049322" accept-charset="utf-8" ><postfield name="backUrl" value=""/><postfield name="touchTitle" value=""/><postfield name="touchTextLength" value=""/><postfield name="msg" value="$(msg1326676803287)"/></go></anchor><br/>
添加><anchor>表情<go method="post" href="/im/chat/insertPic.action?touserid=901049322" accept-charset="utf-8" ><postfield name="backUrl" value=""/><postfield name="touchTitle" value=""/><postfield name="touchTextLength" value=""/><postfield name="msg" value="$(msg1326676803287)"/></go></anchor>.<anchor>动作<go method="post" href="/im/chat/insertTouch.action?touserid=901049322" accept-charset="utf-8"><postfield name="backUrl" value=""/><postfield name="msg" value="$(msg1326676803287)"/></go></anchor>.<anchor>招呼<go method="post" href="/im/chat/sayHelloToFriend.action?touserid=901049322&backUrl=" accept-charset="utf-8"></go></anchor>.<a href="http://f.10086.cn/f/ma">元旦</a><br/>
发送短信给TA[<a href="http://f.10086.cn/info/c/?nid=837">?</a>]
<br/>
【其他功能】<br/>
<a href="/im/chat/chatMsgHistory.action?touserid=901049322&backUrl=&t=1326676803402">聊天记录</a>|<a href="/im/user/userinfoByuserid.action?touserid=901049322&backUrl=&t=1326676803402">TA的资料</a>|<a href="http://f.10086.cn/space/friendspace/viewSpace.action?uid=901049322">TA的空间</a><br/>
<a href="/im/user/updateLocalname.action?touserid=901049322">备注姓名</a><br/>
<a href="http://f.10086.cn/f/sjfx4">[荐] 想发图片表情?用手机飞信试试</a><br/><br/>
<a href="/im/index/index.action?type=online&shorttype=online&t=1326676803402">返回WAP飞信</a>><a href="/im/box/alllist.action?t=65222026050198869">消息盒子</a>
<br/>
<a href="http://f.10086.cn/space/myspace/layout.action">空间</a>-<a href="http://f.10086.cn/jy/home/index.action">家园</a>-<a href="/im/index/index.action?t=65222026051373869">WAP飞信</a><br/>
<a href="http://f.10086.cn/index.jsp">手机飞信网</a>-<a href="http://f.10086.cn/info/c/?nid=29">导航</a>-<a href="http://f.10086.cn/portal/cscenter.action?do=layout">客服</a>
<br/>
[01月16日 09:20]
</p>
</card>
</wml>
********************************************************
[解决办法]
\[新\](?<message>[\s\S]*)?(使用电脑登录飞信,更多功能更精彩)\[(?<time>[\d:]+)\]<br />
[解决办法]
(?is)(?<=\[新\])(?<内容>.*)(.*)\[(?<时间>.*)\](?=<br />)分组1(内容)-----Dear My friends, 2011已经过去了,烦恼也统统过去了,寒冷也悄悄走了,疲惫也渐渐消失了,让我们梳理下心情,携着幸福,带上快乐一起狂奔,2012我们来了!分组2(时间)----09:12
[解决办法]
Dim m As Match = Regex.Match(yourHtml,"(?s)\[新\](.*?)\[(\d{2}:\d{2})")m.Groups(1).Value'是你要的第一段m.Groups(2).Value'是你要的第二段