Python 正则提取网页信息问题
使用的是Python 3.2
1.网页UTF-8的编码,下面是提取网页源码的代码
opener = ur.build_opener(ur.HTTPCookieProcessor(http.cookiejar.CookieJar())) opener.addheaders=[('User-agent', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322)')] html = opener.open(self.m_url) html = html.read().decode('utf-8')
<div class="actifl"> <h2>中文文字</h2>
regx='<div class=\"actifl\">(.*?)<h2>(?P<title>.*?)</h2>'pattern = re.compile(regx,re.U|re.S)match1 = pattern.match('<div class=\"actifl\"> \n<h2>中文文字</h2>')
regx='<div class=\"actifl\">(.*?)<h2>(?P<title>.*?)</h2>'pattern2 = re.compile(regx,re.U|re.S)match2 = pattern2.match(html)