首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

请教python正则表达式如何抽取html中以汉字为界的字符

2012-03-14 
请问python正则表达式怎么抽取html中以汉字为界的字符tel_re re.compile(r((\d{3,4})-(\d{7,8}))|((\d{

请问python正则表达式怎么抽取html中以汉字为界的字符
tel_re = re.compile(r"((\d{3,4})-(\d{7,8}))|((\d{3,4})-(\d{7,8})-(\d{1,4}))")
这个正则表达式可以抽取网页中的电话号码
发现抽取网页信息时,正则表达式只能匹配英文字符,怎么才能匹配网页中的汉字。
比喻以下网页,如何用正则抽取“地址:”后的信息。单个网页好说,就用正册匹配英文字符可以。但是要访问很多网页,每个网页的结构不一样。怎么才能写出可以抽取以“地址:”这样的汉字开始到公司地址信息结尾的信息。谢谢大家!


 <div class="r2">
  <div class="bar1"><img src="images/04.jpg" width="649" height="141"/></div>
  <div class="txt1"><p><span style="color:#96b43d">如果您有任何问题或建议,或对我们的产品感兴趣,请直接联系我们。</span> <br/>
  公司全称:*******科技有限公司<br/>

  公司地址:朝阳区工人体育场东路20号百富大厦A座<br/>
  邮政编码:100020<br/>

  电话:010 - ********<br/>
  传真:010 - *******<br/>
 

[解决办法]
和英文一样吧。
如果这个地方是address: xxx,你怎么写?
[解决办法]
干嘛不适用minidom来解析啊

热点排行