请问python正则表达式怎么抽取html中以汉字为界的字符
tel_re = re.compile(r"((\d{3,4})-(\d{7,8}))|((\d{3,4})-(\d{7,8})-(\d{1,4}))")
这个正则表达式可以抽取网页中的电话号码
发现抽取网页信息时,正则表达式只能匹配英文字符,怎么才能匹配网页中的汉字。
比喻以下网页,如何用正则抽取“地址:”后的信息。单个网页好说,就用正册匹配英文字符可以。但是要访问很多网页,每个网页的结构不一样。怎么才能写出可以抽取以“地址:”这样的汉字开始到公司地址信息结尾的信息。谢谢大家!
<div class="r2">
<div class="bar1"><img src="images/04.jpg" width="649" height="141"/></div>
<div class="txt1"><p><span style="color:#96b43d">如果您有任何问题或建议,或对我们的产品感兴趣,请直接联系我们。</span> <br/>
公司全称:*******科技有限公司<br/>
公司地址:朝阳区工人体育场东路20号百富大厦A座<br/>
邮政编码:100020<br/>
电话:010 - ********<br/>
传真:010 - *******<br/>
[解决办法]
和英文一样吧。
如果这个地方是address: xxx,你怎么写?
[解决办法]
干嘛不适用minidom来解析啊