正则表达式匹配html有关问题

2012-02-09

正则表达式匹配html问题需要匹配的HTML： a adfad /aa fafsdfa /a为什么这个正则表达式 a.* (.*

正则表达式匹配html问题
需要匹配的HTML： <a> adfad </a> <a> fafsdfa </a>

为什么这个正则表达式 <a.*> (.*?) </a> 匹配的是 <a> adfad </a> <a> fafsdfa </a> 其中$1=> adfad </a> <a
而这个正则表达式 <a(.*?)> (.*?) </a> 匹配的是 <a> adfad </a> 和 <a> fafsdfa </a>
------------------------------------

下面正则匹配出来的结果，是我想要的，但是，为什么分组与不分组有这么大的差距？

[解决办法]
加个？表示非贪婪匹配。
[解决办法]
正如一楼说的，这跟加分组是没有关系的，而是那个“？”号，表示非贪婪
如果是贪婪模式，那么 <a.*> (.*?) </a> 中的第一个“.*”，将一直向后匹配到最后，然后回溯到“ <a> adfad </a> <a> fafsdfa </a> ”的第三个“> ”前，
其中$1应该也不是“> adfad </a> <a”，而是“fafsdfa”...
[解决办法]
在使用修饰匹配次数的特殊符号时，有几种表示方法可以使同一个表达式能够匹配不同的次数，比如： "{m,n} ", "{m,} ", "? ", "* ", "+ "，具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中，总是尽可能多的匹配。比如，针对文本 "dxxxdxxxd "，举例如下：

(d)(\w+)　　 "\w+ " 将匹配第一个 "d " 之后的所有字符 "xxxdxxxd "
(d)(\w+)(d) 　 "\w+ " 将匹配第一个 "d " 和最后一个 "d " 之间的所有字符 "xxxdxxx "。虽然 "\w+ " 也能够匹配上最后一个 "d "，但是为了使整个表达式匹配成功， "\w+ " 可以 "让出 " 它本来能够匹配的最后一个 "d "

由此可见， "\w+ " 在匹配的时候，总是尽可能多的匹配符合它规则的字符。虽然第二个举例中，它没有匹配最后一个 "d "，但那也是为了让整个表达式能够匹配成功。同理，带 "* " 和 "{m,n} " 的表达式都是尽可能地多匹配，带 "? " 的表达式在可匹配可不匹配的时候，也是尽可能的 "要匹配 "。这种匹配原则就叫作 "贪婪 " 模式。

非贪婪模式：

在修饰匹配次数的特殊符号后再加上一个 "? " 号，则可以使匹配次数不定的表达式尽可能少的匹配，使可匹配可不匹配的表达式，尽可能的 "不匹配 "。这种匹配原则叫作 "非贪婪 " 模式，也叫作 "勉强 " 模式。如果少匹配就会导致整个表达式匹配失败的时候，与贪婪模式类似，非贪婪模式会最小限度的再匹配一些，以使整个表达式匹配成功。举例如下，针对文本 "dxxxdxxxd " 举例：

(d)(\w+?) 　　 "\w+? " 将尽可能少的匹配第一个 "d " 之后的字符，结果是： "\w+? " 只匹配了一个 "x "
(d)(\w+?)(d)　为了让整个表达式匹配成功， "\w+? " 不得不匹配 "xxx " 才可以让后边的 "d " 匹配，从而使整个表达式匹配成功。因此，结果是： "\w+? " 匹配 "xxx "

<a.*> (.*?) </a> 这里的 <a.*> 为贪婪模式，匹配 <a> adfad </a> <a> fafsdfa </a> 可以一直成功匹配到最后，这里的$1应为fafsdfa
而比如匹配字符串改为 <a> adfad </a> <a> fafsdfa </table> ，这样正则表达式若要匹配成功，只能匹配到 <a> adfad </a> ，此时$1是adfad
<a(.*?)> (.*?) </a> 这里的 <a(.*?)> 为非贪婪模式，所以可以分别匹配 <a> adfad </a> 和 <a> fafsdfa </table>

当然，这里还有另外一个潜在的原因，那就是
. 小数点可以匹配除了换行符（\n）以外的任意一个字符
如果正则式改成 <a[^> ]*> (.*?) </a> ，即使同样为贪婪模式，那和它将与 <a(.*?)> (.*?) </a> 匹配的结果一致

[解决办法]
这就是贪婪匹配的问题啊，只有(.*?)能够禁止贪婪匹配的过程。

在你的第一个表达式中，虽然禁止了 <a> 和 </a> 之间的贪婪匹配，但没有禁止 <a> 内的贪婪匹配，所以匹配时第一个(.*)就匹配了 "> adfad </a> <a "（也就是第一个 <a> 到第二个 <a> ）。
[解决办法]
非贪婪模式：

在修饰匹配次数的特殊符号后再加上一个 "? " 号，则可以使匹配次数不定的表达式尽可能少的匹配，使可匹配可不匹配的表达式，尽可能的 "不匹配 "。这种匹配原则叫作 "非贪婪 " 模式，也叫作 "勉强 " 模式。如果少匹配就会导致整个表达式匹配失败的时候，与贪婪模式类似，非贪婪模式会最小限度的再匹配一些，以使整个表达式匹配成功。举例如下，针对文本 "dxxxdxxxd " 举例：

表达式
匹配结果

(d)(\w+?)
"\w+? " 将尽可能少的匹配第一个 "d " 之后的字符，结果是： "\w+? " 只匹配了一个 "x "

(d)(\w+?)(d)
为了让整个表达式匹配成功， "\w+? " 不得不匹配 "xxx " 才可以让后边的 "d " 匹配，从而使整个表达式匹配成功。因此，结果是： "\w+? " 匹配 "xxx "

更多的情况，举例如下：

举例1：表达式 " <td> (.*) </td> " 与字符串 " <td> aa </td> <td> bb </td> " 匹配时，匹配的结果是：成功；匹配到的内容是 " <td> aa </td> <td> bb </td> " 整个字符串，表达式中的 " </td> " 将与字符串中最后一个 " </td> " 匹配。

举例2：相比之下，表达式 " <td> (.*?) </td> " 匹配举例1中同样的字符串时，将只得到 " <td> aa </td> "，再次匹配下一个时，可以得到第二个 " <td> bb </td> "。

热点排行

asp.net

正则表达式 匹配html有关问题

正则表达式匹配html有关问题