软件架构设计

软件开发软件架构设计 CVS SVN VSTS PowerDesigner Rational 软件测试

当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

数据结构- 串的模式匹配算法：BF跟 KMP算法

2012-06-21

数据结构- 串的模式匹配算法：BF和 KMP算法Brute-Force算法的思想1．BF(Brute-Force)算法Brute-Force算法的

数据结构- 串的模式匹配算法：BF和 KMP算法

Brute-Force算法的思想

1．BF(Brute-Force)算法
Brute-Force算法的基本思想是：
1) 从目标串s 的第一个字符起和模式串t的第一个字符进行比较，若相等，则继续逐个比较后续字符，否则从串s 的第二个字符起再重新和串t进行比较。
2) 依此类推，直至串t 中的每个字符依次和串s的一个连续的字符序列相等，则称模式匹配成功，此时串t的第一个字符在串s 中的位置就是t 在s中的位置，否则模式匹配不成功。
Brute-Force算法的实现

c语言实现：
2．KMP算法<strong>2.1 算法思想：</strong><p></p><p>每当一趟匹配过程中出现字符比较不等时，不需要回溯I指针，而是利用已经的带的“部分匹配”的结果将模式向右滑动尽可能远的一段距离后，继续进行比较。</p><p>即尽量利用已经部分匹配的结果信息，尽量让i不要回溯，加快模式串的滑动速度。</p><p><img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278093.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法"><br></p><p><br></p><p><br></p><p><br></p><p>需要讨论两个问题：<br>①如何由当前部分匹配结果确定模式向右滑动的新比较起点k？<br>② 模式应该向右滑多远才是高效率的?<br></p><p></p><p><strong>现在讨论一般情况:</strong></p><p>假设主串：s: ‘s(1) s(2) s(3) ……s(n)’ ; 模式串：p: ‘p(1) p(2) p(3)…..p(m)’</p><p></p><p>现在我们假设主串第i个字符与模式串的第j(j<=m)个字符‘失配’后，主串第i个字符与模式串的第k(k<j)个字符继续比较。</p><p>此时，s(i)≠p(j)：<br></p><p><img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278094.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法"><br></p><p></p><p>由此，我们得到关系式：即得到到1 到<strong> j -1 </strong>的<strong>"部分匹配"</strong>结果:</p><p><strong> ‘P(1) P(2) P(3)…..P(j-1)’ = ’ S(i-j+1)……S(i-1)’</strong></p><p> 从而推导出k 到 j- 1位的“部分匹配”：即P<strong>的<strong>j-1</strong><strong>～</strong><strong>j-k</strong>＝S前i-1～i- (k -1))位 </strong><strong> </strong><strong> </strong></p><p><strong> <strong>‘P(j - k + 1) …..P(j-1)’ = <strong> ’S(i-k+1)S(i-k+2)……S(i-1)’</strong></strong><br></strong></p><p>由于s(i)≠p(j)，接下来s(i)将与p(k)继续比较，则模式串中的前(k-1)个字符的子串必须满足下列关系式，并且不可能存在 k’>k 满足下列关系式：(k<j)<br></p><p><img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278095.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法" style="font-size:14px"><br></p><p>有关系式：即(P的前k- 1 ~ 1位＝ S前i-1～i-(k-1) )位 ) ,：</p><p><strong>‘P(1) P(2) P(3)…..P(k-1)’ = ’S(i-k+1)S(i-k+2)……S(i-1)’</strong></p><p></p><p>现在我们把前面总结的关系综合一下,有：</p><p><img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278096.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法"><br></p><p></p><p>由上，我们得到关系：<br></p><p><strong>‘p(1) p(2) p(3)…..p(k-1)’ = ‘p(j - k + 1) …..p(j-1)’ </strong><br></p> 反之，若模式串中满足该等式的两个子串，则当匹配过程中，主串中的第i 个字符与模式中的第j个字符等时，仅需要将模式向右滑动至模式中的第k个字符和主串中的第i个字符对齐。此时，模式中头k-1个字符的子串‘p(1) p(2) p(3)…..p(k-1)’ 必定与主串中的第i 个字符之前长度为k-1 的子串 ’s(j-k+1)s(j-k+2)……s(j-1)’相等，由此，匹配仅需要从模式中的第 k 个字符与主串中的第 i 个字符比较起继续进行。若令 next[j] = k ,则next[j] 表明当模式中第j个字符与主串中相应字符“失配”时，在模式中需要重新和主串中该字符进行的比较的位置。由此可引出模式串的next函数：<p></p><p>根据模式串P的规律： <strong> ‘p(1) p(2) p(3)…..p(k-1)’ = ‘p(j - k + 1) …..p(j-1)’ </strong></p><p>由当前失配位置j(已知) ，可以归纳计算新起点k的表达式。</p><br><img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278097.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法"><br><br><br>由此定义可推出下列模式串next函数值：<br><p><img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278098.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法"><br></p><p><br></p><p><br></p><p>模式匹配过程:</p><p><img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278099.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法"><br></p><p><strong>KMP算法的实现:<br></strong></p><p><strong></strong></p><p>第一步，先把模式T所有可能的失配点j所对应的next[j]计算出来；</p><p>第二步：执行定位函数Index_kmp（与BF算法模块非常相似）</p><textarea readonly name="code" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法">Pj 则表明在模式串中：</p><p> <strong>‘P(1) ….. P(k)’ <img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278100.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法"> </strong><strong>‘P(j - k + 1) ….. P(j)’ </strong><br> 此时可把next函数值的问题看成是一个模式匹配的问题，整个模式串即是主串又是模式串，<br> 而当前匹配的过程中，已有：</p><p> Pj-k+1 = P1， Pj-k+2 = P2，... Pj-1 = Pk-1.<br> 则当Pk<img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278100.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法">Pj时应将模式向右滑动至以模式中的第next[k]个字符和主串中的第 j 个字符相比较。<br> 若next[k] = k`,且Pj= Pk`, 则说明在主串中的第j+1 个字符之前存在一个长度为k` (即next[k])的最长子串，和模式串<br> 从首字符其长度为看k`的子串箱等。即<br> <strong>‘P(1) ….. P(k`)’ = </strong><strong>‘P(j - k` + 1) ….. P(j)’ </strong><br> 也就是说next[j+1] = k` +1 即<br> next[j+1] = next[k] + 1<br> 同理，若Pj <img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278100.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法">Pk` ,则将模式继续向右滑动直至将模式串中的第next[k`]个字符和Pj对齐，<br> ... ,一次类推，直至Pj和模式中某个字符匹配成功或者不存在k`(1< k` < j)满足，则:<br> next[j+1] =1;</p><p> <img src="//img.reader8.com/uploadfile/jiaocheng/20140188/3029/201401301429278101.jpg" alt="数据结构- 串的模式匹配算法：BF跟 KMP算法"></p><p><br></p><p></p><textarea readonly name="code" style="color:rgb(51,51,51); font-family:Arial; font-size:14px; background-color:white; text-indent:6pt; line-height:18px">next 函数值究竟是什么含义，前面说过一些，这里总结。设在字符串S中查找模式串T，若S[m]!=T[n],那么，取T[n]的模式函数值next[n],1. next[n] = 0 表示S[m]和T[1]间接比较过了，不相等，下一次比较 S[m+1] 和T[1]2. next[n] =1 表示比较过程中产生了不相等，下一次比较 S[m] 和T[1]。3. next[n] = k >1 但k<n, 表示,S[m]的前k个字符与T中的开始k个字符已经间接比较相等了，下一次比较S[m]和T[k]相等吗？4. 其他值，不可能。<br><p></p><p>注意：</p><p>（1）k值仅取决于模式串本身而与相匹配的主串无关。</p><p>（2）k值为模式串从头向后及从j向前的两部分的最大相同子串的长度。</p><p>（3）这里的两部分子串可以有部分重叠的字符，但不可以全部重叠。</p><p>next[j]函数表征着模式P中最大相同前缀子串和后缀子串（真子串）的长度。</p><p>可见，模式中相似部分越多，则next[j]函数越大，它既表示模式T字符之间的相关度越高，也表示j位置以前与主串部分匹配的字符数越多。</p><p>即：next[j]越大，模式串向右滑动得越远，与主串进行比较的次数越少，时间复杂度就越低（时间效率）。</p><br><p><br></p> </p><div class="aged2"><script type="text/javascript">a("article_content_down");</script></div> </div> <div id="pagebox" > <a href="/jiaocheng/jiagousj/" target="_blank">查看更多</a> <A href="/jiaocheng/20120906/2075504.html" title="netfilter运用场景">下一篇</A></div> <div id="MainLeftll"> <div id="MainLeftllToolbar">本文网址：<a href="https://www.reader8.com/jiaocheng/20120621/2075510.html">https://www.reader8.com/jiaocheng/20120621/2075510.html</a></div> <div class="related"><span class="relatedIco1">读书人精选</span> <ul class="relatedList"> </ul> </div> <div class="aged3"><script type="text/javascript">a("article_content_down2");</script></div> <div class="aged3a"><script type="text/javascript">a("article_content_down3");</script></div> </div> </div>   <div class="leftbox_r"> <div class="aged4"><script type="text/javascript">a("article_right_up");</script></div> <div class="Rtitle"> <span class="Rtitle_text">热点排行</span></div> <div class="RContl"> <ul> <li><a href="/jiaocheng/20140511/2327961.html" target="_blank">完全二叉树的768个节点，个叶子节点？解</a></li> <li><a href="/jiaocheng/20140614/2392024.html" target="_blank">位图排序的有关问题</a></li> <li><a href="/jiaocheng/20120822/2066988.html" target="_blank">Spring的四种配置方式</a></li> <li><a href="/jiaocheng/20121107/2060186.html" target="_blank">struts2表单中文乱码有关问题</a></li> <li><a href="/jiaocheng/20130928/2071193.html" target="_blank">Java 实现下线翻译功能调用微软Bing API</a></li> <li><a href="/jiaocheng/20120907/2072384.html" target="_blank">spring配备quartz 多任务</a></li> <li><a href="/jiaocheng/20140115/2051653.html" target="_blank">OFBiz(1)：目录结构（转）</a></li> <li><a href="/jiaocheng/20120825/2072863.html" target="_blank">tomcat施用log4j分割日志的配置方法</a></li> <li><a href="/jiaocheng/20120909/2070268.html" target="_blank">【收录】将Spring用来高并发环境的隐忧</a></li> <li><a href="/jiaocheng/20121112/2072921.html" target="_blank">spring3.0支持restful范例</a></li> </ul> </div> <div class="aged7"><script type="text/javascript">a("article_right_up2");</script></div>  </div>  <script type="text/javascript">a("article_down_up");</script> <script type="text/javascript">a("foot");</script> <script type="text/javascript">a("article_down_up2");</script>  <div style="display:none">  <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?d6151f323a57d16696165e47eee86d53"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </div> <script type="text/javascript">a("allbt");</script> </body> </html>