去除网页js,css的正则的问题
想要去除网页js和css,保留网页文本信息。网上找了一下找到如下正则:
\ <script.*\> .*\ <\/script\>
测试了一下这个正则能匹配到js tag,但是如果有这样一字符串: <script> ... </script> <p> 我要的内容 </p> <script> ... </script>
如果在我要的内容后面又出现了 </script> ,则我要的内容会全部匹配进去,请问正则高手如何修改这个正则。。。
[解决办法]
\ <script.*\> .*?\ <\/script\>
[解决办法]
try
string yourStr = ............;
string result = Regex.Replace(yourStr, @ " <script[^> ]*> [\s\S]*? </script> ", " ", RegexOptions.IgnoreCase);
[解决办法]
用非貪婪模式.
\ <script.*\> .*?\ <\/script\>