python 扫描js，html资料中的所有注释

2013-04-20

python 扫描js，html文件中的所有注释需求：python扫描js，html中是否有匹配到的规则，匹配到后发邮件出来；但

python 扫描js，html文件中的所有注释
需求：
python扫描js，html中是否有匹配到的规则，匹配到后发邮件出来；但是有个问题，匹配的结果文件中有些其实是注释了的，不应该被扫描出来。
所以想用python 对js，html文件中的所有注释不进行扫描；扫描时，直接过滤掉所有的注释文件
哪位大侠有办法呢？小女子在此谢过了。

类似多行注释：/\*.*?\*/
单行的也有很多种情况：
//******;
** //****
引号内(包括单引号和双引号)的双斜线不算注释
引号是配对出现的, 两个引号之间的以反斜线转义掉的引号不算结束符
由连续的非引号非斜线部分组成的字符串也不是注释
除去上述内容以外, 以双斜线开始直至行尾的部分就是注释

有没有demo可以用python扫描时直接过滤js，和html的注释呢？ python 过滤js，html注释
[解决办法]

引用:

引用:引用:用BeautifulSoup解析，在输出到文件，注释自然就没有了。当然也可以直接用BeautifulSoup去解析匹配你的规则。

我之前写了足够详细的教程，你可以看看：
【教程】Python中第三方的用于解析HTML的库：BeautifulSoup

以及：
【总结】Python的第三方库Be……

html，javascript,css等等，都可以支持的。
不过，如果是想要提取其中的信息，那只是针对html的。
其他的js和css等，只能用正则去处理。

去：
http://www.crifan.com/contact_me/
可以发邮件给我。

热点排行

perl python

python 扫描js，html资料中的所有注释