首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

python 扫描js,html资料中的所有注释

2013-04-20 
python 扫描js,html文件中的所有注释需求:python扫描js,html中是否有匹配到的规则,匹配到后发邮件出来;但

python 扫描js,html文件中的所有注释
需求:
python扫描js,html中是否有匹配到的规则,匹配到后发邮件出来;但是有个问题,匹配的结果文件中有些其实是注释了的,不应该被扫描出来。
所以想用python 对js,html文件中的所有注释不进行扫描;扫描时,直接过滤掉所有的注释文件
哪位大侠有办法呢?小女子在此谢过了。


类似多行注释:/\*.*?\*/ 
单行的也有很多种情况:
//******; 
 ** //****   
引号内(包括单引号和双引号)的双斜线不算注释
引号是配对出现的, 两个引号之间的以反斜线转义掉的引号不算结束符
由连续的非引号非斜线部分组成的字符串也不是注释
除去上述内容以外, 以双斜线开始直至行尾的部分就是注释

有没有demo可以用python扫描时直接过滤js,和html的注释呢? python 过滤js,html注释
[解决办法]

引用:
引用:引用:用BeautifulSoup解析,在输出到文件,注释自然就没有了。当然也可以直接用BeautifulSoup去解析匹配你的规则。

我之前写了足够详细的教程,你可以看看:
【教程】Python中第三方的用于解析HTML的库:BeautifulSoup

以及:
【总结】Python的第三方库Be……

html,javascript,css等等,都可以支持的。
不过,如果是想要提取其中的信息,那只是针对html的。
其他的js和css等,只能用正则去处理。

去:
http://www.crifan.com/contact_me/
可以发邮件给我。

热点排行