各位大神用正则表达式抽取jsp页面的中文

2014-01-15

各位大神求助用正则表达式抽取jsp页面的中文项目正在进行国际化工作，目前需要将页面中的中文提取出来(注

各位大神求助用正则表达式抽取jsp页面的中文
项目正在进行国际化工作，目前需要将页面中的中文提取出来(注释除外)供翻译人员进行翻译。
我尝试了用正则表达式去抽取中文，但是目前遇到了如下几个问题：
1、注释中的中文不好匹配，在jsp页面中有如下的注释情况： <% %> // /****/ （因为在jsp页面中可嵌入java代码、js代码、还有自身的html代码）
2、在jsp页面一行的文本中如果有类似的信息： "客户档案accountName，输入的文本超过最大长度200" ，则处理结果应该为：客户档案accountName，输入的文本超过最大长度200;而：


任何给出意见的，将不甚感激！                                                  正则表达式?提取中文?jsp页面                                              
[解决办法]
可以直接匹配出来
[解决办法]

var Filter = {
                    doFilter: function(str){
                        if(!str 
[解决办法]
 typeof str !== 'string')return str;
                        for(var i = 0, len = this._filters.length; i < len; i++){
                            str = str.replace(this._filters[i], "");
                        }
                        return str;
                    },
                    _filters: [//private
                        /\/\*(?:.
[解决办法]
\n)*?\*\//g,
                        /\/\/.*/g,
                        /<\!--(?:.
[解决办法]
\n)*?-->/g
                    ]
                },
       getter = /['"](?:.
[解决办法]
\n)*?[^\x00-\xff](?:.
[解决办法]
\n)*?['"]/g;

        var testStr = "//测试\n" +
                "var x = 1;\n" +
                "/**\n" +
                "中文\n" +
                "*/\n" +
                "<!--<span>测试中文</span>\n-->\n" +
                "var y = '中文变量';\n" +
                "var z = '变量加' + x + y\n";

        testStr = Filter.doFilter(testStr);
        var zhStr = testStr.match(getter); 
 
        for(var i = 0; i < zhStr.length; i++){
            console.log(zhStr[i])
        }

js版的，要用java版的改下就可以了吧，java的点包含换行
不过感觉这样提取出来的翻译不一定准确，没有语境了
[解决办法]
设计思路：将Jsp多次过滤，最终达到你所需要的东西。
1、过滤掉注释，大多注释是以 // <!----> /*...*/ 把这些注释替换成空字符串 
2、过滤掉java代码 <%.....%>
3、过滤掉html代码...
4、JS过滤起来应该有点复杂
5、可以考虑Java的httpClient模式发送报文然后调用java的处理类，对各个依次处理，最后返回报文。
[解决办法]
技术上面有人给出了方案，我就提点疑问：
1、为什么要把注释中的中文过滤掉？可以一起提取出来啊。
2、为什么要进行截断？截断之后进行翻译就有可能语义不是很准。

热点排行

J2SE开发

各位大神 用正则表达式抽取jsp页面的中文

各位大神用正则表达式抽取jsp页面的中文