织梦中文分词 输入的词语返回乱码怎么办
织梦的中文分词 ,词库中明明有烦恼 ,忧愁这样的词语 ,但是测试输入 ,返回乱码 ,不知道是怎么回事 ,还有这样的代码 else if($n>0xA13F && $n < 0xAA40) , 其中 0xA13F ,0xAA40 是怎么来的 。 php中文分词,织梦中文分词
[解决办法]
if($n>0xA13F && $n < 0xAA40) 是全角符号
他用的是 gbk 字符集,如果你不是的,那一定会乱码的
[解决办法]
他首先用 ReviseString 方法对传入串做预处理
其中有
//如果中文字符就是说他认为一个中文是由两个字节组成的,这是 gbk 的编码规则
if(isset($str[$i+1])){
$c = $str[$i].$str[$i+1];