perl取字,求高手帮忙!!!!急
文档abd.txt里有一些这样的句子:
家住重慶市渝<l>中區</l><l>七星崗</l>的王君最近把他的購車計劃提前到了今年「五一」節,因為當地將在今年5月1日後,逐步取消所有二級公路的收費。
在當前國家確定的重慶都市12個歷史文化風貌片區中,渝<l>中區</l>就佔了7個,其中包括上清寺、<l>七星崗</l>、解放東路等。而據渝<l>中區</l>文廣局不完全統計。
1:通过perl程序来实现取出 <l>之前的汉字,</l>之后的汉字,遇到标点符号就停止,取字最多5个
例如 xxx,abc<l>SZ</l>defghtm、yyy 所以我们要的是 a,b,c,d,e,f,g,h
像这样的情况是不 要取字 寺、<l>七星崗</l>、解
2:将取出的字进行统计,假设取出的字有a,b,c,d,e,f,a,d,a,e,c,那么输出的结果为
a->3
b->1
c->2
d->2
e->2
f->1
[解决办法]
按16进制取字方便
[解决办法]
用下面语句判断是不是汉字
if (ord(substr($str,$i,1))<=127)
不是汉字
[解决办法]
将文件按标点符号换行,
然后按行读取一行到变量$line
用l> 将行分离为数组
split('l>',$line);