根据字节数截取字符串
?
在网上看到一个考试题,做了试试看的,发现网上给的很多答案并不完全标准,不完全符合题目要求。题目如下:
?
编程:编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如“我ABC4”,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个”。
?
package main;/** * @author H小阿飞 */public class SplitChar {/** 在UTF-8字符集中一个中文字 占2个字节的:0个 占3个字节的:基本等同于GBK,含21000多个汉字 占4个字节的:中日韩超大字符集里面的汉字,有5万多个 */public void splitIt(String str,int bytes){char[] getChar = str.toCharArray(); //字符串以字符数组的形式存储int charLength = getChar.length;System.out.println("字符数组的长度:"+charLength);int k = 0;String reStr = "";for(int i=0;i<charLength&&bytes>k;i++){ //bytes>k 用来限制循环的条件。形象点讲:bytes相当于一个剪切点,k从字符串数组起点游动寻找此bytes点。String s1 = String.valueOf(getChar[i]); //获取字符串数组中的字符并转换成String型byte[] getBytes = s1.getBytes(); //字符串数组中的字符串以字节数组的形式存储if(getBytes.length==3){ //为了应付题目,把一个汉字当做2个字节k += getBytes.length-1;}else{k += getBytes.length;}if(k<=bytes){ //处理如:"a我",2的情况,只输出"a",而不是"a我"reStr += getChar[i];}}System.out.println("截取后所需的字符串:"+reStr);}public static void main(String[] args){String input = " a我b是c一d个e中f国g人";String number = "7";int num = Integer.valueOf(number);SplitChar splitChar = new SplitChar();splitChar.splitIt(input,num);}}
?
?
注:题目本身并不完善,因为它认为一个中文字是两个字节的,而且我们平时也都是认为一个中文汉字是两个字节,一个英文字母是一个字节,但在UTF-8字符集下,中文汉字其实是3个字节,这也是我做了这条题目后才发现的。
对此我有个疑问:那在何种情况下一个中文字是两个字节呢?
应题目要求,我对中文字节数减了1,完全按照题目意思去写的代码。
?
下面的附近是对此进行了扩展,多了一个按字符截取字符串的功能