密码学,统计学

    编码

    acsii 一个字节
    GB2321 ,使用两个字节表示一个汉字
    GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号

    Unicode的问题
    互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一
    需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储

    UTF-8的编码规则很简单,只有二条:

    1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

    2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。
    import java.io.UnsupportedEncodingException;
    /
    转换字符串的编码
    /
    public class ChangeCharset {
    /
    7位ASCII字符,也叫作ISO646-US、Unicode字符集的基本拉丁块 /
    public static final String US_ASCII = “US-ASCII”;
    /** ISO 拉丁字母表 No.1,也叫作 ISO-LATIN-1
    /
    public static final String ISO_8859_1 = “ISO-8859-1”;
    / 8 位 UCS 转换格式 */
    public static final String UTF_8 = “UTF-8”;
    /
    16 位 UCS 转换格式,Big Endian(最低地址存放高位字节)字节顺序 /
    public static final String UTF_16BE = “UTF-16BE”;
    /** 16 位 UCS 转换格式,Little-endian(最高地址存放低位字节)字节顺序
    /
    public static final String UTF_16LE = “UTF-16LE”;
    / 16 位 UCS 转换格式,字节顺序由可选的字节顺序标记来标识 */
    public static final String UTF_16 = “UTF-16”;
    /
    中文超大字符集 /
    public static final String GBK = “GBK”;
    /**
    将字符编码转换成US-ASCII码
    /
    public String toASCII(String str) throws UnsupportedEncodingException{
    return this.changeCharset(str, US_ASCII);
    }
    /**
    将字符编码转换成ISO-8859-1码
    /
    public String toISO_8859_1(String str) throws UnsupportedEncodingException{
    return this.changeCharset(str, ISO_8859_1);
    }
    /**
    将字符编码转换成UTF-8码
    /
    public String toUTF_8(String str) throws UnsupportedEncodingException{
    return this.changeCharset(str, UTF_8);
    }
    /**
    将字符编码转换成UTF-16BE码
    /
    public String toUTF_16BE(String str) throws UnsupportedEncodingException{
    return this.changeCharset(str, UTF_16BE);
    }
    /**
    将字符编码转换成UTF-16LE码
    /
    public String toUTF_16LE(String str) throws UnsupportedEncodingException{
    return this.changeCharset(str, UTF_16LE);
    }
    /**
    将字符编码转换成UTF-16码来源:www.examda.com
    */
    public String toUTF_16(String str) throws UnsupportedEncodingException{
    return this.changeCharset(str, UTF_16);
    }

    /
    将字符编码转换成GBK码
    /
    public String toGBK(String str) throws UnsupportedEncodingException{
    return this.changeCharset(str, GBK);
    }
    /

    字符串编码转换的实现方法
    @param str 待转换编码的字符串
    @param newCharset 目标编码来源:考试大的美女编辑们
    @return
    @throws UnsupportedEncodingException
    /
    public String changeCharset(String str, String newCharset)
    throws UnsupportedEncodingException {
    if (str != null) {
    //用默认字符编码解码字符串。
    byte[] bs = str.getBytes();
    //用新的字符编码生成字符串
    return new String(bs, newCharset);
    }
    return null;
    }
    /*
    字符串编码转换的实现方法
    @param str 待转换编码的字符串
    @param oldCharset 原编码
    @param newCharset 目标编码来源:考试大的美女编辑们
    @return
    @throws UnsupportedEncodingException
    /
    public String changeCharset(String str, String oldCharset, String newCharset)
    throws UnsupportedEncodingException {
    if (str != null) {
    //用旧的字符编码解码字符串。解码可能会出现异常。
    byte[] bs = str.getBytes(oldCharset);
    //用新的字符编码生成字符串
    return new String(bs, newCharset);
    }
    return null;
    }
    public static void main(String[] args) throws UnsupportedEncodingException {
    ChangeCharset test = new ChangeCharset();
    String str = “This is a 中文的 String!”;
    System.out.println(“str: “ + str);
    String gbk = test.toGBK(str);
    System.out.println(“转换成GBK码: “ + gbk);
    System.out.println();
    String ascii = test.toASCII(str);
    System.out.println(“转换成US-ASCII码: “ + ascii);
    gbk = test.changeCharset(ascii,ChangeCharset.US_ASCII, ChangeCharset.GBK);
    System.out.println(“再把ASCII码的字符串转换成GBK码: “ + gbk);
    System.out.println();
    String iso88591 = test.toISO_8859_1(str);
    System.out.println(“转换成ISO-8859-1码: “ + iso88591);
    gbk = test.changeCharset(iso88591,ChangeCharset.ISO_8859_1, ChangeCharset.GBK);
    System.out.println(“再把ISO-8859-1码的字符串转换成GBK码: “ + gbk);
    System.out.println();
    String utf8 = test.toUTF_8(str);
    System.out.println(“转换成UTF-8码: “ + utf8);
    gbk = test.changeCharset(utf8,ChangeCharset.UTF_8, ChangeCharset.GBK);
    System.out.println(“再把UTF-8码的字符串转换成GBK码: “ + gbk);
    System.out.println();
    String utf16be = test.toUTF_16BE(str);
    System.out.println(“转换成UTF-16BE码:” + utf16be);
    gbk = test.changeCharset(utf16be,ChangeCharset.UTF_16BE, ChangeCharset.GBK);
    System.out.println(“再把UTF-16BE码的字符串转换成GBK码: “ + gbk);