所在的位置： Web开发 >> HTTP >> Unicode和UTF8是什么关系

Unicode和UTF8是什么关系

重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一，它规定了字符如何在计算机中存储、传输等。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

下表总结了编码规则，字母x表示可用编码的位。

Unicode符号范围

UTF-8编码方式(十六进制)

（二进制）--------------------+----------------------------------------------F

0xxxxxxx-FF

xxxxx10xxxxxx-FFFF

1xxxx10xxxxxx10xxxxxx0001-FFFF

11xxx10xxxxxx10xxxxxx10xxxxxx

下面，还是以汉字“严”为例，演示如何实现UTF-8编码。

已知“严”的unicode是4E25（1），根据上表，可以发现4E25处在第三行的范围内（-FFFF），因此“严”的UTF-8编码需要三个字节，即格式是“1xxxx10xxxxxx10xxxxxx”。然后，从“严”的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，“严”的UTF-8编码是“111”，这是保存在计算机中的实际数据，转换成十六进制就是E4B8A5，转成十六进制的目的为了便于阅读。

6.Unicode与UTF-8之间的转换

通过上一节的例子，可以看到“严”的Unicode码是4E25，UTF-8编码是E4B8A5，两者是不一样的。它们之间的转换可以通过程序实现。

在Windows平台下，有一个最简单的转化方法，就是使用内置的记事本小程序Notepad.exe。打开文件后，点击“文件”菜单中的“另存为”命令，会跳出一个对话框，在最底部有一个“编码”的下拉条。

里面有四个选项：ANSI，Unicode，Unicodebigendian和UTF-8。

1）ANSI是默认的编码方式。对于英文文件是ASCII编码，对于简体中文文件是GB编码（只针对Windows简体中文版，如果是繁体中文版会采用Big5码）。

2）Unicode编码指的是UCS-2编码方式，即直接用两个字节存入字符的Unicode码。这个选项用的littleendian格式。

3）Unicodebigendian编码与上一个选项相对应。我在下一节会解释littleendian和bigendian的涵义。

4）UTF-8编码，也就是上一节谈到的编码方法。

选择完”编码方式“后，点击”保存“按钮，文件的编码方式就立刻转换好了。

7.Littleendian和Bigendian

上一节已经提到，Unicode码可以采用UCS-2格式直接存储。以汉字”严“为例，Unicode码是4E25，需要用两个字节存储，一个字节是4E，另一个字节是25。存储的时候，4E在前，25在后，就是Bigendian方式；25在前，4E在后，就是Littleendian方式。

那么很自然的，就会出现一个问题：计算机怎么知道某一个文件到底采用哪一种方式编码？

Unicode规范中定义，每一个文件的最前面分别加入一个表示编码顺序的字符，这个字符的名字叫做”零宽度非换行空格“（ZEROWIDTHNO-BREAKSPACE），用FEFF表示。这正好是两个字节，而且FF比FE大1。

如果一个文本文件的头两个字节是FEFF，就表示该文件采用大头方式；如果头两个字节是FFFE，就表示该文件采用小头方式。

8.实例

下面，举一个实例。

打开”记事本“程序Notepad.exe，新建一个文本文件，内容就是一个”严“字，依次采用ANSI，Unicode，Unicodebigendian和UTF-8编码方式保存。

然后，用文本编辑软件UltraEdit中的”十六进制功能“，观察该文件的内部编码方式。

1）ANSI：文件的编码就是两个字节“D1CF”，这正是“严”的GB编码，这也暗示GB是采用大头方式存储的。

2）Unicode：编码是四个字节“FFFEE”，其中“FFFE”表明是小头方式存储，真正的编码是4E25。

3）Unicodebigendian：编码是四个字节“FEFF4E25”，其中“FEFF”表明是大头方式存储。

4）UTF-8：编码是六个字节“EFBBBFE4B8A5”，前三个字节“EFBBBF”表示这是UTF-8编码，后三个“E4B8A5”就是“严”的具体编码，它的存储顺序与编码顺序是一致的。

推荐这篇文章看一下：　　：在浏览器中选择“编码”菜单，事先为浏览器安装多语言支持包（例如在安装IE时要安装多语言支持包），这样当浏览网页出现乱码时，即可手工更改查看此网页的编码方式，在浏览器中选择菜单栏下的“查看”/“编码”/“自动选择”/简体中文（GB），如为繁体中文则选择“查看”/“编码”/“自动选择”/繁体中文（BIG5），其他语言依此类推，便可消除网页乱码现象。分析：因为繁体big5编码后的文件，每个文字对应一个二进制流（假设是对应繁这个字），当我们以编码gb显示该网页时，gb编码会到表里去找（二进制流不会变的）对应谁，肯定不再是繁这个字了，当然显示的就不再是那个繁字了，也就会出现乱码了。这样理解简单些，其实中间还要转换成同一字符对应的系统内部使用的Unicode编码，然后通过系统底层unicode编码还原成相应字符显示出来。

北京医院看白癜风多少钱
福州治疗白癜风医院

转载请注明：http://www.guyukameng.com/http/3215.html

上一篇文章：常言道Chimera勒索软件升级不

下一篇文章： NodeJs后门程序