如果你是一个生活在2003年的程序员,却不了解字符、字符集、编码和Unicode这些基础知识。那你可要小心了,要是被我抓到你,我会让你在潜水艇里剥六个月洋葱来惩罚你。
这个邪恶的恐吓是Joel Spolsky在十年前首次发出的。不幸的是,很多人认为他只是在开玩笑,因此,现在仍有许多人不能完全理解Unicode,以及Unicode、UTF-8、UTF-16之间的区别。这就是我写这篇文章的原因。
言归正传,设想在一个晴朗的下午,你收到一封电子邮件,它来自一个你高中之后就失去联系的朋友,并带有一个txt格式(也称为纯文本格式)的附件。这个附件包含下面这样一串二进制bits:
Email的正文是空的,这使它更加神秘。在你启动常用的文本编辑器打开这个附件之前,你有没有想过,文本编辑器是怎么将二进制形式翻译成字符的?这其中有两个关键问题:
1.字节是怎样分组的?(例如1个字节的字符和2个字节的字符)
2.一个或多个字节是怎么映射到字符上的?
这些问题的答案就在这篇文档(Character Encoding)中,大致说来,编码定义了两件事:
1.字节是怎么分组的,如8 bits或16 bits一组,这也被称作编码单米。
2.编码单米和字符之间的映射关系。例如,在ASCII码中,十进制65映射到字母A上
字符编码和字符集之间有微小的区别。不过通常它和你无关,除非你在设计一个底层的库。
ASCII码是上个世纪最流行的编码体系之一,至少在西方是这样。下图显示了ASCII码中编码单米是怎么映射到字符上的。