正确选择字符编码避免网页乱码
作者:idd.chiang 发布时间:February 6, 2010 分类:前端观察
web开发中,怎么选择字符编码,针对编码对汉字收录情况,我们应合理设置charset的编码。
关于GB2312、GBK到GB18030:
GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。 2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说,GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。
关于Unicode、UTF-8:
Unicode 是常见的字符编码方法,可容纳全世界所有语言文字的编码方案。目前Windows的内核已经支持Unicode字符集,这样在内核上可以支持全世界所有的语言文字。但是由于现有的大量程序和文档都采用了某种特定语言的编码,例如GBK,Windows 不可能不支持现有的编码,而全部改用Unicode。UTF-8就是以8位为单元对UCS进行编码
Windows的内码是Unicode,它在技术上可以同时支持多个代码页。只要文件能说明自己使用什么编码,用户又安装了对应的代码页,Windows就能正确显示,例如在HTML文件中就可以指定charset,所以在开发过程中,为了避免乱码产生,统一charset编码方式至关重要。
在未指定页面编码类型时,IE会默认使用Unicode方式来解读,所以乱码因此产生,下面列出web开发中常遇到的CSS中文字体对应unicode编码转换表:
