正确选择字符编码避免网页乱码

作者:idd.chiang 发布时间:February 6, 2010 分类:前端观察

web开发中,怎么选择字符编码,针对编码对汉字收录情况,我们应合理设置charset的编码。

关于GB2312、GBK到GB18030:
GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。 2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说,GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。

关于Unicode、UTF-8:
Unicode 是常见的字符编码方法,可容纳全世界所有语言文字的编码方案。目前Windows的内核已经支持Unicode字符集,这样在内核上可以支持全世界所有的语言文字。但是由于现有的大量程序和文档都采用了某种特定语言的编码,例如GBK,Windows 不可能不支持现有的编码,而全部改用Unicode。UTF-8就是以8位为单元对UCS进行编码

Windows的内码是Unicode,它在技术上可以同时支持多个代码页。只要文件能说明自己使用什么编码,用户又安装了对应的代码页,Windows就能正确显示,例如在HTML文件中就可以指定charset,所以在开发过程中,为了避免乱码产生,统一charset编码方式至关重要。

在未指定页面编码类型时,IE会默认使用Unicode方式来解读,所以乱码因此产生,下面列出web开发中常遇到的CSS中文字体对应unicode编码转换表:

中文名英文名UnicodeUnicode 2
Mac OS
华文细黑STHeiti Light [STXihei]\534E\6587\7EC6\9ED1华文细黑
华文黑体STHeiti\534E\6587\9ED1\4F53华文黑体
华文楷体STKaiti\534E\6587\6977\4F53华文楷体
华文宋体STSong\534E\6587\5B8B\4F53华文宋体
华文仿宋STFangsong\534E\6587\4EFF\5B8B华文仿宋
丽黑 ProLiHei Pro Medium\4E3D\9ED1 Pro丽黑 Pro
丽宋 ProLiSong Pro Light\4E3D\5B8B Pro丽宋 Pro
标楷体BiauKai\6807\6977\4F53标楷体
苹果丽中黑Apple LiGothic Medium\82F9\679C\4E3D\4E2D\9ED1苹果丽中黑
苹果丽细宋Apple LiSung Light\82F9\679C\4E3D\7EC6\5B8B苹果丽细宋
Windows
新细明体PMingLiU\65B0\7EC6\660E\4F53新细明体
细明体MingLiU\7EC6\660E\4F53细明体
标楷体DFKai-SB\6807\6977\4F53标楷体
黑体SimHei\9ED1\4F53黑体
宋体SimSun\5B8B\4F53宋体
新宋体NSimSun\65B0\5B8B\4F53新宋体
仿宋FangSong\4EFF\5B8B仿宋
楷体KaiTi\6977\4F53楷体
仿宋_GB2312FangSong_GB2312\4EFF\5B8B_GB2312仿宋_GB2312
楷体_GB2312KaiTi_GB2312\6977\4F53_GB2312楷体_GB2312
微软正黑体Microsoft JhengHei\5FAE\x8F6F\6B63\9ED1\4F53微软正黑体
微软雅黑Microsoft YaHei\5FAE\8F6F\96C5\9ED1微软雅黑
Office
隶书LiSu\96B6\4E66隶书
幼圆YouYuan\5E7C\5706幼圆
华文细黑STXihei\534E\6587\7EC6\9ED1华文细黑
华文楷体STKaiti\534E\6587\6977\4F53华文楷体
华文宋体STSong\534E\6587\5B8B\4F53华文宋体
华文中宋STZhongsong\534E\6587\4E2D\5B8B华文中宋
华文仿宋STFangsong\534E\6587\4EFF\5B8B华文仿宋
方正舒体FZShuTi\65B9\6B63\8212\4F53方正舒体
方正姚体FZYaoti\65B9\6B63\59DA\4F53方正姚体
华文彩云STCaiyun\534E\6587\5F69\4E91华文彩云
华文琥珀STHupo\534E\6587\7425\73C0华文琥珀
华文隶书STLiti\534E\6587\96B6\4E66华文隶书
华文行楷STXingkai\534E\6587\884C\6977华文行楷
华文新魏STXinwei\534E\6587\65B0\9B4F华文新魏

标签: utf-8, unicode, gbk, gb2312, gb18030, charset, 编码, 中文字符

已有 2 条评论 »

  1. jayli jayli February 6th, 2010 at 04:01 pm

    我也换皮肤啦

  2. idd.chiang idd.chiang February 6th, 2010 at 08:12 pm

    晕!!我还以为你连系统也一起换了呢。
    以前没有收录应该是wordpress的问题,百度现在有收录了。

添加新评论 »

Copyright © 不名一格 Powered by Typecho 登录 京ICP备05013217号