关于字符集 ---- 1. GB2312-80收录6763个汉字,GBK收录21003个汉字,GB18030收录27484个汉字。 2. 著名计算语言学家冯志伟教授的统计数据:《信息时代汉字的标准化和共通化》 <br /> <p align="center" style="font-weight:bold;">7000通用汉字覆盖率和不足率</p> 汉字数|增加字数|覆盖率|不足率 :-: | :-: | :-: | :-: 500| |78%|其他来源 1000| |90%|10% 2400|1400|99%|1% 3800|1400|99.9%|0.1% 5200|1400|99.99%|0.01% 6600|1400|99.999%|0.001% <br /> 从中可以看出,1000个汉字的覆盖率为90%,以后每增加1400字,覆盖率百分比的最后一个9字之后便增加一个9字。覆盖率达到99.999%的6600个汉字,就构成了现代通用汉字的主体,覆盖率达到99.9%的3800个汉字,就包含了全部现代常用汉字。 <br /> 3. 据统计,红楼梦书只用了4200个单字,毛泽东选集一至四卷也只用了2981个字。 从上面的数据可以看到,汉字很多,但常用汉字并不多。常用汉字可以粗略地定为3800(或5200)个,因为其覆盖率达到了99.9%(或99.99%),因此汉字输入法只要能方便快速地输入这3800(或5200)个常用汉字就基本能满足日常需求。 <br /> 4. 小鹤音形从5.0版开始,采用《通用规范汉字表》国发〔2013〕23号文制定的通用规范字表。此表收字8105个,分为三级:一级字表为常用字集,收字3500个,主要满足基础教育和文化普及的基本用字。二级字表收字3000个,使用度仅次于一级字。一、二级字表主要满足印刷、辞书编纂和信息处理等方面的一般用字需要。三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学教材文言文用字中未进入一、二级字表的较通用的字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。 <br /> <p align="center" style="font-weight:bold;">《通用规范汉字表》8105字的字集分布情况</p> 字集|字数|Unicode编码范围|备注 | --- | --- | --- | --- | --- | CJK基本集|7829|4E00-9FA5| CJK基本集补充|3|9FA6-9FEF|Unicode 8.0 CJK-A|77|3400-4DB5| CJK-B|36|20000-2A6D6|win7 CJK-C|44|2A700-2B734| CJK-D|8|2B740-2B81D|win8 CJK-E|108|2B820-2CEA1|win10 合计|8105| | <br /> 5. 关于小鹤收字范围的思考 我们知道拼音输入法是个重码罗列的输入法,即同音字会一直罗列下去,即使翻十几二十页,只要这个字有读音我都可收在同音字列表中。而在拼音输入法之外的一个主要的输入法编码方式全码四码方案:小鹤、五笔、郑码……等等都是此类方案,通常会通过选定字集的方式,确定收字范围,比如gb2312集6763字、gbk集21003字、gb18030-2000集27533字...选择各字集各有各的理由,通常你看到的四码方案都不会是收录全集的输入法,拼音倒有可能,但无拼音读音或没有进入unicode标准的字也是无法收录的。 <br /> 小鹤在5.0版之前是采用的gb2312字集,5.0开始脱离字集的收字方式,而采用《通用规范汉字表》国发〔2013〕23号文规定用字。 表内字涉及cjk基本集至cjk-e,cjk基本集差不多就是gbk集。“《通用规范汉字表》公布后,社会一般应用领域的汉字使用应以《通用规范汉字表》为准,原有相关字表停止使用。”有人说规范是一些专家拍脑袋想出来的,我只能说规范的方向是好的,但收字范围无论如何取舍都不可能得到所有人认同,既然已经通过国务院发文,他就是一种标准。对于规范字表内没收录的可能生活中较有机会用到的字,我们可以采用增补的方式来满足。<br /> 有的拼音用户刚接触四码方案,有人打了个字结果自己打不出,就觉得这方案不好了字少了,但其实四码方案的代表五笔字型,在具体到输入法形态时也会有收字范围,而且很可能是gbk集,我们来看看下面这个表:<br /> unicode cjk-基本 :20902 unicode cjk-a :6582  =27484 unicode cjk-b :42711  =70195 unicode cjk-c :4149   =74344 unicode cjk-d :222     =74566 unicode cjk-e :5762     =80328 unicode cjk-f :7473     =87801 unicode cjk-g :4939      =92740<br /> 共计: 92740 字 <br /> 常见的QQ五笔收字范围是:gbk≈cjk-基本,你可以看到gbk之外还有7万多字都未被收录,而包含全集的四码方案输入法你基本接触不到,是不是统统都不好了呢?<br /> 按照字集的收字方法,QQ五笔需要收完abcde集才能收录完整规范字表涵盖的字,即还需要增加约6万字,小鹤收录8000余字就完成了规范,五笔要收8万字,而这多收的字基本没有用处。如果要收全集还需要收到g集,以后还可能出hi...集 <br /> 这里有三个属于cjk基本集补充的字:“鿍(土+降右半)”、“鿎(石达)”、“鿏(钅麦)”,你可以用你认为的大字库输入法打打看有没有。 <br /> > 注 : > > ① GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。 > <br /> > > ② GBK编码:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉字,包含国家标准GB13000-1中的全部中日韩汉字,和BIG5编码中的所有汉字。 > <br /> > > ③ GB18030编码:2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。 > <br /> > > ④ Unicode编码:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。 <br /> <br />