答:通常所说的大字库指的是国家已经颁布编码标准的,拥有字符数最多的现行字库。 gb18030-2005是我国现行最新的编码标准,包含汉字70650个。这个字库与公安部实际使用的人口信息生僻字库(即方正人口信息字库)不同。截止目前,方正人口信息字库在gb18030-2005标准之上还补了生僻字4787个,增加了gb18030-2005以外的通用规范汉字160个,即方正人口信息字库比gb18030-2005多了4947个汉字,达到75597个汉字,每年还会应公安部的应用要求及时增补。
答:字库实际上有两个部分,一是字形,就是我们看到字是怎么写的,二是编码,每个字符都对应一个编码。如果一个字库超过国标,那么多出的字符就是我们所说的自定义补字,而补字的编码是由补字的一方自己定义的,换句话说,对两个都有补字的字库来说,同一个编码位置所对应的字却不一样。实际上超过国标编码的字库,都是根据具体需求产生的定制字库,比如方正人口信息字库就是在2004年因公安部发行二代身证的需求,在整理全国派出所户籍、一代身份证等信息后,定制而成的专门解决人口信息中生僻字的字库。而所谓10万字的字库,一般是应古籍整理等方面的需求而产生的定制字库,方正跟中华书局也有类似的合作字库,但其并不能替代解决人口信息中的生僻字问题。
答:作为临时性措施,使用生僻字的编码是可以帮助通过联网验证,但其存在不能显示的问题。生僻字的应用包括是输入、显示和联网验证。搜狗拼音可以解决个别生僻字的输入和显示问题,使用生僻字编码通过验证可以临时应付生僻字的联网验证问题。但想要正常使用生僻字,应做到一套方案同时满足可输入、可显示、可验证和可打印,缺了哪一环节都不是正常使用字库的方式。同时,目前公开的一直两码也仅仅涉及与gbk编码相关的52个字符,与全部生僻字数量相差甚远。
答:人们一般把不认识的字理解为生僻字,而从字库编码标准上来讲生僻字指的是gbk编码之外的汉字。目前国家已经颁布的最大字库编码标准是gb18030-2005,有70650个汉字,gbk有21003个汉字,在gbk之外有49647个汉字统称为生僻字。gb18030-2005编码标准的字库能解决49647个“生僻字”。方正人口信息生僻字库比gb18030-2005标准多出来了4947个汉字,也会随着公安部的生僻字增补及时升级。因此,方正人口信息生僻字库才能完整解决人口信息生僻字问题。
答:搜狗拼音输入法可以输入的超出标准范围的生僻字是搜狗公司自己补的字,编码是自己定义的,当然和公安在用的人口信息字库的编码不同,因此验证无法通过。另外搜狗拼音也只补了最常见的个别生僻字,与人口信息字库中自定义生僻字数量相差甚远。
答:安装了人口信息生僻字库,也仅仅是具备了解决生僻字问题的基础,接下来还需要配套一系列凯发app官网登录的解决方案才能保证我们正常使用生僻字:由于人口信息生僻字库是在gb18030-2005标准基础上定制的。国标扩容后,二字节的位置都用尽了,再增加的字都采取了四字节编码,这样就要求,应用系统、数据库存储都需要支持utf-8,才能使得应用系统、数据库“认识”这些字。
1. 输入问题,由于人口信息生僻字库是专门定制的字库,市面上的输入法都无法支持从方正人口信息生僻字库中调用字符,这就需要配套专门输入法,方正人口信息生僻字库配套有专门的输入法。
2. 移动端、web端使用生僻字,由于人口信息生僻字库属于大字库,超过了40m,都下载安装会占用很大的存储空间和带宽。因此,方正字库专门开发了人口信息生僻云字库的技术方案,解决了移动端和web端的方便使用生僻字的问题。
3. 信创环境,由于信创环境的变化,原来很多在windows上的应用,都需重新开发并适配信创环境,方正已经开发适配信创环境的人口信息生僻字库和典码输入法。
4. 一字两码验证,由于历史原因,一些生僻字是先补了字,在人口信息生僻字库使用自定义编码(pua编码),国标扩容之后再赋予了标准码,这样某些字就在公安人口信息生僻字库中存在两个码,即一字两码。由于身份证发放时间有先后,在国标扩容之前发出的身份证芯片中保存的是pua编码,而在国标扩容之后同一个生僻字在芯片中保存的标准码。因此,对于某些一字两码生僻字的联网验证,就需要知道这个字的两个编码,一个不过,验另一个,以确保通过验证。方正字库会给用户提供完善的一字两码验证方案。
所以解决人口信息生僻字问题不仅仅是一个字库而是一整套方案。