郑码输入法:170个组字能力强的形码输入方法

发布时间:   来源:CSDN  

我们经常使用拼音输入汉字等,对打字要求较高的会使用五笔输入,而很少听说过郑码输入法,虽然可能在平时生活中应用不是很广泛,但郑码输入法有严格的规范,在汉字编码字符集范围、词库容量、字词平均码长、动态字重码率及符合语言文字规范等方面都取得了突出的成绩。

“郑码”把汉字字典检索与计算机汉字输入统一了起来,使它们具有统一的编码和统一的排序,这与郑易里教授多年对字典的研究有关,也比较符合汉字的教学规律;郑码的编码方法对各种字符集有较强的适应性,它不但可以用来处理国标汉字字符集,也能用于处理港、台通用的字符集,还可以用于中、日、韩的汉字编码,1994年初郑码完成了电脑大汉字库6万个汉字输入技术的编码。


(相关资料图)

随着郑码的普及,它拥有了较多的用户,尤其在处理大字符集方面它具有较强的适应性,它的输入速度也比较快,是一种较好的形码输入方法。

微软的Windows 95中文版中就装有“郑码”输入法。它是一种形码,与常见的形码有许多相似之处:比如它也是从汉字的结构入手;也要将汉字分解成若干部件;也要按某种规律安排键位;也要建立某种汉字的拆分规则等等。

汉字由字根和笔画组成。汉字的字根有 560余个,为便于记忆,我们从诸多的字根中优选出 170个组字能力强的字根,按一定的方式用英文字母给它们命名代码,这些有代码的字根就成为《郑码》编码的基本字根,简称:基根。

《郑码》的基根 90 % 是大家熟悉的部首,如"土木工虫口日⺮鱼言(讠)女辶己马阝纟鸟页酉皮艮户母礻车衤身隹虍牙食"等,其余10 % 是约定俗成的部件,如"甘其甫不而非"等。

《郑码》的基根用26个英文字母命名代码,每一个字母形成一个根区。每个根区里都有几个基根,它们共用本根区的同一个英文字母作代码,这一代码就叫做基根的区码。

汉字的基本笔形有:横(一)、竖(丨)、撇(丿)、点(丶)、折(乛)  5 类,于是我们依据基根第一笔的笔形把170个基根分成"横起笔、竖起笔、撇起笔、点起笔和折起笔" 5大类,然后按照英文字母的自然顺序划分每一类的根区范围。

横起笔类基根 如: 一土王扌艹木石匸 占有 ABCDEFGH  8个根区。竖起笔类基根 如: 虫口日目,占有 IJKL  4个根区。撇起笔类基根 如: ⺮亻八金月鱼,占有 MNOPQR  6个根区。点起笔类基根如:言病之,占有STUVW 5个根区。折起笔类基根如:马 乡,占有XYZ 3个根区。

以下内容来自百度百科:

按使用功能将基本字根分为主根和副根,再按起笔笔形将主根和副根分为上述的五个大类(横起笔、竖起笔等)。主根的键位确定之后,副根按自身的笔形从属相应的主根。

而主根又被分为第一主根和第二主根两类,第一主根是组字能力最强的基根,共26个,如基根(第一主根)“一、土、王”的代码就是A、B、C等等,他们的代码就是一代表根区的英文字母作为代码;并不是每个根区都有第二主根的,在郑码的标准方案中,为每个第二主根又规定了一个位码D,这样第二主根就有两个字母作为代码,(叫做2码根,而相对来说第一主根就叫做1码根)。避免了诸多基根共用一个根区代码而造成重码率高的现象,例如基根(第二主根)“二”的代码就是BD,基根“三”的代码就是CD等。第一主根和第二主根共同提供了本区字根的笔形特征。

副根中大多数都是大家熟悉的规范的部首。在标准型中也为每个副根规定了一个位码,这样副根也是2码根。例如副根“丁”的代码是AI,“气”的代码是MY,“穴”的代码是WO等。

副根的第一个代码是区码,第二个代码(位码)的确定共有四种情况,分别按如下规则执行:

按副根构形中含有的主根成分确定,例如前述的“穴”中含有O区主根“八”的成分,因此他的位码为O,这是副根位码确定的主要方式。

按副根构形中还有的笔画成分确定,如前述的“丁”中含有一笔竖钩,因此位码定为代表一笔竖的区码I。

按副根构形中含有的其他副根成分确定,如“示”的构形中含有K区副根“小”的成分因此位码定为K,整个菜码为BK。几个特殊副根的位码需要强行记忆,如“山LL”、“匕RR”和“已YY”。

基根采用了双符代码后可以及大地减少重码,而且基根代码的排序非常有规律,使郑码具备了字典的查字码功能,为识字教学与计算机输入的结合创造了条件。

取码方法:

单字首根(即第一个基根)的代码要按照实际码数取,不能有所省略。就是说,首根是1码根就取1码;首根是2码根就取2码(区码和位码都要取)。

为保证单字编码不超过4个字母,首根之后的其余基根代码要根据不同情况决定取舍。一般是先舍位码,只取区码的1码。

例如:樱--木F贝LO贝LO女ZM--FLLZ

醒--酉FD曰K生MC--FDKM

但是,对于四基根和多基根字,还要将中间一些基根的代码全部舍弃,只取前两码和最末2个基根各1码。就是说,取两头舍中间。

例如:缩--纟Z宀WD(亻)一A白NK--ZWAN

糖--米UF(广)肀XB口J--UFXJ

词语取码方式

为使词语的代码不超过 4 个字母,编码时要根据词语中单字数的多少决定基根代码的取舍。

给词语编码时,只需取用基根的区码。

二字词

取每个字的首根和次根的区码各1码, 表述为:2 - 2

举例:数量 ---- 米/U 女/Z 曰/K 一/A ---- UZKA

第一主根作为单字参与构词,在需取 2 码时要在其代码后加“A”(与作为单字用的规则一致)。高频字参与构词时,要在其代码后加“V”。

举例:土地 ---- 土/B 地/B ---- BABV

三字词

取第一字首根的1码,取第二字首根和次根各1码;取第三字首根1码组成,表述为:1 - 2 - 1。

举例:科技馆 ---- 禾/M 扌/D 十/E 饣/O ---- MDEO

四字词和多字词

取前四字的首根各1码组成,表述为:1 - 1 - 1 - 1

举例:

轻描淡写 ---- 车/H 扌/D 氵/V 冖/W ---- HDVW

出污泥而不染--- 凵/Z 氵/V 氵/V 而/G (不 氵) --- ZVVG

简码的取码方式,对一些常用字或词,按一定的规则,取其常规码中的 1-3 个字符作为简略编码,称为简码。简码对专职操作员提高输入速度大有好处,非专职操作员不必特别去记忆。

一级简码:对应于 26 个高频字。

二级简码用该字首根和次根各 1 码组成。

举例:

把 -- DY 找 -- DH 管 -- MW

需 -- FG 取 -- CX

个别常用词也有二级简码,就是取每字第一个基根的区码。

举例:

中国--JJ 国家--JW 一定--AW 我们--MN 政府--AT 开展--AX

北京--TS 上海--IV 天津--AV 合作--ON 各种--RM 采取--PC

三级简码

二基根字:取第一个基根的区码和第二个基根的区位码,如:处 -- RID。

三基根和多基根字:依次取第一、第二和第三个基根的区码,如:散 -- EQM。

相关文章Related

返回栏目>>