应从工程学角度来认识汉字的字元结构体系

一

21世纪，大家最关注的已不是汉字从何处来，而是向何处去的问题。

汉字结构的分析，原本是语文教学的一块传统领地，现在却成了计算机课的入门知识。夺回这块领地是我们的神圣职责，也是本文的写作初衷。

汉字演变的脚步时快时慢却从未停止过，特别是当它必须适应信息技术(书写工具、文字载体)的发展时，汉字从来都进行了相应的变革。今天人类已经迈进信息社会的门槛，汉字作为一种信息载体，在技术应用中遇到了不少困难，最突出的是在汉字信息处理方面，已经到了非“主动”改革不可的地步。为了满足计算机的要求，这种改革是仅仅作字体上的创新，还是要进一步使方块形的平面文字线性化？抑或汉字根本就无需改变，需要改变的却是我们对汉字的认识角度。传统的汉字理论无法回答这个问题，根本满足不了现实的需要。

众所周知，汉字“隶变”以后，形体逐渐由图形化走向符号化，特别是大规模简化后，结构方面又出现了新的情况，已经很难用六书理论去解释了。尤为重要的是，六书理论无法从工程学的角度来深入研究现代汉字的内部结构体系，对于汉字今后规整化、信息化的发展趋势并没有明确的指导意义。

我们希望汉字保持长期的稳定，但是汉字总在发展，变化是绝对的，不变是相对的。从三千多年前的甲骨文进化到今天的楷书，汉字大多已经面目全非，图画性早已荡然无存，符号性逐渐得到增强，但是并没有发生过本质上的根本变化，字形仍是文字的根本。汉字怎样由它的成形线条构成部件，又怎样由部件构成数以万计的各不相同的形体，这就需要对字形的结构单位、结构层次、结构关系和结构模式进行分析。wWw.133229.Com许多学者为此进行了有益的探索并且作出了可喜的成绩，汉字的结构方式已经到了可以重新认识并作出科学概括的阶段。

二

我们可以把汉字当作一种纯粹的符号和工具，通过研究汉字的基础理论，把汉字改革和汉字处理两项工作结合起来，有利于促进汉字的规范化和标准化，有利于解决汉字在信息时代所面临的难题。笔者根据信息时代的需要，总结了前人的一些研究成果，找到了汉字的形符——字元，并且从工程学的角度来认识汉字内部存在着的字元结构体系，使得每个汉字的结构图形能够转换成一串有序的线性的字元集合。

事实上，汉字的形符是客观存在的，字元作为汉字的拼形字母，只是长期以来没有被人发觉。在这里，本文将首先对汉字的形符——字元作些简单的介绍。

字元由汉字“田”蜕变而来，即汉字“田”上各直线段在不同取舍情形下的各种组合单元，例如：一、丨、二、三、十、干、土、工、王、匚、凵、口、日、田(这里用形状相近的汉字描述)。

研究表明，字元按一定的规则可繁衍出一系列自相似层次嵌套结构，成千上万的汉字及其构件与这些结构相同或相近。

(1)一级衍生：字元上的正笔被某一字元取代，产生一级衍生字符。例如：

十→丰巾中申甘井工→正

王→里缶土→出击

(2)二级衍生：一级衍生字符上一阶字元的正笔被某一字元取代，产生二级衍生字符。例如：十→廾→册十→→串

依次类推，字元通过衍生可产生一系列衍生字符，笔者将字元(元形字符)及其衍生字符统称为字元字符。

下面根据汉字的实际情况对汉字构件与字元间的关系作些简单分析。

零件是指构成汉字的可离析的、最小的、独立的笔画组合单元。

零件可以按其字元特征分为如下2类：

(1)元形零件这类零件与字元形状相同或相近，同元异形零件可据此进行归类。例如：

二：二冫三：三彡氵干：干千

土：土士王：王壬日：日曰

(2)衍生零件这类零件与衍生字符相近，同元衍生零件具有相同的字元特征，可据此进行归类。例如：

干：午天开年十：丰中巾甘井串册

工：正西酉王：里五重

土：出击生日：目

据笔者初步统计，gb2310-80中6763个汉字中共有零件333种，其中元形零件93个，衍生零件240个(一、二、三级衍生零件分别为159、69、12个)，大都具有简单清晰的字元特征。

块件是指构成汉字的彼此分隔、相对独立的笔画结构块，它包括独个的零件和零件非线性组合块等汉字构件单元。本文将块件划分为如下两个大类：

(1)独体块件即独个的零件，例如：冫、三、氵、川、厂、尸、丁、甲、申、由、曲、串、年、于、出、工、正、月、刀、目、田。

(2)组合块件即若干零件的非线性组合块，指一个或多个小零件分布在一个大零件的域内或周边，共同构成一个独立的方块整体。

组合块件又可细分为四种类型：

ａ、包围型：同、周、凶、冈、区、围、囚

ｂ、夹附型：斗、半、寸、夹、求、玉、噩、平

ｃ、依附型：才、尺、木、未、末、本、飞、广

ｄ、混合型：国、勾、疾、病、困、米、柬、鬼

我们通常将下列构件当作一个整体单元来看待：钅、纟、鱼、革、羊、竹。这些构件可以称作块件组合，即若干块件呈上下或左右关系的组合单元，简称块组。

在信息时代，部件的规范是汉字规范的一个有机的组成部分，现代汉字部件规范化已经刻不容缓，制订规范已经成为大家共同的要求，具有广泛的社会基础。近几十年来，国内外汉字构件研究者对汉字字形进行分析后，获得的构件(部件、字根)数就有惊人的差异：105、128、160、166、177、205、250、255、256、297、300、320、344、370、496、500、504、512、588、686，等等。在gb2310-80中笔者找到的零件只有333种左右,为什么会有这么大的差异呢？原因是多方面的，其中一个重要的原因还是，在不同的选取准则下，有的不仅挑选了一些零件，还选取了组合块件，甚至块件组合，有的则是先硬性确定了一些“优选”构件，对其它构件进行了人为处理。本文给出了零件严格的定义，实现了零件的定性、定量和定序。因此按照首尾一贯、既科学又方便的原则来分解汉字，笔者认为选取零件作为汉字处理的基本构件比较合理。在此基础上，我们可以期望汉字的部件达成更为广泛的共识。

综上所述，本文比较深入地探讨了汉字的结构层次，给出了汉字各级构件明确的定义和分类，建立起零件、块件、块组等完整的构件系统，从而实现了各级构件确定和归类的系统性、客观性。对于汉字处理，笔者认为如果汉字客观存在着一套形符，有助于汉字构件的命名、称读和进一步规范，有助于汉字的研究和教学，有助于汉字的排序和检索，汉字的键盘输入也可以像打英文单词一样轻松自如。

三

汉字发展到今天，作很大改动的可能性已经很小，对个别构件按确定的标准作进一步规范还是必要的。现在常常提到“汉字的规范化和标准化”，我希望拙文能提供一点参考意见就知足了。我相信，汉字要改革的话，一定要走世界文字共同的字母方向。汉字要实现与国际接轨，要实现信息化甚至字母化，从工程学的角度来认识汉字的内部结构体系无疑是一条崭新的思路。笔者衷心希望汉字不仅可以借助汉语拼音符号，而且凭借自已的拼形符号，展开双翼，迎接信息时代的到来。笔者的这些尝试，希望能起到抛砖引玉的作用，同时盼望继续得到专家学者和社会各界的支持和理解。

注释：

①高家莺、范可育、费锦昌《现代汉字学》，高等教育出版社，1993年。

②张普《汉字部件分析的方法和理论》，(《语文研究》，1984年第1期。)