《现代汉语词典》词汇计量研究系列论文——

现代汉字的范围及其属性标注

(刊《汉字文化》2001年第2期)

 

苏新春  廖新玲

厦门大学  

 

       “现代汉字”作为一个学科术语其内涵已经确定,以它为研究对象的“现代汉字学”已经建立,但“现代汉字”的范围有多大,包括多少汉字?哪些汉字?却处在若隐若现、似有若无之中。1988325日国家语委、新闻出版署公布了“现代汉语通用字表”,共有7000字,其中包括一级常用字2500,二级次常用字1000,剩下的3500字可以称之为三级字。7000通用字作为国家标准颁发,称之为现代汉字大概是可以的,这就是说“似有”的原因。但又说它“若无”,是因为没有一部现代汉语的字典词典是按照这个范围的汉字来编写的,即使是称之为“现代汉语的”、“规范的”、“标准的”、“权威的”字词典也是如此。下面就来详细看看几部字词典的收字情况:

       《新华字典》(商务印书馆,1998年版),《修订说明》:“修订后的字典计收单字(包括繁体字、异体字)10000余个”。

       《中华字典》(中华书局,1999年版),《凡例》:“以……《现代汉语通用字表》为主体,适当补充若干经过选择的在现代汉语中仍有实用价值的字。”

       《现代汉语规范字典》(语文出版社,1998年版),《凡例》:“收录《现代汉语通用字表》全部7000个通用字和一部分现代汉语中能见到而又不十分生僻的字。为了便于读者查考,在正编外酌收一部分生僻字作为备查字。正编及备查字共收单字10000个。”

       这三部书的性质和规模都差不多,它们大体上都是“以收录现代汉语通用字为主要内容”(《规范字典》),“主要供中小学教师和学生使用,中等文化程度以上的读者也可参考”(《新华字典》)。但它们的收字都在1万上下,比7000通用字多出3千。现在问题在于,究竟是通用字的范围定得小了点,既然中小型字典收的都是1万字,为什么不就把那3千字放入通用字呢?还是这些字词典名不符实,贪多求大,多收了约三分之一的非现代汉字?当然,字词典有一个查考的功能,但如果真正是“在现代汉语中仍有实用价值的字”,那现代汉语通用字就不应将它们排斥,而应将其纳入其中,再分出个四级或五级;如果这些汉字只是专业人士,读专业书籍才用得上,那就不应该在如此性质与规模的字词典中收录。正是由于这一矛盾未能解决好,才使得“现代汉字”一直处于一种朦朦胧胧的状态,才使得作为国家标准的“现代汉语通用字”难以落到实处,才使得现代规范字典在收字上各行其是,没有明确的标准。

       造成这一困惑的关键在于对超出7000通用字到1万字这个范围的汉字该如何看待。对它们的看法直接关系到对“现代汉字”的认定。现有对这部分汉字的说法五花八门,有“难僻字”、“古字”、“文言字”、“书面语的文言字”不等。这些说法看似明确,实则含混;单看清楚,横向比较则参差不齐。下面就以《现代汉语词典》(下面简称《现汉》)的收字情况来作一深入些的分析,因为《现汉》的主旨就是反映“现代汉语”的词汇,“为推广普通话、促进汉语规范化服务的”,它的收字收词应该更符合现代汉语的规范性要求。为了更好地说明问题,文章还将前后隔了13年的《现汉》第二版与第三版作了一些对比。

       1983年的第二版《现汉》收词56000余条。经笔者统计单字条目为10540条,除了一字多条的情况,如“克1”“克2”“克3”“克4”,使用的单字是8600个。其中有1467个汉字出现了一字多条的情况,出现最多的是“角”与“和”,分别出现了8次。8600个汉字比7000通用字多出了1600个,因为通用字表出现得晚,其中有几个列入通用字表的字不见于《现汉》(二版),但这只是个别现象。那么《现汉》(二版)对那些在7000通用字以外的汉字是如何认识的呢?

       《现汉》(二版)“凡例”的说明是这样:“一般条目中,标[]的表示口语,标[]的表示方言,标[]的表示书面上的文言词语,标[]的表示古代的用法。[][][]等标记适用于整个条目各个义项的,标在第一义项之前;只适用于个别义项的,标在有关义项数码之后。……有些单字条目,在释义前加⊕,表示是现代不常用的字。”《现汉》(二版)的标注在8600个单字身上有这样几组数据值得注意:

       1,标了[]的方言词487个,其中整字为方言义的271个,某个义项属方言义的216个。譬如:“[]小河(多用于地名):张华~(在上海)。”“柴火:木~丨~草。· []干瘦;不松软。¸姓。”487个方言单音词中有286个在7000通用字之中,不在其中的是201个。

       2,标了[]的书面语文言词语有1671个,其中整字为文言义的1289个,某个义项属文言义的382个。如:“【霭】[]云气:烟~丨暮~。”【秉】〈书〉拿着;握着:~|~烛。·[]掌握;主持:~政。¸古代容量单位,合十六斛。Í姓。”1671个文言词语中有1215个在7000现代汉语通用字的范围,不在其中的是456个。

       3,标了“”的不常用字(即难僻字)有852个,如:“】⊕振作;兴起。”其中160个在7000通用字的范围之中。

把上述数据用表格反映是这样:

 

 

 

 

 

类属

数量

7000通用字内

7000通用字以外

整字

部分义

1

方言字

487

286

201

271

216

2

文言字

1671

1215

456

1289

382

3

难僻字

852

160

692

852

0

要提出说明的一点是:上面的12两类是从汉字的表义来说的。有的是单字本身就是方言字、文言字,如“浜”“俺”“煲”“趵”“甭”“凼”。有的则单字是常用字,但其中的某个义是方言义或文言义,如:“分离:告~丨临~丨久~重逢。·另外:~人丨~有用心。¸ []转动;转变:好把头~了过去。”因此,整个字义都属于方言义或文言义这样的单字,对我们认识现代汉语通用字的性质与规模更有帮助。而第三类难僻字则完全是从汉字本身的使用情况来分析的,这是纯粹的文字问题,它的出现正好是与通用字形成互相对立的两面。

上面的调查数据会使人们生出这样的疑问:

首先,第二组数字表明文言用字中属于现代汉语通用字的占三分之二,在其外的占三分之一,具体数字是1215456,那么这两类文言用字之间有无区别?而且456个只占7000通用字以外1560中的一小部分,对那剩下的既非通用汉字,又非文言用字的1104个汉字该如何认识?

其次,第三组数字中位于通用字范围内的160个难僻字与不属于通用字的692个难僻字有无区别?

再次,把全书通用字以上的1600个减去不属于通用字的456个文言字、692个难僻字,仍有452个。这是三不属(既不属于文言字、难僻字,也不属于通用字)的汉字。对它们该如何认识?看来这是汉字属性标注中留下的一个空白地带。

这些有待解决的疑问本身,显示《现汉》(二版)在对汉字属性的标注上还没有做到逻辑清晰、分布清晰。虽然[][]是从字词来源来说的,“⊕”是从常用与否来说的,两个角度互不相同;也虽然从标注情况来看,[]与“⊕”是有所分工的,标了[]的就没有“⊕”,标了“⊕”的也就没有标[],二者不同现,但标注的结果显示各类之间出现了很大的一块交叉,还留出很大的一块空缺。本来标“⊕”的难僻字与7000通用字的考虑角度比较一致,是希望补其不足,可惜判断的结果却相去较大,因为160个标了“⊕”的难僻字出现在7000通用字范围之内了。当然《现汉》(二版)在前,通用字表在后,二者不一致是难免的,但排除掉这点仍不能说它在理论上对此的认识是清晰的。

    《现汉》(二版)其实是发现了这种标注含混情况的,它在96年出版的第三版中就干脆取消了对难僻字的“⊕”标注,而大都上以[]的标注来代替。如那些处在7000常用字范围以内的作了“⊕”标注的160个难僻字,就有145个改标了[]。如:

    【诐】“⊕辩论。·不正。”(第二版)——“[] 辩论。·不正:~辞(邪僻的言论)。”(第三版)

    【晡】“⊕申时,即午后三时至五时。”(第二版)——“[]申时,即午后三点钟到五点钟的时间。”(第三版)

    【犨】“⊕牛喘息声。·突出。”(第二版)——“[] 牛喘息的声音。·突出。”(第三版)

可是以[]代“⊕”又带来另一个问题,就是造成了[]的范围扩大。象83年版有1671个单字标了[],其中属于通用字的有1215个,分属一、二、三级常用字的分别是177106932。由此可见,[]大量存在于通用字中,把本来标了“⊕”的难僻字再并入其中,只会使通用度很低的难僻字变得无从辨识,使[]类字变得庞杂不清。

《现汉》对汉字属性标注的这种尴尬情况是比较有代表性的。现代的字词典中,不对字词进行时代标注、来源地标注的很少,但作了标注的又大都源于主观判断,使得标注的结果难以做到逻辑一致,也使得各书的标注互异。譬如,《现汉》收了的“螾”“禖”不在通用字表之内,既没标[],也没标“⊕”,而在《现代汉语规范字典》中“螾”列于正编,“禖”列于备查。《现汉》中的“卬”和“枊”都是标了“⊕”的难僻字,可前者在《现代汉语规范字典》中列于正编,后者列于备查。这都说明人们对许多汉字是否属于现代汉字,或位于一种什么时代的性质,认识还相当蒙胧。

在收录对象上也是这样,7000通用字已成为现代汉语普及性规范性的中小型字词典收录的基本内容,但对超出其外的那部分汉字各个字词典的收录有很大的差异。如“螾”“禖”“枊”就不见于《中华字典》与《新华字典》,“卬”不见于《新华字典》。《现汉》作为一部词典,它的收字量并不小,特别是在收录难僻字上表现出了相当大的勇气。它所收录的汉字有100多个字在现在通行的windowsGBK大字库或“字符映射表”中都找不到,如左右结构的“(人匡)”、“(口比)”、“(氵虢)”、“(手寨)”,上下结构的“(日丝)”“(竹废)”。而这样的电脑字库收字多达2万个。《现汉》的前后版本之间对收字表现出了很强的承继性。83年版中除少数字成为异体字与多音多义字的分合外,被删除的只是极个别(如“圕”“(巾穴登)”),绝大部分都由96年版所继承。96年版的收字达8798个,新增的198个汉字,除少数几个是新造字、方言字、异体字、新规范字外,如“唛”“濠”“肏”“跤”“臿”“啰”,大多就是现代生活中极少能用到的难字僻字,如“柃”“桵”“箄”“顣”“骉”“螲”“柂”“鼪”“藟”“咡”“媠”“栭”“飜”“馞”“荈”“睋”“蔀”“蔊”“瓝”“遌”“弝”“馝”“骳”“鬙”“鰇”“芘”“煐”。这种现象显示96年版《现汉》反映“现代汉语”的功能有所减弱,而服务于读古书、专业书的“查考”功能却得到了加强。

       鉴于以上情况,本文提出两种选择性的意见:第一,既然是服务于现代汉语规范的中小型字词典,收录的就应该是现代汉字,即7000通用字。使现代汉语性质的中小型字词典真正做到为人们大众服务,为汉语的现代化、规范化服务。也使我国的字典词典编纂真正做到科学化,避免辞书编纂中古今不分,俗雅不分,专博不分的毛病。

       第二,要就是扩大现代汉语通用字表的范围,将扩大了的字再按照使用频率或使用度的高低分出不同级别。提出这个设想不是没有依据,就是现在没有一部有影响的字词典是严格按照现代汉语通用字表来编纂,这说明7000字还不够用。既然如此,不如就此扩大通用字表的规模。这项工作在现代有大规模语料库的情况下不难做到。为信息处理用的字库,20902个字库也好,中日韩大字库也好,不妨大些。而为人服务的汉字还是要有一定限度的,这个限度就应该在大规模语料统计的基础上,根据汉字的使用频率、使用度、分布率来分列等级。那时,编纂字词典时就可以直接根据通用字的等级来收字,标出其等级数,而取代那些主观色彩浓,难以操作的“[][][][]”标注。规模愈小,愈是针对初中级文化教育水平,符合语文现代化、通俗化要求的字词典,所收的通用字等级应该愈低,反之就扩大通用字的等级。这样将使字词典编纂的科学性得到保证,将使教育、出版、新闻等社会文化工作大受其益。如现在提出的小学生掌握一级常用字,初中生掌握二级常用字,就是一个很好的作法。遵此原则编就的对外汉语教材,也将在汉字和汉语基本词语的掌握上做到更有规范性和可操作性。

 

作者:苏新春,厦门大学中文系教授。

      廖新玲,厦门大学中文系98级研究生

通讯地址:福建省厦门大学中文系

邮编:361005

Email:suxch@jingxian.xmu.edu.cn