从词汇的地域变异看词汇语意的描述
谭慧敏
第三届中文词汇语意学研讨会论文
2002年5月1-3日,台湾中研院
不管是采用哪一套方法,词汇语义的提取和语义知识的完善表达最终得靠大量语料来验证。现有的语义工程大多根据单一地区的语料库,如MARVS使用的中研院平衡语料库是纯粹的台湾地区语料。北大CCD依据的主要是中国人民日报的语料。语料库建设不易,有特定地区系统化的语料库作为语义研究的基础是难得的,尤其是汉语词汇语义的提取还处于起始阶段,有必要以单一的语料库奠定基础。然而从实用标准出发,信息处理在本质上应有国际化的特性,在资讯科技迅速模糊地理疆域的时代,任何一个词汇语义系统最终必须面对不同来源的文本。在处理来源不一的同语种文本时,必然需要面对这个语种的词汇在地域上的变异。这样的变异不妨碍整体上核心概念或属性价值的提取,但是下一层的描写和具体的操作就另当别论。在建构语义系统时,这方面的考虑因素对于系统的通用性、兼容性和扩展性有一定程度的影响。此外,资讯流通的便捷也使词汇变异的情况更轻易加速传布,语义知识的动态更新也应该是今后的关注点之一。
本文对这个问题的思考是因教学的需要,试用机器翻译网站译出例句以及从线上语料库进行检索后引起的。
(1)我老公才不会走私呢!
www.netat.net: My husband will not smuggle.
“走私”一词,《国语日报辞典》和《汉语大词典》等的解释一致,指不承担纳税责任或不依管制,非法运输货物的行为。 孤立来看,这个机译句子是不错的。几个来自中国大陆念文学或语言学的研究生也都这么认为。殊不知香港、台湾的语料中有更多的用法。如:“感情走私、在婚姻中走私感情的男男女女、人蛇走私集团”
-除了物,人和感情也在搭配范围,而感情走私含有不忠、有外遇之意,和人、货的走私不同,不一定构成犯罪行为。在计算中,这些用法应该列为同一个义位吗?无论上下文有没有“不忠”、“感情”、“爱情”、“婚姻”、“专一”等词语,目前根据特定区域词典设计的机译软件对“走私”都只能处理为“smuggle”。
(2): a. 有线电视的装机率成长六成
b. 台湾使用电力以年增率平均百分之八成长
c. 从百分之五上升到超过百分之十,成长了一倍
d. 每股税前盈余为七点九元,较去年同期成长百分之八十一
e. 利用企业改造使公司稳定发展并保持成长
f. (亚太地区)和北美、西欧并称为世界的三大成长中心
笔者拿这些例子去问几个来自中国大陆念文学或语言学的研究生,他们的反应是“这是不是用错了“成长”这个词?“。他们都认为改作“增长”比较正确。词汇的地域变异无关对和错的分辨。但是如果不了解,就会造成困扰。“成长”在台湾确实是这么用的。《重编国语辞典》修订本光碟第三版注明:
【成长】:长成、长大;生长 〖相似词〗:发展、生长
【经济成长】:通常系指该国实际国民生产毛额或每人实际生产毛额的
增加。
其实如果仔细翻查《现代汉语词典》(简称《现汉》),就会发现这是方言的用法。
《现汉》修订本:1. 生长而成熟;长成。 2. 向成熟的阶段发展; 3. 「方」发
展;增长。
进一步说,语义弄清楚了,编入机用词典了,那在处理当地文本时是否就没问题了呢?试以“抓”为例。我们注意到中国大陆常用动词“抓”有一些用法是其他汉语地区比较少见的。参照《现汉》中的词条及其义项的知网双语知识库对“抓”就提了三种英文对应:pay special attention, catch, manage。中国开发的机译软件对“抓”在当地的一般用法,大致都以上述三种对应为准。且不管其他机译上的问题,单就词汇来说,结果还是不能令人满意。请看例句:
(3)各级公安机关还狠抓了监督管理。
The public
security organs at all levels still take charge of the management of
supervising severely.
(4)这项工作抓出了好效果,抓出了新局面。
The job pay special attention to
and happen kind result , pay special attention to and publish new
situation.
(5)我们以市场眼光办体育,抓选才,抓教练。
We run
sports with the eyes of market, catch and select it just , catch
a coach.
如果没有了区域语义的区分,大概上述3例都会机译成“catch”。但是照顾到区域语义后,例(3) 和例(4)的“抓”其实意思相同,由于句子构造不同,译出来的结果却差了,而且例(3)应该说是把“抓”译错了。在另一方面,例(5)“抓+N”
也可以构成诸如“ 抓贼”之例,这个“抓”就是catch,和引例中的“抓”语义有别,但是表面句法结构一致。 这对我们有什么启示呢?从知网的角度来说,那就得从前后词汇的语义定义中去推导“抓”有没有catch的意思[1]。从MARVS来说,除了语义分类以外,还照顾到表层的语法结构及分布概率等因素。词汇语义的定义中应该有怎样的讯息,描写要多精细,目前还难下定论,海峡两岸的两套语义系统各执一端,为进一步研究指导了两种思路。然而无论是哪一套想法,区域用法的变化如果没有合理的照顾,那有关的结构分布或语义定义难免有更大的疏漏。我们希望在这个大框架里适当地重视词汇语义的地域变异。
信息处理怎样都会有局限,如果可以尽量完善,那其中一个部分就是语义知识的描写。以上简单的讨论说明在信息处理当中,地域语义的区分是重要的。
在新时代的冲击下,许多词语的意义和使用都起了变化,如“割肉”就用来比喻股价下跌而忍痛抛出,“烧香”喻指行贿,“下海”成了中性词,指改变职业去经商。以上都是词语在同一个地区的时代变异。汉语地区面积大分布广,各个地区因应自身环境的沟通需要,也构成了缤纷多彩的词汇脸谱。词汇的地域变异情况极为复杂,试述其梗概如下。
一 同形异实
1
范围扩大
这部分的词汇,所指的核心内容没有改变,词义内涵没有变化,但是适用范围扩大了,如:“老板”从称呼企业拥有人扩大到称呼各种单位的一把手、“包装”从商品的包裹到人的妆扮和形象上的装饰。这样的用法已经从港台流传到新马以及中国。前文提到的“走私”一词,目前在中国已经发现用例。信息传播速度之疾固然令信息处理中词汇语义的规范和更新工作更为繁复,新时代新观念冲击下的语言使用令众多意想不到的搭配产生了,如“夹心阶层”、“强奸民意”、“坐移民监”、“娱乐观众”之类,更使信息处理的工作更为艰巨。
2
增添义项
除了普通词典所记载的一般义项,同一个词在不同汉语区可能增添新的义项。如:
广场:面积广阔的露天场地(基本义)
封闭的广阔场地,实际上是购物中心或大商场 (新增)
商场:聚集一个地方,由各种商店组成的市场 (基本义)
商业界 (新增)
曝光:比喻隐秘的事(多指不光彩的事)显露出来,被众人知道。(基本义)
身体的敏感部位无意暴露了。(新增)
品味:a. 尝试滋味;b. 仔细体会;c. 物品的品质和风格 (基本义)
审美观 (新增)
单位:计量标准(基本义)
机关团体或其所隶属的分支机构
(中国专用)
指楼房的单元 (香港专用)
此外,有些地区会保留某些词旧有的意义,如:
设计:在正式做某项工作之前,根据一定的目的要求,预先制订方法、图样
等。(基本义)
谋划(台湾)
从历史词义来说,“设计” 最迟在《 三国演义》的著书时代已经有“ 谋划”之义了,台湾沿用这个义项,严格说来并没有新增义项,但是对其他汉语区来说,“设计”在台湾的用法比较陌生。反过来说,“书记”在中国享有很高的政治地位,但其他汉语区仍然保留“书记”旧有的意义,即办理文书缮写工作的人,属于初级员工。“书记”在中国的基本义是后起的。
另外,香港方面则常有一些幽默诙谐的词汇别解现象,如把“走资派”用于比喻把资金撤走,并转移到国外的人;“太空人”则泛指经常乘搭飞机的人,专指因担心1997回归而移民海外者,不断在移民目的国与香港之间来回往返,飞来飞去的人。
3 词义变化
同一个词在不同汉语区的词义也可能出现转移或变化,如“健儿”在中国通用于男女运动员而在台湾则通常指男性运动员。又如在新加坡的中文词汇里,“大字报”是放高利贷者的“讨债公告”而非政治批斗文字;“劳改”则是指对违纪者进行劳动惩罚而非通过劳动进行政治思想的重新教育。
有时,词义上的转移也涉及色彩上的变化,如:
死党
:尽死力效忠于同党和其首领的分子(含贬义)--中国大陆的用法
好朋友(香港、台湾、新加坡,不含贬义)
太保:在近代汉语中是绿林好汉的尊称。
香港用作流氓的另一称谓,含贬义。
假如把方言的影响也考虑在内,港台的同形异实词就更多了。
二 形异实同
1
外来词的汉化处理
中港澳台新马等汉语地区在处理外来词语方面,不论是科技术语、人名或地名,音译还是意译,都存在差异。如:
Net-网络、网路 Digital-数码、数位
Interface-接口、界面 Laser-镭射、激光
Space Shuttle-航天飞机、太空梭
人名、地名的汉化存在选字和音节上的差异,也存在音译和意译的不同考虑,如:
达芬奇-达文西
爱迪生-艾迪生
Costa Rica-哥斯达黎加、象牙海岸
Edcuador-厄尔瓜多、厄瓜多
一般说来,大陆音译时喜欢选用的 “爱”“瓦”“恩”在台湾则用“艾”“华”“安”。
其他词语的翻译则受到社会观念、制度、其他外语的不同程度影响而有差别,如:
Feminist-女性主义、女权主义
Instant noddle- 即食面、方便面、速食面
Surgical room-手术室、开刀房
Peak Hours-高峰时期、繁忙时间
Diet-减肥、瘦身(日语词)
一些流行词语倒比较一致,如cool(酷)、call in (扣应节目)等。
2 缩略
基本上,在名词的缩略方面,一致性比较高。台湾在动词和形容词的缩略方面则比较特殊,如 “声请”(声明请求)、“票决”(投票解决)、“推估”(推测估计/推论评估)、“僵固”(僵化顽固)、“柔亮”(柔和亮丽)、“长考”(长时间考虑)等。
三 自创新词
1
用民族语构成
i 旧词新义
前文同形异实词的增添义项部分基本上是多义关系,而这个部分是同形同音关系。如:
感光:照相胶片或相纸等受光的照射而起的化学变化。 (一般意义)
交流、交融 (台湾)
来电:停电后,电流供应得到恢复。 (一般意义)
情感上的交会 (港、台、新)
ii新造
每个地区都有其特定的历史发展背景、社会文化、经济、政治制度与发展现象、不同程度的语言交流影响,这些因素都促成富有地区色彩的词汇的产生。这当中比较有生命力的会扩散到其他地区。聊备数例如下:
台湾
扁、盖、幸子、哇噻、不错吃、劲爆、飙车、布袋戏、劳保、人肉市场、美眉(妹妹)
香港
猛、人蛇、超班、赛事、村屋、公仔、物业、博彩、立例、通识教育、发烧友
新加坡
组屋、大牌(第几座之意)、罗惹(食品,由几种材料加酱料拌均而成。有比喻用法)、公积金、怕输、乐龄、热卖会、义款、集选区、拥车证
iii
类推造词
这是指利用某个构词素,造出一族的词语,例如:
从“的士”造出:“面的、轿的、马的”各种类型的的士
从“价格”造出:启动价、起板价、探底价、成本价、让利价、热销价、倒贴价、优惠价、奉献价、牺牲价、跳楼价、黄牛价、绝版价
近年来,类推造词的现象相当普遍,形成大量的类词缀,如:~感(动感、无力感、失落感)、~族(上班族、哈韩族)、~化(数据化、国有化)、~货(大路货、清水货)、~人(写作人、音乐人)、超~(超人气、超强)、反~(反恐、反贪污)、软~(软科学、软饮料)等等。
2
用外语构成
这包括英文字母与汉字相结合者、直接引用及利用外语词尾构词,如日语或外语音译的词尾。例如:
K书、e见钟情、WAP手机、人气、大放送、~屋(发型屋、饼屋)、~秀(脱口秀、卡秀)
4
词汇的地域变异与计算语义
词汇的地域变异有种种情况,有些不一定造成计算语义上的障碍,有些可以得到合理的解决,而有些也许解决不了。这里简单的谈几个问题。
要确保计算语义描写比较符合语言使用的情况,有必要使用语料库的方法,同时参照规范词典的释义。但是这里边也有一些问题需要照顾。如:
(6)问题是陈先生根本不知道有人在设计他。 (台湾语料)
www.worldlingo.com: the question is Mr. Chen
simply does not know some people are designing him.
《重编国语辞典》修订本光碟第三版对“设计”的解释是:谋划算计。查阅《汉语大词典》卷十一,有“设下计谋”的义项。可是规范标准的《现汉》无此义项。旧有词义在不同地区得到保留时,只参照一种词典或会导致信息处理上的一些失误。进一步说,上文提到的“抓”在中国的用法,实际上也可以在中研院平衡语料库中检索得到:“正确贯彻毛主席提出的“一手抓钢铁、一手抓农业“的方针。”可是台湾字典鲜有相关的释义条目。在另一方面,利用网上开放的语料库,准确性会受到影响,一来是量的问题,二是更新的问题。如在中研院平衡语料库线上检索包含“设计”的例句共得2000条,只有2条的用法是“算计”的意思,显然与当前实际情况不符。
根据规范标准提取词汇语义是比较实在的做法。但是地域词汇的变异往往缺乏可以依据的标准。如:
(7) :他是个老练圆滑的人。 (台湾语料)
www.netat.net:
He is a seasoned and slick and sly person.
我们首先注意到例句里圆滑和老练并列,而“老练”是中性的。中国研发的netat翻译网站根据中国的标准把“圆滑”当贬义词处理,译作slick and sly。符合《现汉》中的解释:“形容人只顾各方面敷衍讨好,不负责任”但是不能解释例句中的词语搭配。象在知网里,“圆滑”就描述为:属性值,举止,狡,莠。定义中的“莠”属于色彩的说明,有时不利于区域变异的处理。查《重编国语辞典》有两条解释:1.
浑圆溜滑。 2. 做事或言谈面面周到,不得罪别人。显然不含贬义,是中性词语。由于所检索的线上语料也显示两种色彩的用例,为进一步求证,笔者发了电邮给几位台湾学者,问他们认为“圆滑”在台湾的用法是贬义词还是中性词,他们的反应也两极分化。
类似例子还有“侧目“。
(8):a. 大量运用原始色系,并排除繁复花俏的设计,原野气息浓厚,造型酷得引人
侧目。
b.(洪素丽)以独特细腻的笔调,专写日常私人兴发感动,引人侧目。
c. 拍摄时由于光线不足,不易引人注意侧目,比较不会不好意思。
d. 守夜人见到我们这奇异的一群,不禁侧目… (中研院平衡语料库)
e. 中共金融系统的权威报纸,昨天在头版头条点名批判了与北京高层关系良好
香港富商黄鸿年,并对他在大陆颇受好评的“中策现象”,提出指责,此一
情况的后续发展,十分令人侧目。 (香港城市大学LIVAC)
《重编国语辞典》修订本光碟第三版:
【侧目】:斜眼看人,不以正眼看人。有敬畏、戒惧、怒恨、愤怒等不
同的含意。
【引人侧目】:引来他人斜视的目光。常指不好的事情。
【侧目而视】:斜眼看人。形容敬畏或鄙视。
港台的一些用例显然和词典的释义有别。语料库的建设涉及语料的准确性和代表性的问题,需要有一定的规范指导。如果相当一部分的语料和词典释义发生冲突,就会为词汇语义的提取带来矛盾。
前文没有提到词汇的地域变异也存在同素异序现象,如:
(9) a. 出席深圳口岸改革会议李岚清促提高人员质素。
b. 据大陆学者分析,一般农村的地主,因为家中经济条件相对优越,受的教育
较多,文化水平和个人质素都较高。 (LIVAC)
c. …可追溯到希腊以人性的自发、及其诸多质素的调和为文明发展的标的。
d. 其中蕴藏极多与后现代各种主张雷同的质素。(中研院平衡语料库)
“质素”-《现汉》和《重编国语辞典》修订本光碟第三版都不收,但是现实情况是在香港随处可见,LIVAC线上语料(95年年中-96年年中)检索显示:“质素”在港澳的使用频率高达94%;在北京和上海则为0%。我们在台湾语料库也找到一些用例。中国主要是用“素质”,然而,查《汉语大词典》就发现:1.
谓其本色素朴。 2. 素质,固有的品质或性质。这说明词汇语义的提取需要多管齐下。
在知网的构想下,地域词汇可以通过建构不同的地域词典来解决问题。可是我们发现少数交错使用的例子,增加判别上的困难,如:
(10)管道和渠道
港台用法:
【管道】:1. 用金属或其他材料制成的管子,用来输送或排除流体。
2. 相互交流的途径。
【渠道】:人工挖凿出来的水道,主要用来引水排灌。
中国大陆:
【管道】:用金属或其他材料制成的管子,用来输送或排除流体。
【渠道】:1.
人工挖凿出来的水道,主要用来引水排灌。
2. 途径;门路。
Huang, Chen & Gao(1998)给出公式利用量词计算名词的类别。这也有地域变异上的意义,因为量-名搭配有地域上的差别。上海和北京就已经有差别。以下举“份”在台湾比较不一般的用法。
(11):a. 在这个地方,胡适先生似乎享有着一份特殊的地位。
b. 也因历史的承传所须,在时空中尽一份属于某段时空中人的历史任
务。
c. 兼有前期的浪漫与清新的色彩,那份最为人称道的抒情风格。
d. 终究,他们不是骨肉,没有那一份与生俱来的、血肉相连的感应。
(中研院平衡语料库)
至于缩略的情况,也难有统一的公式处理各汉语区的缩略语,如:
|
全称\地区 |
台湾 |
中国 |
新加坡 |
|
现实状况 |
现况 |
现状 |
现况、现状 |
|
彩色电视 |
彩视 |
彩电 |
彩电 |
|
地震中央 |
震央 |
震中 |
震央 |
|
嫌疑犯 |
嫌犯 |
- |
疑犯 |
词汇的地域变异没有统一规范的问题。但是信息处理系统最终必须面对各种变异情况的考验。建立不同的地区信息词典只能解决一部分的文本问题。准确、不断更新的地区语料库和跨地区语料库是进一步研究的重要基础。
5
词汇的地域变异与语义知识的表达
地域词汇的变异尽管纷繁,语义知识的表达原则却是可以确立的。汉语语义知识系统目前只有少数几个。应用发展方面还待开展。词汇语义的描写应该有多精细,目前还没有答案。笔者对知网比较熟悉,就此略作讨论。Gan & Tham (1999) 曾利用中国董振东先生建立的知网来标注取自台湾中央院语料库的语料(一般性内容),发现地域概念的增补并不困难,毕竟地域词汇的变异还是在人类知识的有限范围之内的。这也说明知网的义原还是可靠的。我们可以通过这篇文章里所引的对人工标注误判例子的纠正看到知网的语义概念有其精细之处,如:
例句:上次扫黑行动中的漏网之鱼
概念“上”误判为时间观念(属性值,时间,近,昔,),实际上是指序列中的一点,应定义为:“属性值,次序,前,“。
例句:将两百万元现款交到位於桃园县芦竹乡…八十六巷内一部废弃小
货车内。
概念“将”误判为{content};正确定义:{possession} –可以通过“交”的概念检查出来。“交”属于变领属关系中的细类,动态角色订为:agent,
possession, target。[2]
在分辨近义词方面,知网的定义描述有点意思。以上文所举的“侧目”例。词典里边的释义有比较复杂的色彩,知网2000版只是按概念定义为“Look|看{agent,
content}”。由于区域用例含有“注目”之意,我们查到知网2000版的“注目”也是定义为“Look|看{agent, content}”。不过那是概念上的同义,两者的英文对应并不同:
侧目的英文对应词-glance (N, V)
同义词:侧目
注目的英文对应词-fix one's eyes on; gaze at
同义词:盯(+stare at),盯着(+stare at),注目
似乎已经从概念上粗略处理了“侧目”一例的词典释义和实际区域用例的矛盾。而进一步从英文对应词来复查,我们发现glance, fix one's eyes on, stare at 在知网2000版里也定义为Look|看,可是“gaze at“ 则多了一个概念:Look|看,manner=attentive|细心。侧目和注目在某种意义上的差别还是显示了。
董振东先生在发给笔者的一则电邮中指出知网是概念之间的网络,不涉及具体语言的用法也不涉及语用的[3]。 这和强调结合语义和语法进行描述的系统,诸如台湾的MARVS(张丽丽等,2000;Huang
et al., 2000)大相径庭。尽管如此,两者仍然有互补之处。如MARVS从语料库大量检索例证,通过同义动词对比的方式得出的部分结论和知网的相关参与角色定义是一致的:
MARVS
例:“高兴”“快乐”
快乐:经验者
Þ 只带一个论元
高兴:经验者、事因 Þ 句宾
知网:
快乐:1. aValue|属性值,circumstances|境况,happy|福,desired|良
2. Joyful|喜悦 {experiencer, ~degree, cause}
高兴:1. aValue|属性值,circumstances|境况,happy|福,desired|良
2. Joyful|喜悦
3. willing|愿意 {experiencer, content}
我们希望依据地区语料进行的词汇语义研究可以根据不同的思路继续探讨,等这些系统比较成熟时,我们就可以通过比较看出地域词汇变异的各种形式如何启发最终的语义知识描述架构的建设。
主要参考资料:
[1] 知网2000版中的“抓”和catch 的对应有两个:1.
捉住。2. 捉住,警。例(5)的上半句有“办体育”,这个“办”,根据知网2000版,可以定义为“管理,商”,那下半句的“抓选才,抓教练”的“抓”就不会是和catch
相对应了。
[2] 此文用的是旧版知网。知网2002版的概念定义已经改用显性的树状描述。如:病:{desease|疾病}{phenomena|现象:{doctor|医治:content={~}},
{SufferFrom|罹患:content={~}}, RelateTo={medicine|药物}{Health|健康}{HealthValue|健康值}, domain={medical|医}
[3] 这是知网和格语法的不同之处。格语法所描述的格只限于句法层面上能和法出现的格。知网考虑的是一个事件中可能有的参与者以及这些参与者在有关事件中所担任的动态角色。参阅Gan & Tham (1999), p.42.