中吧 关注:5,501贴子:63,486
  • 12回复贴,共1

系统分析汉语是世界上最先进的语言

只看楼主收藏回复

转自人人


IP属地:内蒙古1楼2013-02-21 22:07回复
    起源
    这世界上,仍然在广泛使用的表意文字,恐怕就只有中文了。而表音文字大行其道。有的人认为这意味着表音文字是更先进的文字,所以表音文字战胜了表意文字。事实上几十年前的前辈们很多都是这么看的。他们曾经提出汉字拼音化的方案,准备把汉语也变成一种表音文字。
    事实上,单从两者的发展历史,是得不到这个结论的。
    文字,从一开始就是记录信息用的。原生文明,无论中国、古埃及、古印度还是两河流域,甚至是玛雅,其文字都是象形文字。换句话说,一开始都是表意的。当文字发展到一定程度的时候,原有的字符无法满足表达的需要,就会衍生出新的文字。这些新的文字往往是由表音的部分和表意的部分组合而成。无论是早期汉字还是古埃及的圣书体都有这样一个特点。这是文字扩展的必然过程。但表意文字仍然是表意文字。从某种意义上来说,原生文明的语言都是基于表意文字的。
    而次生文明则基本都是表音语言。比如希腊、比如日本。有人推测,这是因为次生文明需要从原生文明中学习很多的东西,包括大量的词汇。运用这些词汇最简单的方法就是直接用原生文明的发音来指代。而次生文明因为严重依赖于原生文明的词语发音,自己语言里那种发音恐怕是表不出来什么意思的。所以最终不得不使用一套表音文字体系来使得自己原有语言与从原生文明进口的大量词汇兼容。这种被迫囫囵吞枣的做法,我们可以看到也是今天表音文字的本能行为。比如日文“计算机”就是Computer的音译。
    那么为什么这世界上的表意文字这么少呢?很显然,这世界上的原生文明本来就那么几个,而次生文明却要多几个数量级。历史大潮中三十年河东三十年河西,原生文明也有可能被次生文明所征服。在征服之后,语言也就有可能会逐渐消亡了。如果我们回头去看看,消亡了的表音文字比表意文字可是要多得多。
    所以,表音文字广泛使用,这并不说明表音文字就优秀。只能说这世界上的原生文明实在太少。
    如果要正儿八经讨论一种语言的优劣,就必须从两个角度来讨论,第一是语音,第二是文字。


    IP属地:内蒙古2楼2013-02-21 22:08
    回复
      论角度上的绝对优势
      汉语在传输效率方面带来的优势,在文化中就进一步带来了更大的优势。
      从信息论角度来考虑,编码是很有学问的。举个例子。我们知道计算机传输信息,实际上传输的都是0和1。那么,如果我们传输的各种信息出现的频率不一样高怎么办?答案是,出现越频繁的,编码越短。这样就能提高总体效率。
      比方说,我们只有四种信息要传递。按一般的想法,自然是把这四种信息分别用00、01、10、11来表示。每个信息都需要用两位二进制数来表示,也就是说传播100条信息需要发送200个二进制数。但是如果其中有一种信息出现的概率是91%,而另外三种分别是3%。那么就可以使用另一种编码方式:1,01,001,000。平均下来这种传播方式传播100条信息需要发送91+2*3+3*3+3*3=115个二进制数。显然比前面那种效率要高。
      因此,你会发现各个语言中越常用的词,一般就越短。英语里,我、你、他、她、我们,都是单音节词。
      但是,单音节终归是有限的。绝大多数意思还是要用双音节或更多来表示。这时候汉语的优势就显示出来了。由于汉语所能承载的单音节词比其他语言多几倍,所以在构成多音节词的时候就可以很奢侈地使用逻辑结构。这种逻辑结构,使得中文的联系性、逻辑性要优于一般语言。而与语音脱离的文字体系,则进一步支撑了这种结构,方便了记忆。
      很多其他语言,由于缺少单音节词,所以一般常用词只能使用双音节词。而要形成逻辑结构就必须大规模使用四音节词。这是非常低效的。为了避免这种低效,很多常用的词就只能抛弃逻辑结构,用毫无关系的双音节或三音节词表示。
      比如我们可以很轻松地说“公鸡”、“母鸡”、“小鸡”、“鸡蛋”。而英语里就成了“Cock”、
      “Hen”、 “Chick”、
      “Egg”。类似的发音长度,中文能负担起逻辑结构,而英文就负担不起来。
      所以说,类似长度的词,中文一般都要比英文的逻辑要更清晰。这不简简单单是是效率的问题,而更是人民接受信息能力的问题。组词方式越短、越有逻辑性,学习就越简单。整个社会效率就越高。学习、记忆什么叫Laser,远不如“激光”那么简单。
      我们来举一个非常简单的例子。普通中国人的初等数学能力往往超过欧美。这并不简简单单是教育的问题。更关键地,这是中文对数字命名结果。
      中文由于汉语在单音节词上无可匹敌优势,可以极度奢侈地给予每一个数字一个单音节发音。没有音调的语言,是不可能做到这一点的,因为还有其他更常见的东西需要占用宝贵的单音节词的资源。
      人对数字的短期记忆,实际上是对数字发音的记忆。研究表明中国人一次能够记住的数字长度要高于英语母语国家。而在计算中,你需要短期记忆很多数字,这一点就天然地给予了中国人绝对优势。
      更进一步,中国的数字都是单音节,因此可以采用绝对逻辑的方式构建整个数字表。九十六,就是九个十加一个六。英语是“九十”(与九和十都不同的特殊词)加一个六。法语是四个二十加十六。汉语种最简洁而最富逻辑的结构,在世界各种主要语言中是独一无二的。九九乘法口诀表,就是构建在这个基础上的。其他国家的儿童如果想背下来这张表,可以说比中国儿童难了几倍。语言上具备了这种优势,中国人的初等数学怎么能不好?就初等数学上的优势,乘以初等数学在整个社会中的价值,这就是中国的根本竞争优势之一。
      当然,这里还是要提一下,在比较长的单词上表音文字当然也是有逻辑结构的,这是语言发展的必然结果。比如说英文nephritis,就来源于希腊语中类似发音的一个词,而那个词则来源于希腊语Nefros和itis,也就是“肾”和“炎”。不过很抱歉的是,由于表音能力差,这些很常见的意思必须要用这么多音节来表达。这就远不如中文简简单单的“肾炎”了。
      此外还需要提到,由于汉语具有远超其他语言的庞大单音节词库,因此在对特定名词进行缩写的时候,就更具有无可比拟的优势。表音语言在对名词缩写时,一般只能取首字母,这非常容易引起歧义。而中文可以直接取整个名词中比较具有代表意义的字,可以极大地消除歧义。比如美国人说“***”就是“NSA”,中文三个音节,英文四个音节,结果中文比英文清晰得多。


      IP属地:内蒙古4楼2013-02-21 22:09
      回复
        最强抗噪能力:完全抛弃轻音
        从发音种类上说,汉语的发音种类是比较多的。如果你注意日语的话,日语里面就没有r这个声母,发音种类就比汉语少。但是日语从汉语学到了一个巨大的优势,那就是基本抛弃轻音。
        刚才我说到汉语发音种类比较多,可能有人就开始皱眉头了。因为如果不考虑声调,英语里独立发音的种类其实比汉语里还多。因为英语声母可以单独成音。而汉语里是没有的。
        事实上,古汉语中轻音也是极度常见的。但是为什么我们都抛弃了呢?因为一个简单的原因:抗噪能力差。一个轻音,距离稍微远一点,或者噪音稍微大一点,就听不见了。而一个辅音和一个元音组成的音节,则由于元音的存在而有较强的信号强度,更容易正确传输。
        有一个搞笑论调是这么说的,"我们的普通话叫“mandarin”,什么意思啊?满大人,满族人清朝入关之后,说不出我们的口语,他就把很多调去掉了,把入声去掉了,说的发音越来越简单了。然后逼着全国人都这么说。所以我们现在的口语比粤语要简单得多。"
        这是一个非常愚昧的论调。首先,Mandarin这个英语单词来自于葡萄牙语mandarim,葡萄牙语这个词又来源于马来语mĕntĕri,马来语这个词来源于梵语mantrin,而梵语这个词的意思是官员。换句话说,mandarin的愿意是“官话”。而且Mandarin这个词能查找到的最早的记录出现于1589年。大家可以查查那时候“满大人”在哪里呢。
        很多人以为粤语是正宗的汉语发音。这话对,也不对。粤语具备一些中古汉语的发音特征。但是也正是因为如此,它才落后于北方官话。有人认为北方官话的形成,是因为蛮族入侵“污染”了汉语。这个说法同样,对,也不对。北方官话之所以在中古汉语的基础上进一步的发展,就是因为战争与征服,北方汉民与语言不通的外族加深的了交流,多种族的融合,教育,最终抛弃了难发或者影响发音效率的音调。
        我们举一个例子。白菜,这个发音在北方官话里是Bai2 Cai4,在粤语里是Baak6
        Coi3。你注意到粤语“白”这个发音里有一个k的轻尾音。这个音在北方官话里彻底抛弃了。轻尾音抗噪能力不佳,它的很容易被噪音盖过,发清楚这个音需要花费额外的时间,而汉语的冗余度造成一个轻尾音发不准也不会影响整个意义的表达。所以大家可以注意到,随着广东地区对外交流的日益增加,年轻的粤语使用者往往采用“懒音”,也就是说,在日常会话中大量抛弃轻尾音。更进一步,菜这个音,粤语里实际上要发两个音,一个是co一个是i。所以coi这个发音,注定没有北方官话的cai效率高。所以,觉得粤语是更正宗的中古汉语,这没错,但要是觉得粤语更先进,那就大错特错了。同样一个来源的几个语音体系,使用的越广泛、交流的越多,其发展就越快。这是必然的道理。
        现代汉语普通话,发音一个萝卜一个坑,一个辅音配一个元音(当然也有少量单独元音),发音强度大,效率高。这就是现代汉语的优点之一。
        提高传输速度:懒化
        那么再比较一下英语和汉语。从口语角度讲,汉语的核心优势在于语调。英语中一个发音,大致有三个要素:声母、韵母、长度。英语中的语调,是用整个词的调子或者整个句子的调子来表达单个言外之意,所以仅仅对口语起支撑作用。现今英语的发展潮流中,长度的要素逐渐消亡。长度要素,是通过发音的长短来改变发音的含义,理论上说长度的变化只能在一个基本单位音长和两个单位音长之间变化,长于两个单位音长,就失掉了经济性,从效率上讲,不如直接用两个音替代。事实上,英语中,长度变化,只有两种:短音和长音。而长音本身,从发音效率上讲是低效的。因此随着英语的广泛散布,长短音的差距越来越小。甚至很多英语母语国家的人讲英语都不管长短音的差异。比方说,sheep的那个i:的音已经见不到人专门拖长了,美国人发这个音基本都是短音i(有的人为了与ship区别,把那个sh发的有点像汉语拼音里的x)。再比如美国人日常对话里说I don't


        IP属地:内蒙古5楼2013-02-21 22:10
        回复
          往下为文字角度


          IP属地:内蒙古7楼2013-02-21 22:12
          回复
            更高的读取效率、更安全的阅读能力
            汉字由于割裂了文字与读音,实际上带来了一个新的优势。这是所有表音文字都不具备的。
            表 音文字读取的时候,其本质是把看到的图像转化为声音,然后把声音转化为含义。当然读过太多的词也可以直接转化为含义,但是这是少数,不影响基本结论。而汉
            字读取时是直接把图像转化为含义。你会注意到你快速阅读中文文献的时候,是不会注意文字的读音的,而是直接领悟了文字的意思。表音文字就很少有这种情况。
            由于我们在读取中文的时候可以直接跳过大脑中的一个流程,这使得读取速度大为加快,而一个次要作用则是使得语言功能更加安全。也就是说,即便大脑中语音转换系统完全失灵,对我们的阅读能力影响也不大。因此,中国人得“失读症”的概率是较低的。
            所谓失读症是说一个人丧失了语言能力,面对文字,已经无法阅读。母语为表音文字的人患失读症的概率比中国人高得多。因为中国人患失读症的原因是大脑中的图像转换系统出现了问题。而表音文字使用者如果图像转换系统或者语音转换系统之中有一个出了问题,就会得失读症。
            美国人之中约有10%到20%(依标准不同)患有程度不等的失读症,而中国失读症患者则极为罕见。这也是中文阅读上的一个优势。
            另 外,汉字实际上是一种二维编码体系,而表音文字是一种一维编码体系。这使因为声音本身是一维的,只能沿时间轴延伸。而汉字能够在平面上沿竖直和水平两个方
            向延伸,所以一个汉字往往就能代表很复杂的意思。由于图像本身就是二维的,汉字在更加充分地利用了人类的视觉系统,因此读取也就更加快速。
            因此,作为一个存储规格而言,汉字是非常优秀的。当然有人诟病说汉字的书写速度不高。但从一个汉字来说也许是这样。但是与英文一样,汉字也有连笔字,而且汉
            语的存储效率比较高,也弥补了这方面的弱点。更关键地,对于文字来说,读取效率比书写效率要重要得多。
            这个道理其实很简单,在网络里面也适用。大家注意到现在的很多网络中,下载的极限速度要高于上传极限速度,而且一般都是高好几倍。这是因为下载数据量总是比上传高得多。
            同样,现代社会里,一个文字记录,被读取的次数一般都比书写次数多得多。更不要提大规模印刷之后,绝大多数我们看到的文字都不需要有人实际去书写。所以对于一个现代语言来说,读取速度也就比书写速度重要得多。


            IP属地:内蒙古11楼2013-02-21 22:13
            回复
              汉字:伟大的基础
              汉字为汉语成为世界最先进的语言提供了必要的基础。
              汉语一开始也是一种综合语。大量使用词根、词缀。但是从文字角度,汉字为汉语成为分析语提供了非常关键的基础结构。汉字天然不利于词形变化。因此,词形变化往往只能采用,在词/字后面增加一个汉字来表示。而这个增加的汉字就变成了一个通用规则。这个规则确立之后就与修饰的特定词失去了必然关系。这个变化不再视为词形变化,而被视为词与词之间的逻辑关系。比方说,中文规则里,“了”表完成。有学者认为,这是一个古老的词形变化演变出的规则。“吃/吃了”、“睡/睡了”,“打/打了”,规则十分简单,我们学到的不是“了”变化了“吃/睡/打”,而是“了”单独表示的一个逻辑关系。这就不像
              “Eat/Ate”、 “Sleep/Slept”、 “Fight/Fought”那么复杂。
              而正是由于汉字将读音与书写割裂,汉语的以不断变化,抛弃了轻音,加入了声调,抛弃了效率低下的声调,合并了相近的声调,最终形成今天的现代汉语。我们可以想象,未来汉语还会继续发展。而汉字与读音的割裂,使得在汉语语音在几千年中变化了如此之大,而我们的文化却没有多少割裂。
              更进一步地,由于汉字并不受限于读音,因此可以创造出同音异形字,进一步扩展了汉语在发音数量多的优势。使得汉语能够更完全的利用单音节和双音节词的资源。比方说,因为读音与文字的割裂,我们可以同时拥有“攻击”和“公鸡”,两个发音完全一样但是含义毫无关系的常用双音节词。大量使用同音异形词,这在表音语言里是难以实现的。(当然英文里也有诸如See和Sea,但这实在是很少。)
              而之所以我们可以在口语中流畅运用大量的同音异形词,是因为我们的语言是一种分析语。分析语使得一个词的意思不仅仅基于词的组成部分,而同时基于这个词与其他词的逻辑关系。有时候甚至是基于与其他句子的逻辑关系。
              如果常做翻译,就会发现,我们一般可以用较短的篇幅表达英文较长篇幅才能表达的意思。这就是效率高的体现。如果读出来,那效率就更高了。
              所以我们的文字、我们的语音以及我们整个语言整体,都是有机结合在一起的。推崇汉字的拼音化或拉丁语话,都是没有看清这种密切联系。因此盲目把文字拼音化的韩国就会出那种把防水材料搞成吸水材料的笑话(韩语里“防水”和“放水”读音一致,结果建筑公司错误理解了图纸)。


              IP属地:内蒙古12楼2013-02-21 22:13
              回复
                严谨?
                有人说汉语的劣势就是不够严谨。
                这其实可以说是分析语和综合语的差异。分析语对于词的具体含义需要通过上下文确定。如果上下文给予信息不足,就有可能出现歧义。而很多时候,上下文只能表明这个词更可能是什么意思,而不能完全否定其他理解。
                这虽然在交流中不会有什么问题,但是在那些防止别人钻空子的文件里就可能造成问题。
                我们举个例子:“中国绝不会首先使用核武器。”
                这句话中,中国的态度,用大白话讲,就是中国与某国的战争中,中国不会在对方没有对中国使用核武器的情况下对该国使用核武器。但是上文同样可以理解为“中国与某国的战争中,中国不会在还没有对该国使用常规武器的情况下就对该国使用核武器”。谁都知道那句话其实是第一种理解,但读者并无法用那些文字来否认第二种理解。
                因此,很多人认为汉语的这种不严谨性会妨碍法律条文和合同。
                但是,我们可以看出,汉语要想说的严谨,也是没有问题,只不过要比一般多一些口舌而已。分析语本身的表意效率就很高。多花一些笔墨,达到严谨的效果,也是完全可以做到的。只不过要多花一些心思罢了。


                IP属地:内蒙古13楼2013-02-21 22:14
                回复
                  劣势:难以学习
                  毋庸置疑,虽然汉字承载着汉语的诸多优势,但是汉字本身最大的劣势却是不可回避的。那就是不利于学习。
                  我在背英语单词的时候,发现最好的记忆方法是把意思和读音结合起来,然后通过读音记忆拼写。(完美的表音文字,应该是读音与拼写的直接对应。英语由于受到其他语言影响太多所以这方面相对较差,不过这种规律还是相通的。)
                  相对与文字,人对读音的记忆速度更快。而表音文字,一旦掌握了拼写和读音之间的规律,就很容易记住文字。
                  而汉语在这方面是很差的。字和字之间缺乏联系,字和读音之间很少有联系,而且由于几千年语音的变化,经常看着是个形声字,读音却与想象的相差甚远。这是我们文字的劣势。但是这是中文读取速度快所带来的代价。
                  我们可以看到,几千年来文字的发展历程。它总是首先于两个因素:表意的需要,学习和书写的难度。
                  一开始我们的老祖宗试图用一个字代表一个特定含义。这是很自然的思路。但是后来随着需要表达的意思成几何级数增长。汉字逐渐就不够用了。或者说,这样的话,同音字实在太多,不利于传播了。于是多个字组成的词才出现。在此之后,一大批原来造出来的字都被抛弃了。
                  比方说骓、骊、骒这种专门为表示特定种类的马的字。还有璇、玑等等一大堆带王字旁(斜玉旁)表示特定种类的玉器的字。后者毕竟意思还不错,还在名字里用一用。
                  有一些人对汉字的简化持有非常大的非议。我觉得大可不必。汉字的简化是必要的。越复杂的字形,越难以学习。汉字几千年的发展,使得字形与含义的距离也越来越远。复杂的字形在表音、表意方面并无优势。进与进、从与从、后与后,都没看出来繁体字在表意方面有何优势,而简体在学习的简便性上优势倒是很明显。每次看到“忧郁的乌龟”,我自己都快忧郁了。
                  当然,汉字简化还将一些意思完全不同的字合成了一个字。有个著名的繁体字爱好者嘲笑简体字的段子是“我女朋友下面给我吃”有歧义。而繁体字版,因为能区分面和麪,是没有歧义的。
                  但是,拜托,我们是分析语好吗?拜托有一点分析语的自觉好不好?你觉得专门找一段孤立的话,有什么价值么?如果找个综合语,能用词形变化把“(男性)我”和“(女性)我”分开,更可以轻易嘲笑汉语造成歧义。分析语本身就要求有上下文提供必要的信息,因为分析语借助逻辑关系省略了大量的信息才实现了更高效率的信息传递。这点小小的歧义在现实生活中是不会造成什么影响。你要问为什么,这很简单,因为汉字简化都不是几十年前那些人坐在那里拍脑袋写出来的,而是之前至少上百年就有人大规模使用的。如果频繁造成歧义,早就没有人那样用了。
                  当语法发展完全,使用充分之后,维持庞大而复杂的常用文字库只能不利于学习。适当的简化是必要的。汉字本身的优越性并不高,但是它为汉语的优越性提供了必要的基础支持。没有汉字就没有汉语,但是汉字本身也是需要时不时进行改革的。毕竟学习的难度在目前条件下还是显著高于其他语言。如果能在不伤害对汉语的支撑能力的情况下使得汉字更好学习,这无疑是一件好事。


                  IP属地:内蒙古14楼2013-02-21 22:15
                  回复
                    后记:
                    实际上我写这篇文章的目的并不是想让大家确信汉语就是世界上无可匹敌的最优秀的语言。语言的用处有很多种,不同的语言在不同的方面各有优劣。比如说,表音文字因为采用了非常小的字符集,因此在计算机输入中比较简单。而且大家也可以看出本文论证并不十分严谨,实际上就是聊备一说。不必过于认真。
                    我写这篇文章的目的,只是希望读者能够在阅读本文之后抛弃妄自菲薄的看法,我希望不要有人再觉得汉语是一种落后的语言。


                    IP属地:内蒙古15楼2013-02-21 22:15
                    回复
                      以下为具体实验数据


                      IP属地:内蒙古16楼2013-02-24 19:00
                      回复

                        汉语语音速度与表意速度
                        那么汉语说话速度呢?我们来看这篇论文:http://ldc.upenn.edu/myl/llog/icslp06_final.pdf
                        其中图1显示,根据一些谈话样本,当去掉沉默与噪音占据的时间后,英语会话者每分钟一般能够说160-280个词。汉语会话者大致是250至400词(这里不是字)。这差不多是普通人不受思绪影响的最高语速。所以可以看出,汉语的理论最高信息传递能力是远远高于英语的。
                        但实际上受限于思维速度,汉语的语速并没有那么恐怖。以下这篇论文研究了在不同语速下听众正确听得每个字的概率。
                        http://www.sciencedirect.com/science/article/pii/S0169814104001581
                        一般广播节目的语速在4.3字每秒左右。也就是每分钟260字上下。高于这个数字,就可能会听众接收语音时听错。从上文可以看出,年轻人在对方语速达到约650字每分钟时(即吐字时间缩短60%)仍然能保持90%以上的正确接收率。但是老年人就会降低到约70%。可以看出这个速度实际是受限于大脑的处理速度。中国好声音的华少,是47秒说350个字,也就是速度达到了446.8字每分钟。这个速度上能说得字字清晰,这是很厉害的。
                        英文新闻播音一般在150-180词每分钟(当然,也取决于词的长度)。根据10个小时的法庭录音的数据结果(http://languagelog.ldc.upenn.edu/nll/?p=1255),可以看出美国大众90%的情况下说话速度不会超过200词每分钟,98%的情况下不会超过225词每分钟。平均水平差不多是160-170词每分钟。同一来源统计每个词差不多1.38音节(因为仅靠10小时庭审记录统计,所以不会特别准确,这里就是看个大概。)
                        所以,基本上英文新闻播音一般每分钟207-248.4个音节左右。这与庭审记录中平均一分钟226个音节接近。
                        英文播音平均每分钟207-248.4个音节与汉语播音平均每分钟240-260字相近。根据里昂大学的研究结果,汉字每音节信息密度略高于英文。所以大致上看,汉语交流的效率略高。
                        但是这都是基于非常粗糙的数据与估算。不是很给力。
                        顺便,随着交流的日益深入,人类说话的速度实际上在加快。40年前美国一般语速是145词每分钟。如今是160-170词每分钟。中国60年代播音185字每分钟,如今是240-260字每分钟。这也许是信息的丰富让人脑的处理能力上升的缘故。


                        IP属地:内蒙古18楼2013-02-24 19:00
                        回复

                          汉语阅读速度
                          在《Reading Chinese Script: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese and English Text》专门讲阅读中英文时的眼球移动。这是中科院和悉尼大学的两位学者写的。这其中发现。熟练的中文阅读者能够每分钟阅读386个中文词汇(580个汉字),而熟练的英文阅读者可以每分钟阅读382个英文词汇。
                          汉语使用者眼睛每次凝视可以阅读1.71个词(2.57个汉字),每次凝视平均257毫秒。英文阅读者每次凝视可以阅读1.75个词,每次凝视平均265毫秒。
                          总体上说,中文阅读速度高于英文,但是两者完全在误差范围内。如果考虑信息密度的情况,则汉语更占优势。


                          IP属地:内蒙古19楼2013-02-24 19:00
                          回复