《夸克与美洲豹 作者:[美]盖尔曼》

下载本书

添加书签

夸克与美洲豹 作者:[美]盖尔曼- 第10部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
是正确的,尽管这种说法至少在地球上来看很不真实。但是,影响一个人在某个特定场合中选择某个合乎语法句子的,不只是真实性,还有许多其他的环境因素。
    在建构内部语法时,小孩能够有效地区分开语法特征与他们听到的特殊句子的所有其他因素,这些因素有些是随机性的。只有这样,才能将散乱的语法特征压缩成一套容易使用的语法规则。
    一个这样做的小孩就显示出了复杂适应系统的第一个特征。他或她把从大量经验中识别出来的规律性的东西,压缩成一个图式,这个图式包含了支配那些经验的规则,但忽略了使用这些规则的特定环境。
    然而,语法并不包含语言所具有的所有规律性。还存在发音规则(构成语言学家所称作的一种语言的“语音学”),语意学规则(关于什么合理,什么不合理),等等。因而语法图式不是关于一种语言的全套规则,语法也不是在语言数据流的随意性被去掉以后剩下的所有东西。然而,儿童对语法的掌握是建构一种图式——一种部分图式的极好的例子。
    学习语言的过程也表现出在运作中复杂适应系统的其他特征。一个图式很容易发生变化,不同变异形式的采用与废弃,都要经过实践的检验。为了对它们进行检验,必须补充一些细节,比如在建立图式时所丢掉的那些。这是理所当然的,因为,在现实世界中将要遇到的,与最初从中提炼出图式的,是同一个数据流。最后,现实世界中发生的事情关系到图式中的哪个变异形式将幸存下来。
    在掌握英语语法的过程中,图式是变化的,例如,用“ed”或“d”来构造动词过去式的规则,要被sing…sang 与bring…brang 之类的例外情形来修改。为了检验这些变异的规则,小孩必须将图式应用于一个实际的句子,从而重现建立图式时所忽略的那种特殊环境。例如,小孩可能说,“我们昨天上午唱了(sang)一首赞美诗。”这句话被认为是合理的。可是如果他或她说,“我带了(brang)一件东西回来给你们看”,那么他的父亲或母亲会回答,“你能让我看你从贝茜阿姨家捉到的蟑螂,我很高兴,但你应该说‘我带了(brought)一些东西回家??’”。这一经验可能促使该小孩试验出一个新的图式,它可以将sing…sang 与bring…brought 都包括在内。(当然,在很多情况下,孩是等别人说话时来检验一个图式。)复杂适应系统与有效复杂性
    图3—1 表示了一个复杂适应系统的运作情况。既然复杂适应系统从随机性中分离出规律性,从而得出一个图式来描述和预言新数据流的性质,那么,用图式的长度来定义复杂性也就成为可能。当然,那些数据通常和复杂适应系统正在观察的某个其他系统的运作有关。利用一个图式的长度并不意味着回归到原始复杂性的概念,因为图式不能完备地描述被观察系统的数据流,而只能完备地描述从可利用的数据中提炼出来的规律。在某些情况下,比如语法情形,图式中只包含某种特定类型的规律,而其他规律则被弃置于一边,因此,这种图式是一种部分的图式。
    你可以将语法复杂性看作一部语法教科书。大致说来,教科书越厚,相应的语法就越复杂。这与用图式长度来表示复杂性的思想是一致的。每一个引起困难的小小例外情形均使得书的厚度,也即语言的语法复杂性增加。
    像通常情形一样,这里存在着诸如粗粒化和共同的初始知识或理解之类的随意性的来源。在语法教科书的情形中,粗粒化对应于教科书所达到的精细度。那么,一套语法如果遗漏了许多隐含规则与例外情况,而只包括不介意出错的旅游者所需的一些语法要点,能算是基本的语法吗?或者说,它能算是一部重要的学术书吗?如果是,那它是一种传统的常见的语法呢,还是刚流行的生成语法(generative grammer)呢?显然,书的厚度与这种区别有关。至于初始知识的层次,我们来考虑一部用英语为说英语者所写的成熟的外语语法。如果这是荷兰语(与英语非常相似且相近),而不是在结构上与英语很不相同的那佛乔语(Navajo)的话,我们就不必引入太多的新语法概念。而对那佛乔语来说,其语法规则应该更长些。类似地,一本写给说那佛乔语的人看的荷兰语语法书大抵要比写给说英语者看的荷兰语语法书更厚些。
    即便存在着这些因素,将语言的语法复杂性与描述该语法的教科书的厚度联系在一起,也仍然是合理的。但是,如果有可能看到一个说母语的人的脑子(不断前进的科学技术也许会在某天使之成为可能),并看到语法在那里怎样被译成密码的话,那将更有意思一些。用那种内部语法所表示的图式的长度,可以作为衡量语法复杂性的尺度,这种衡量尺度具有较小的随意性。(自然,这种情况下长度的定义比较微妙,要依赖于语法信息在实际上被译成密码的方式。它们是储存在局部的神经元和神经突触上,还是以某种方式分布在整个神经网络中呢?)
    我们将一个系统相对于正在对它进行观察的复杂适应系统的有效复杂性,定义为用来描述其规律性的图式的长度。当图式以某种方式支配被讨论的系统(比如储存于脑中的语法规范着言辞),而不仅仅是被外部观察者,如一本语法教科书的作者使用时,我们就可以使用“内部有效复杂性”(internal effective … plexity)这一术语。从随机性中分离规律性有效复杂性这一概念的作用,尤其当它不是内部有效复杂性时,与进行观察的复杂适应系统能否很好地识辨与压缩规律并抛弃偶然性的东西有关。如果不能,那么,特定观察者的缺点对被观察系统的有效复杂性的影响,比被观察系统本身的性质对它的影响更大。结果,观察者常常是相当有效的,但是有效性的概念却由此引起了深远的问题。我们已经知道,最理想的压缩思想可能会陷入不可计算性的困境之中。除压缩之外,实际的规律识辨又怎么样呢?从数据流中识辨规律性真是一个定义明确的问题吗?
    如果从某种意义上说数据流无限地长,比如,在语言或教科书情形中,它如此地广博,以至于构成了一个包括用给定语言所能说出的每个可能的句子在内的典型样本,那么,识辨规律的任务会更容易一些。这里,即便是一条罕见的语法规则,也会在相似的条件下反复地显示出来,从而使人们能将它同纯偶然的不规则变化中得出的错误规则区分开来。(例如,在一篇短的英语文章中,过去完成时态可能不会出现,从而给人造成英语中不存在过去完成时态的错觉。而在一篇很长的文章中,这样的情况就不大可能发生。)识辨某些类型的规律性
    许多理论物理学家,如加利福尼亚大学伯克利分校和圣菲研究所的吉姆·克鲁奇菲尔德(Jim Crutchfield),在了解如何从一个无限长比特串的随机性中识辨出规律性方面,取得了很大的进展。他们定义了许多种规律性,并证明了在理论上如何应用计算机来识辨上述范围内的规律性。但是,即使他们的方法也不能提供一个挑出每种规律性的算法,这样的算法根本就不存在。但他们证明了,计算机在比特串中发现属于某类规律性后,能够推断出新的、属于一种更基本类型的规律性的存在,并知道如何识别它们。这被称为“分级学习”(hierarchical learning)。通常,一类规律对应于一组关于如何产生一个数据流的数学模型。假设数据流是一个由随机(至少是部分随机)过程——不妨假设为掷硬币的过程所产生的一个比特串。这种模型一个很简单的例子,是一个有偏抛币序列(a sequence of biased cointosses),其中出现正面(对应于比特串中的1)的概率是0 和1 之间的某个固定值,而出现反面(对应于比特串中的0)的概率是1 减去出现正面的概率。
    如果正面出现的概率是二分之一,那么这样一个序列中的任何表面的规律只能是偶然的结果。随着数据流变得越来越长,被这种偶然规律欺骗的可能性就越来越小,而认识到那一序列源自与无偏( unbiased cointosses)抛币相似过程的可能性越来越大。考虑2 比特数串这样一个极端情形。在无偏抛币情形中,2 个比特均为1(一种完美的规则情形)的概率是四分之一。但这样一个序列同样有可能产生于抛掷两面均为人头像(正面)的硬币的过程。因而,产生于无偏抛币过程的一个短比特串常常会被错误地当作一个有严重偏向性的序列。一般来说,一个无限长数据流的好处在于,它大大地增加了分辨各种模型的可能性,这里每个模型对应于一类特殊的规律性。
    比有偏抛币序列稍稍复杂一点的另外一种模型,可能有这么个附加规定,即连续出现两个正面的序列应该抛弃。由此导致的规律性,即比特串决不会连续出现两个1,在一个长比特串中可以很容易地辨认出来。一个更复杂的模型可能包含这样一些有偏抛币序列,其中任何一个连续出现偶数次正面的序列将被丢掉。
    当一个复杂适应系统接收到一个任意长的数据流时,这里不妨设它具有比特串的形式,它能够系统地搜寻某给定类型的规律性;但是,没有可用于寻找所有各类型规律性的方法。任何被识别出来的规律性都可以进而被整合到一个用于描述数据流(或者产生该数据流的系统)的图式之中。将数据流划分成若干部分——交互信息
    在识别一个输入的数据流之中的规律性时,复杂适应系统通常将该数据流划分成具有某种可比性的许多部分,并研究它们之间的共同特征。许多部分所共有的信息称为“交互信息”(mu…tual information),它是规律性的特征。在用某种给定语言写出的一个文本流(a stream of text)情形中,句子可以作为待比较的各部分。各句的共同语法信息显示出语法规则。
    然而,交互信息只用于识别规律性,它的量并不是有效复杂性的直接量度。在辨别出规律性并给出一个有关它们的概要描述时,那个描述的长度才是衡量有效复杂性的尺度。大的有效复杂性与中等AIC
    假定所描述的系统根本没有规律性(比如那只著名的猴子所打出来的一段文字,通常就是——但并非都是——这种情形),一个正常运作的复杂适应系统也就不能发现什么图式,因为图式是对规律性的概述,而这里没有任何规律可言。换句话说,它的图式的长度是零,复杂适应系统将认为它所研究的系统是一堆乱七八糟的废物,其有效复杂性是零。这是完全正确的;胡言乱语的语法图式其长度应该是零。虽然在具有给定长度的比特串中,随机比特串的AIC 最大,但是其有效复杂性却为零。AIC 标度的另一个极端情形是,当它几乎等于零时,比特串完全规则,比如全由1 组成。有效复杂性——用于描述这样一个比特串的规律性的图式的长度——应该非常接近于零,因为“全部为1”的消息是如此之短。因而,要想具有很大的有效复杂性,AIC 既不能太高,也不能太低。换句话说,系统既不能太有序,也不能太无序。
    图5—1 大致反映了系统(相对于作为观察者的正常运作的复杂适应系统)可能的最大有效复杂性随AIC 变化的情况。从图上可以看出,它只能在极端有序与极端无序之间的中间区域达到最大值。在讨论简单性、复杂性和复杂适应系统的过程中所出现的许多重要量,都具有这样一个共同性质,即它们只可能在那个中间区域取得很大的值。
    当一个复杂适应系统观察另一个系统,并且识别出它的一些规律性时,从被观察系统得到的数据流的AIC 可以表示为如下两项的和:表观规则信息量与表观随机信息量。图式的长度——被观察系统的有效复杂性——实质上与表观规则信息量相等。对于一个被普遍认为是随机的数据流来说,其有效复杂性是零,整个AIC 被认为是偶然性的结果。而一个被认为是完全规则的数据流(比如一个全部由1 组成的长比特串)来说,整个AIC都是规则信息量(没有随机信息量),但它的值非常地小。有趣的是,在这样两个极端情形之间,AIC 很大但不是最大(对于具有同一长度的数据流来说),并且等于两部分之和,即表观规则的部分(有效复杂性)与表观随机的部分之和。通过基因或大脑学习
    虽然我们对复杂适应系统的研究是从儿童学习的例子开始的,但是,说明这一概念并非必须借助如此高级的事物。用我们的同类猩猩——
小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架