去年一部热映的科幻片《降临》,让许多人开始关注外星文明语言这个话题。而《三体》中,更是详实地描绘了人类是如何接听地外文明的信息的。然而这些科幻作品中的元素,还真的是一门研究。
在真正的科学界,的确有一些科学家一直以来都在进行着相关的研究,比如加利福尼亚州山景城SETI研究所的天体物理学家们。长久以来,这些SETI(Search for Extraterrestrial Intelligence,寻找外星文明)科学家们所关注的一个问题是:
如何才能从纷繁复杂又杂乱无章的宇宙噪音中,真正识别出属于外星人的信号呢?
换言之,怎样才能确定一个外太空信号的源头,来自于一个非生命体自然物,还是一个外星文明呢?
通过对太空信号孜孜不倦地搜寻,SETI学者们试图寻找一些具有窄带宽且快速闪烁的光源信号,根据已知的天体物理学,这种信号很可能属于人为制造的信号。而那些宽带无线信号和较慢的光脉冲,一般而言可能来源于自然界,比如星云的脉冲等等。
然而另外一个问题是,即便我们发现了这些信号,又如何进一步确定它一定属于智能生命体呢?毕竟,我们并没有接触过任何地球以外的生命体,更谈何去了解它们的语言呢?
既然不能从地球外去了解,所幸我们还可以了解我们的同类:一些同样具备交流沟通能力的动物。比如通过舞蹈来传递信息的蜜蜂,以及拥有复杂语言能力的座头鲸。
座头鲸是一种具有高超沟通能力的动物,它们早在百万年前就发展出了语言,甚至比智人还要早。
海洋学家们通过观测和捕捉座头鲸的声音,已经对它们的语言有了相当多的了解。比如,当它们游到温暖的南太平洋进行求偶交配时,就会发出浑厚的歌声。而当它们在接近北冰洋地区进行捕猎时,就会发出类似吐气泡一样的“啵啵”声,引诱鱼类上钩。此外,当它们在团队作战狩猎时,还会进行互相交流。
通过长期的研究,海洋哺乳动物学家发现了一个更有趣的现象。
正如我们人类在打电话时,如果遇到通话质量不好的情况时,会下意识地选择放慢语速,并尝试着重复自己的话来确保对方能够理解自己的意思。有些时候,这种交流中大量的词汇是冗余的,甚至是可以互相替换的,这种交流的目的,是确保即便沟通过程中丢失了一些词语,也不会影响到对方的理解和判断。
而座头鲸也有着同样的行为。当它们在充满船只的海底进行远距离沟通时,毫无疑问会遇到这些船只产生大量噪音的问题。因此,如果它们在这样的环境下交流,也会情不自禁地选择放慢语速,并选择另一种在干扰状态下交流的语言模式。
在这种抗干扰模式下,它们的交流信息量会损失五分之二。科学家们很快意识到,它们即便进行这种低效的沟通,但仍然能够保证信息传播的正确率。这是为什么呢?
显然,这说明座头鲸(以及很多其他鲸类)具有足够复杂规则结构的语言,可以利用等效的语言词汇来填补那丢失掉的五分之二的信号。就好比我说:今天的天气很好,阳光明媚。如果你听到的是,今天的天()很好,()明媚,也完全不会妨碍你能get到我的意思。
基于这种观察,两位来自加利福尼亚大学戴维斯分校的SETI学者,布伦达·迈科万(Brenda McCowan)和希恩·汉瑟(Sean F. Hanser),决定研究在社会结构上非常复杂,以及高度依赖语言沟通的三种物种,它们的语言类型可以很容易地被辨别出来。
这三种物种分别是:宽吻海豚(Tursiops truncatus),松鼠猴(Saimiri sciureus)和座头鲸(Megaptera novaeangliae)。
这项研究的理论基础,是基于语言学研究中非常经典的齐普法则(Zipf's Law):
所谓齐普法则,是由是由哈佛大学的语言学家乔治·金斯利·齐普(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。
所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。
具体解释一下就是在英文的文本中,字母E比字母T出现的概率更多,字母T又比字母A出现的概率更多。以此类推,直到出现几率最低的字母“Q”。那么,如果以字母出现的概率降序排列出从E到Q的全部字母,将其出现的概率绘制在对数图上,会形成一条近乎于45度线拟合值,即斜率为-1的线。
同样的,不仅仅在英文里,在汉语中的文字,也可以得到这样一个-1的斜率。日语,德语,印地语和数十种其他语言的对话的字母,单词或音素也是如此。
似乎人类语言唯一的例外是婴儿的呢喃,它的斜率小于-1,这是因为婴儿发出的声音几乎是随机是……然而,随着小baby们开始学习语言之后,斜率就会逐渐向上倾斜,最终在一周岁时达到-1左右。
根据数学家和语言学家的研究显示,这个-1的斜率表示给定的一系列声音,或是书写符号包含了足够的复杂性,足以构成一种语言。
这是一个必要但不充分的条件,而且是一个从观察角度得到的结论而非理论角度的结论。
但它却令人惊讶地满足信息理论,特别是关于传递信息时能量消耗的平衡。具体来讲,当一个信息发送方试图传递信号时,它希望消耗最少的能量;而对于信息接收方而言,它希望获得最多的冗余信息,以确保能够接收一个完整的信息。
那么,在这种双方的平衡博弈之间,语言就自然而然地形成了一个-1的频率。
有人曾经举出反例,例如如果将摩斯电码的点和杠以概率排列出来的话,会得到一个-0.2的斜率,这看起来和-1差得有点远。然而,这种排列并不科学,如果将点和杠的排列组合,比如点点、点杠、杠点、杠杠再按概率排序的话,斜率就会向-1接近。
因此,齐普法则从侧面反映了一套语言系统中的字母是如何编码的。通过它,语言学家就可以对语言原本的意义单位进行逆向破解。
再回到之前的话题,布伦达·迈科万和希恩·汉瑟发现,宽吻海豚和松鼠猴的语言,也符合齐普定律。而且,虽然当它们的幼体时期和人类婴儿一样斜率偏低,但是当它们成年后,斜率就会非常接近于-1。
虽然语言学家还没有能够破译宽吻海豚以及松鼠猴所说的语言,但有一点可以确定的是,它们和人类一样,拥有一种内部结构足够复杂的语言系统。
这种复杂性所带来的好处在于,可以令彼此之间的沟通具有弹性,也就是容错性,或者抗干扰性。
我们甚至可以推而广之地认为,任何交换信息的生物都必须能够做到这一点。
毕竟,环境噪声,干扰障碍物和都会影响信号的传播。人类语言的结构就是提供冗余信息。从某种意义上说,正是这种抗干扰结构决定了给定字母所出现的概率。正如我前文里所说的那样,我们只需要听到一句话中的几个词,就可以猜到这句话大概的意思。这也是目前语音识别技术的理论依据之一。
然而,如果一句话中缺少的词越多,那么依赖上下文中去补完它们就越困难,它们之间所形成的条件概率也就越低。对于大多数人类的书面语言,当一句话中连续丢失了九个词时,那么彼此之间的条件依赖关系将彻底消失,对于接受者而言将不知所云。
因此,在关于语言的信息理论中,人类的词熵大约为九阶。
正如前面所说,在宽吻海豚和座头鲸的语言中也有类似的现象。只不过,相对于人类而言,它们的核心词汇更多,比如宽吻海豚约有50个核心词汇,而座头鲸语言的核心词汇更是高达数百个。因此,我们还需要更多的研究,以确认这俩货语言的究竟词熵有多高。
这种对于生命体语言的研究,或许也同样适用于外星文明。
以目前人类科技的认知,在传递信息时,即使是非常先进的地外文明,仍然要遵守信息理论规则。
虽然由于缺乏对于核心信号的认识,我们可能无法破译所获得的信息,但同样可以看出它们通信系统的复杂性,从而推断出其为智能文明的可能。如果某个信号的条件概率达到很高的比如20阶,那么说明它们的语言复杂程度超过地球上任何一种人类语言。
1967年,天文学家乔瑟林·博奈尔(Jocelyn Burnell)和安东尼·赫维斯(Antony Hewish)发现了一种脉冲恒星,他们将其称为“小绿人”。
这颗星体所发出的无线信号如此短暂,形成了一种频繁的脉动,因此一些科学家最初猜测,它们可能来自于非常先进的外星文明。
在澳大利亚国家望远镜设施负责人西蒙·约翰逊(Simon Johnston)的帮助下,SETI学者重新分析了这颗Vela Pulsar星的脉冲信号,并获得了约为-0.3的斜率。
很遗憾的是,这个数值与我们所知道的任何语言都不一致。
此外科学家们还发现,这些脉冲星的信号中,几乎没有条件概率结构的存在。因此,它们基本上不可能来自于一个高度发展的外星文明。(目前的研究认为,脉冲星信号是恒星变为超新星之后的自然残余物。)
通过信息理论,人类可以相对容易地区分智能生命信号和非生命体信号源。
SETI研究所的科学家们,依然在分析由一个庞大的艾伦望远镜阵列所得到的微波信号数据,这个由42台望远镜组成的阵列,包括从1到10千兆赫兹的频段观测。
或许有一天,我们会真的收到天外来客一亿光年之外的讯息。
又或许,我们早就接收到了它们,只不过我们至今仍然懵然无知