机器学习如何让破译早已消亡的古老文字
时间:2020-12-18 16:07:49 来源:达达文档网 本文已影响 人
一只小手
在大英博物馆的柔光中,人们只能勉强看到镌刻在这些古老泥板上的密密麻麻的楔形标记。这些细小的标记,是世界上最古老的书写系统——楔形文字的遗迹。
大约150年前,学者们首次破译了楔形文字,然而直到目前,能被读懂的文字仅有一小部分,仍有约90%的文字未被破译出来。但是,这种情况可能会有所改变,一项新技术正在给它们进行“解锁”,效果还挺不错。这都要归功于现代工具——机器翻译。
现在你是不是越来越好奇了,连学者们都无法完全破解这种古老文字的秘密,机器又是如何做到的呢?
见证古帝国的兴衰
楔形文字起源于5000多年前的美索不达米亚,位于底格里斯河和幼发拉底河之间,也就是现在的伊拉克。它记录了一个长达3000年之久的、复杂而迷人的文明。从王室之间愤怒内斗的信件,到安抚一个任性婴儿的仪式,这些泥板可以让人们从一个独特的视角了解那段历史,它们记录了阿卡德、亚述和巴比伦帝国的兴衰。据估计,人们已经挖掘出了约50万块楔形文字板,但还有很多仍深埋地下。
约150年前,学者们首次破译了楔形文字,然而直到目前,仍有约90%的楔形文字未被翻译出来。
但是,这种情况可能会有所改变.这都要归功于现代工具——机器翻译。
加拿大多伦多大学亚述学研究员佩龙现在正在进行的一个项目,是用机器翻译公元前21世纪以来美索不达米亚文明的行政记录,数量多达69000份。
美索不达米亚文明孕育了车轮、天文学、每小时有60分钟的计时制、地图、洪水和方舟的故事,以及世界上最古老的英雄叙事诗——《吉尔伽美什史诗>。这本诗集主要是用苏美尔语和阿卡德语写成的,能读懂这些语言的学者少之又少。
除了泥板,还有5万多枚美索不达米亚雕刻印章散落在世界各地。几千年来,古人使用由雕刻石头制成的印章,这些印章被压入潮湿的黏土中,用来标记门、罐子、石板和其他物品。这些刻章只有1/10被编入目录,更不用说翻译了。
英国牛津大学亚述学教授达尔表示,“我们所获得的关于美索不达米亚文明的资料比古希腊、古罗马和古埃及的加起来还要多,但真正的挑战在于找到能读懂它们的人。”
佩龙与其团队正在对一个数据库中的4000个古代行政文本样本编写算法。这些行政文本包括交易和运输记录,比如把羊、芦苇束或啤酒运到神庙或个人手中的记录。这些文字最初是用芦苇笔刻在黏±上的,向我们展示了古代美索不达米亚文明的日常生活情况,包括权力结构和贸易网络,同时还展示了社会历史的其他方面,如女工的角色。
这些行政文书的措辞很简单,例如“第15天,厨房有11只母山羊”。这种特点使得它们特别适合被自动化处理。一旦算法学会了如何将样本文本翻译成英语,它们就能自动翻译其他泥板上的文字了。
佩龙希望机器分析也能弄清苏美尔语的一些特征,这是至今仍困扰着现代学术界的难题。这种已经灭绝的语言与任何现代语言都没有联系,但却保存在以楔形文字书写的泥板中。这可能是我们与更古老,甚至没有历史记载的社会之间最后的联系。
触碰古老宝藏
多亏了先进的成像技术,现在任何人只要能上网就能接触到这些宝藏。比如,世界上现存最古老的皇家图书馆,人们正在将它数字化。这座图书馆位于尼尼微,由亚述国王亚述巴尼帕建造。虽然早在公元前612年,尼尼微遭遇洗劫时,这些泥板被火烤得又黑又硬,但上面的文字仍可辨认。
新的成像技术让人们在处理这些古老且破损严重的文本时更加轻松。有了精细的图像,人们就有可能找出那些肉眼看不见的模糊标记。
一个名为“楔形文字数字图书馆倡议”的项目,将保存在德黑兰、巴黎和牛津馆藏中的泥板及印章进行数字化处理。这个庞大的在线数据库已经包含了世界上约1/3的楔形文字,以及一些未被破译的书面语言(如古伊朗的原始埃兰语)。
如果没有这样庞大的数字资源,让机器进行翻译几乎是不可能的。
数字化还帮助研究者们将散落在世界各地的文本拼凑起来。
研究人员曾对美索不达米亚的200多枚石印的3D图像进行了数字化处理。在试点项目中,他们使用了人工智能算法校验了6块碑文,并识别出在世界其他地方发现的与之匹配的石印。算法准确地挑选出了两块现存于意大利和美国的泥板,这两块泥板上盖的石印是一样的。
在過去,想要将石印和印痕匹配起来困难重重,因为许多石印保存在数千千米之外的地方。而现在,人工智能的发展能帮助人们探索世界各地收藏品中蕴藏的丰富信息。
破译古人的语言
成像技术也改变了对于未破译文本的研究。
对于数量少、具创造性文本的破译,人类往往比机器做得更好,人类有着对生活和组织方式的深入理解,以及高度的灵活性。例如,早期的楔形文字符号并不是线性排布的,而是简单地与画在周围的方框排在一起。原始埃兰语是三维立体的,一个圆印的深浅不同意义也不同。但是,技术可以放大、分享和比较图片的细节,加快了破译进程。
佩龙希望机器最终能够翻译更复杂的苏美尔语和其他语言,比如阿卡德语。也许有一天,我们将能够阅读所有古老文字的翻译版本。
古代美索不达米亚的国王们深深地思考着过去和未来。他们崇敬前朝的楔形文字,也将记录着他们名字和成就的铭文埋藏地下,希望后世的统治者会将荣耀归于自己。
在某种程度上,他们的愿望已经实现了。他们经历过的战争和征服可能已经被大多数人遗忘,但是他们最强大的发明——文字,在过去的几干年里助力了人类思想和技术的发展。
而现在,人类开始训练机器从过去中学习。(原文刊载于BBC网站,标题为《The key to cracking long-deadlanguages?》)(责任编辑:白玉磊责任校对:司明婧)