在普林斯顿大学的最后一年,费尔南多·阿维莱斯-加西亚以一种创新的方式研究了已有700年历史的文学作品:他构建了一个人工智能工具来分析但丁·阿利吉耶里的《神曲》中的语言。
“考虑到《神曲》文本的厚重性,现代语言模型对其的研究显然不够充分,”阿维莱斯-加西亚说,他主修计算机科学,并拥有法国和意大利语系颁发的证书。“这个项目让我将通过编码解决难题的热爱与对意大利语的热情结合在了一起。”
“这是我在普林斯顿这些年读过的最具独创性的毕业论文之一——而我读过一些非常出色的毕业论文,”自1988年起就在普林斯顿任教的法国和意大利语系教授盖塔娜·马罗内-普利亚说。“费尔南多将计算机模型引入了通常由中世纪研究者处理的文本中。这是科学与人文的完美融合。”
最终作品《解读语言:通过自然语言处理(NLP)挖掘中世纪意大利语》为他赢得了系内高荣誉毕业和首届卢西奥·卡普托高级论文奖,“该奖项授予意大利文学、语言、文化、经济、历史、政治或社会方面的杰出论文”。”
“他创建了一个我认为对意大利文学界有益的工具,并将激励未来的研究,”阿维莱斯-加西亚的论文导师克里斯蒂安·费尔鲍姆说。她是计算机科学、语言学和人文委员会教授级讲师,也是普林斯顿大学语言学博士。”她补充道: 她补充道:
在普林斯顿大学的第一节编程课上,阿维莱斯-加西亚发现自己对征服问题的快感着迷不已。“我真的迷上了‘我在创造东西’的那种感觉!”他说。
到了大二,他准备宣布主修计算机科学。“但我心里也有一部分感到害怕,因为我知道的计算机科学专业的学生在高中时就做了大量的编程,”他说。“我有时会想,‘我真的适合这个吗?’”
有一次,阿维莱斯-加西亚在协助一门入门课程时,一名一年级学生向他咨询了一种他从未听说过的数据结构。
但他随后想到:“如果我的水平足够好,能够教这些孩子,或者至少能调试他们的代码,我就能坚持下去,”他回忆道。于是他宣布了主修专业,并跟随自己对语言的热爱进入了基于人工智能的翻译领域,最终开发出一款能够同时翻译整本书的应用程序。
普林斯顿大学数字人文中心主任娜塔莉亚·埃尔莫拉耶夫表示,许多本科生自然地在人文科学与人工智能之间搭建桥梁。“这在普林斯顿经常发生,因为我们有很多计算机科学专业的学生秘密地热爱古典文学、意大利文学或中世纪建筑,”她说。
“于是他们来找我们说,‘请给我一些可以研究的文本,或者我可以将我的计算知识应用于其中的一些问题。’ 然后他们惊讶地发现,他们必须创建一个数据集,或者处理一种不易融入模型的语言。随着他们对模型局限性以及互联网上英语占主导地位程度的新认识,他们开始恍然大悟。于是就有了创造力。你是调整模型还是增强数据?在这个过程中,你会对材料和语言有了很多了解,进而了解文化。”
阿维莱斯-加西亚出生于墨西哥城,在新泽西州巴斯基奇里奇长大,从小就精通英语和西班牙语双语,在夏天去西西里岛游玩时爱上了意大利语。
因此,当他试图运用人工智能语言建模技能去攻克某个课题时,他的法意双语导师西蒙内·马尔凯西引领他研究一部任何语言下都堪称伟大的作品:但丁的《神曲》,这部著作共分为三卷,写于1308年至1321年间,从地狱之旅一直写到天堂之旅。
不过有一个问题:但丁用的是一种古老的托斯卡纳方言写成,即便是现代意大利语模型处理起文本也感到棘手,而以英语训练出来的模型处理效果更是糟糕。
“但丁是意大利语之父,但他的文本并不是标准的意大利语,”法国和意大利语言文学教授、普林斯顿大学2002届比较文学博士马尔凯西说道。阿维莱斯-加西亚用了几个月的时间,与比萨大学的程序员合作,才让自己的模型学会了分析中世纪意大利语。
“有了这个基础之后,你就可以进行有趣、引人入胜、富有前景的查询,就像费尔南多所做的那样,”马尔凯西说。
阿维莱斯-加西亚开始量化《神曲》中经常一起出现的单词。
当他对名词“爱”(《amore》)进行查询时,他猜测了一些可能会与之一起出现的词——比阿特丽斯(但丁的缪斯)、心、动词爱(amare)、爱意、甜美、美丽、美女、女人、妻子、欲望、肉体——然后运行了模型。
令他惊讶的是,他的猜测中几乎没有单词会经常在amore出现后的15个单词范围内出现,但很多与光明(照耀、星星、光线)和黑暗(夜晚)相关的单词却会出现。当他重新审视文本时,这一意想不到的联系带来了新的启示。“但丁将地狱描述为一个没有星星的地方,”他说。“然后我开始发现,地狱的定义是一种更宏大的缺失:爱。”
普林斯顿跨学科人工智能研究的一个优势是,许多学科领域都拥有深厚的专业知识。在这个案例中,阿维莱斯找到了世界顶级的但丁研究专家马尔凯西,询问星星、爱和地狱之间的联系是否是学者们数百年来一直认识到的老生常谈,还是一个全新的概念,或者是介于这两者之间的某个地方。