×

历史文献 程序员 学家 已有 机器

未来历史学家将是一个程序员?已有专家使用机器学习研究历史文献

jnlyseo998998 jnlyseo998998 发表于2023-04-12 18:00:04 浏览25 评论0

抢沙发发表评论

1531 年,夜幕笼罩下的威尼斯,在一个印刷车间里,一名学徒正努力设计天文学教科书中的一页,包括加粗的线条和一幅木刻插图,内容是一个小天使探头观察正在宇宙中移动的形状,这代表了一次月食。16 世纪的图书制作工艺是一个非常耗时的过程,但它可以让知识以前所未有的速度传播。

500 年后,信息正以前所未有的速度不断产生:以 tb 为单位的图像、视频和文本,大量的数字数据几乎实现了立即传播,还会以几乎同样快的速度进行分析,从而使机器学习模型的训练成为可能,并将信息分类。这种信息生产的转变对从艺术创作到药物开发的一切事物的未来都有影响。

但这些进展也使人们有可能以不同的视角看待过去的数据。历史学家已经开始使用机器学习—,特别是深度神经网络,来检查历史文献,包括威尼斯和其他早期现代城市的天文表,它们有的在发霉的档案中历经了几个世纪,还有的因为印刷问题而扭曲难辨。

(来源:BETH HOECKEL)

历史学家说,将现代计算机科学应用于遥远的过去,有助于将更广泛的历史记录建立联系,还可以纠正每次分析一份文件所产生的误解。但它也引入了自带的一些误解,包括机器学习可能会将偏见或伪造内容纳入历史记录的风险。所有这些都给历史学家和其他人提出了一个问题,他们通常认为要通过审视历史来理解现在,但随着机器在未来发挥更大的作用,我们应该把过去交给它们多少?

展开全文

解析复杂性

通过将越来越多的历史文件数字化,大数据正在融入人文学科,比如美国国会图书馆收集的数百万份报纸页面,以及 19 世纪芬兰档案馆的法庭记录。对研究人员来说,这既是一个问题,也是一个机会:有太多的信息,我们没有好的方法来筛选它们。

随着帮助学者们分析复杂性的计算工具的发展,人们已经遇到了这一挑战。2009 年,奥地利科学院教授约翰内斯·普雷塞-卡佩勒(Johannes Preiser-Kapeller)审查了 14 世纪拜占庭教会的决定记录。普雷塞-卡佩勒意识到,理解数百份文件需要对主教的关系进行系统的数字调查,他建立了一个个人数据库,并使用网络分析软件重建他们的联系。

这种重建揭示了隐藏的影响力规律,导致普雷塞-卡佩勒认为,在会议上发言最多的主教并不是最有影响力的;他将这项技术应用于其他网络,包括 14 世纪的拜占庭精英,揭示了其社会结构通过隐藏女性的贡献来维持。他说:“在一定程度上,我们能够确定在官方说法之外到底发生了什么。”

普雷塞-卡佩勒的成果只是学术上这一流行趋势的一个案例。但在以前,机器学习常常无法从越来越大的文本集合中得出结论,尤其是因为历史文件的某些特性(在普雷塞-卡佩勒的例子中,书写混乱的希腊文)使机器学习模型无法解读它们。现在,深度学习的进步已经开始解决这些限制,利用模仿人类大脑的网络来挑选出大型和复杂数据集中的隐藏规律。

大约 800 年前,13 世纪的天文学家约翰内斯·德·萨克罗博斯科(Johannes de Sacrobosco)出版了一篇关于“地心说”的介绍性论文。那篇论文成为了早期大学生的必读书目。它是流传最广泛的关于地心宇宙学的教科书,即使在哥白尼于 16 世纪颠覆了地心说的观点之后仍能流传至今。

这篇论文也被收录于 1472 年至 1650 年间出版的 359 本天文学教科书的数字版数据集中,里面还包括成千上万的科学插图和天文表。在这个全面的数据集中,德国马克斯·普朗克科学史研究所的教授马特奥·瓦勒里亚尼(Matteo Valleriani)看到了一个调查欧洲知识如何向共同科学世界观发展和进化的机会。但他意识到,识别这个规律需要的不仅仅是人类的能力。因此,瓦勒里亚尼和柏林学习与数据基础研究所(BIFOLD,Berlin Institute for the Foundations of Learning and Data)的研究人员看中了机器学习。

这就需要将数据集分为三类:文本部分(关于特定主题的文字内容,有清晰的开始和结束);科学插图,有助于阐明月食等概念;还有数字表,用来教授天文学的数学方面。所有这些都给历史学家提出了一个问题:随着机器在未来发挥更大的作用,我们应该把过去让给它们多少?

瓦勒里亚尼说,文本内容可能无法被算法所解释。第一个原因是字体的变化很大。早期的印刷厂为他们的书开发了独特的印刷字体,并经常有自己的冶金车间来铸造他们的字母。这意味着,一个使用自然语言处理(NLP,natural-language processing)来阅读文本的模型将需要对每本书进行再训练。

语言本身也是一个问题。许多文本都是用特定地区的拉丁方言写的,没有接受过历史语言训练的机器通常无法识别。瓦勒里亚尼说:“这通常是自然语言处理的一个很大限制,因为你没有能训练的词汇。”这也是为什么自然语言处理模型对英语等主流语言更有效,但对古希伯来语等冷门语言的效果较差。

相反,研究人员会从原始材料中手动提取文本,并识别出一组文档之间的单个链接,例如,当一个文本被模仿或翻译到另一本书中的情况。这些数据被放置在一个图表中,该图表会自动将这些单个链接嵌入到一个包含所有记录的网络中。研究人员随后使用一个图表,来训练一种可以建议文本之间连接的机器学习方法。这就留下了文本中的视觉元素:2 万张插图和 1 万张表格,研究人员可以对它们使用神经网络进行研究。

“现在主义”

历史图像的计算机视觉研究也面临着与自然语言处理类似的挑战。里士满大学的数字人文学科副教授劳伦·蒂尔顿(Lauren Tilton)称其为“现在主义”偏见。蒂尔顿说,许多人工智能模型都是根据过去 15 年的数据集进行训练的,他们学会列出和识别的物体往往是当代生活才有的特征,比如手机或汽车。

计算机通常只识别具有较长历史的物体的迭代——比如 iPhone 和特斯拉,而不是配电盘和福特 Model T 车型。最重要的是,模型用来训练的通常是高分辨率的彩色图像,而不是过去的颗粒状黑白照片。这一切都使得计算机视觉在应用于历史图像时不那么准确。

“我们与计算机科学人员交谈,他们会说,‘我们已经解决了物体识别的问题,’”她说,“我们会反驳说,如果你拿一组 20 世纪 30 年代的照片,你会发现它还没有像我们想象的那样完全解决。”深度学习模型可以识别大量数据中的模式,它们可以帮上忙,是因为它们能够进行更大的抽象。

(来源:柏林马普科学史研究所图书馆)

在 Sphaera 项目中,BIFOLD 研究人员训练了一个神经网络来检测、分类和聚类(根据相似性)早期现代文本中的插图。现在,历史学家可以通过一个名为 CorDeep 的公共网络服务访问这个模型。他们还采用了一种分析其他数据的新方法。例如,在数百本书中,不同的表格无法直观地进行比较,因为“相同的表格有 1000 种不同的印刷方式,”瓦勒里亚尼解释说。因此,研究人员开发了一种神经网络架构,它根据所包含的数字检测和聚集类似的表格,而忽略它们的布局。

(来源:柏林马普科学史研究所图书馆)

到目前为止,该项目已经取得了一些令人惊讶的结果。研究人员看到了隐藏在数据中一种规律:当新教改革后,欧洲沿着宗教路线分裂时,科学知识却在融合。在新教城市德国维滕贝格等地方印刷的科学文本,由于改革宗学者的工作,已经成为一个学术创新的中心,在传播到整个欧洲大陆之前,曾在巴黎和威尼斯等中心城市被模仿。

瓦勒里亚尼说,新教改革并不是一个未得到充分研究的课题,但机器学习模型的视角让研究人员看到了一些新的东西:“这在以前是看不清楚的。”应用于表格和图像的模型已经开始展现类似的规律。

瓦勒里亚尼说,这些工具提供了比简单地追踪 1 万份表格更重要的可能性。它们允许研究人员从记录数据集中的规律里推断出知识的进化,即使他们实际上只检查了少数文档。他说:“通过看两份表格,我已经可以得出一个跨越大约 200 年的结论了。”

深度神经网络也在研究更古老的历史中发挥了作用。破译碑文和修复受损文物是艰苦的工作,特别是当刻文的物体被移动或缺少上下文线索时。专业的历史学家需要做出有根据的猜测。

为了提供帮助,DeepMind 的研究科学家扬尼斯·阿塞尔(Yannis Assael)和威尼斯福斯卡里宫大学的博士后西娅·索默希尔德(Thea Sommerschield)开发了一个名为伊萨卡(Ithaca)的神经网络,它可以重建缺失的碑文部分,并将日期和位置归为文本。研究人员表示,通过从大量数据中学习的深度学习方法——涉及对超过 7.8 万个碑文的数据集进行训练——是第一个可以同时解决恢复和归因问题的方法。

阿塞尔和索默希尔德说,到目前为止,这种方法正用来揭示来自古典雅典一个重要时期的法令碑文,它长期以来被认为是公元前 446 年和 445 年出现的,一些历史学家对这个日期有争议。

作为一个测试,研究人员在一个不包含相关碑文的数据集上对模型进行训练,然后要求它分析法令的文本。这产生了一个不同的日期。他们通过电子邮件说:“伊萨卡人对这些法令的平均预测日期是公元前 421 年,与最近的日期确定研究突破相一致。这显示了机器学习促进了希腊历史上最重要时刻之一的讨论。”

时间机器

其他项目则建议使用机器学习来对过去做出更广泛的推论。这就是威尼斯“时间机器”背后的动机,它是现在已经建立起来的欧洲几种本地化的“时间机器”之一,旨在从数字化的记录中重建当地的历史。

威尼斯的国家档案涵盖了 1000 年的历史,分布在 80 千米长的书架上。研究人员的目的是将这些记录数字化,其中许多记录从未被现代历史学家检查过。他们将使用深度学习网络来提取信息,并通过追踪在其他文档中出现的相同信息,重建曾经连结着威尼斯人的联系。

时间机器(Time Machine)组织的主席弗雷德里克·卡普兰(Frédéric Kaplan)说,这个项目已经数字化足够多的城市行政文件,可以捕捉过去几个世纪的城市纹理,使它有可能通过一栋栋建筑来识别不同时间点住在那里的家庭。卡普兰说:“这里有成千上万的文件,只有数字化才能达到这种形式的灵活性。这是前所未有的。”

(来源:BETH HOECKEL)

不过,当谈到该项目的最终承诺——通过人工智能网络,尽可能地重建中世纪威尼斯的数字模拟——历史学家约翰内斯-卡佩勒(Johannes Preiser-Kapeller)表示,这个项目目标无法实现,因为模型不能理解哪些连接是有意义的。

普雷塞-卡佩勒自己做了实验,使用自动检测开发从文档提取网络信息的算法,而不是由人类专家提取信息再输入网络。他说模型产生了很多“人工复杂性”,但没有对历史解释有任何帮助。

该算法无法区分两个人的名字出现在一张纳税表和一张结婚证上的情况,因此正如,普雷塞-卡佩勒所说,“你得到的东西没有解释价值。”这是历史学家在机器学习中强调的一个局限性,类似于人们对像 ChatGPT 这样的大型语言模型的观点:因为模型最终不理解他们所读的内容,他们可以得出荒谬的结论。

卡普兰说,对于目前可用的信源,需要人工解释来提供上下文和背景知识。不过他认为,一旦足够多的历史文件可被机器读取,这种情况可能会改变。

但他想象的是,机器学习的应用更具变革性,而且可能也更有问题。生成式人工智能可以用来做出预测,来充实历史记录中的空白点——例如,威尼斯工匠工作室中学徒的数量,这可能不准确或不完整,因为它不是基于具体的记录,而是基于汇总来的数据。这可能会带来更多的非精英阶层的观点,但与标准的历史实践背道而驰,后者强调的是结论要基于现有证据。不过,以制造虚假记录闻名的神经网络还是带来了一个更直接的担忧。

是真的吗?

在 YouTube 上,观众现在可以观看理查德·尼克松(Richard Nixon)的演讲,这是 1969 年为登月失败而准备的,但幸运的是,这份演讲没能用上。研究人员创造了这个深度造假(Deepfake)技术,以展示人工智能如何影响我们共同的历史观。

在几秒钟内,人工智能技术就会产生重大历史事件的虚假图像,比如诺曼底登陆。正如美国东北大学历史教授丹·科恩(Dan Cohen)在一个致力于探索数字媒体和技术如何塑造历史研究的课堂上讨论的那样,“这些照片完全令人信服。你可以把一群人放在海滩上,配上坦克和机关枪,(伪造的)效果很好。”

虚假的历史并不是什么新鲜事,科恩指出了约瑟夫·斯大林(Joseph Stalin)下令将敌人从历史书中抹去的方式——但创造虚假历史的规模和速度愈发惊人,而且问题已经超出了图像的范畴。生成式人工智能可以创造出,读起来像维多利亚时代议会演讲的文本,足以以假乱真。通过生成历史笔迹或字体,它还可以创建一个看起来令人信服的书面历史记录。

与此同时,人工智能聊天机器人,比如 Character.AI 和 Historical Figures Chat,允许用户模拟与历史人物的互动。历史学家对这些聊天机器人提出了担忧,因为这可能会让一些历史人物比实际上显得不那么种族主义。

换句话说,从历史聊天机器人到基于历史记录进行预测的模型,人工智能可能会有非常错误的风险。其中一些错误是无关紧要的年代错误:如果你向聊天机器人询问,亚里士多德关于女性的看法(他认为她们是低等的),它的回答是她们应该“没有社交媒体”。但其他的可能更重要——尤其是当它们被混合在一堆文件中,历史学家无法单独检查,或者它们是由对某种特定历史解释感兴趣的人传播的,以一种别有用心的方式。

即使没有故意的欺骗,一些学者也担心,未经训练的历史学家可能会使用他们无法理解的工具。美国德克萨斯大学圣安东尼奥分校的历史学教授亚伯拉罕·吉布森(Abraham Gibson)说:“我认为这有很大的风险,因为作为人类主义者或历史学家,我们实际上正在有效地将分析外包到另一个领域,对方很可能是机器。”

吉布森说,直到最近,与他交谈过的历史学家都没有看到人工智能与他们的工作有关,但他们越来越意识到,他们最终可能会把一些历史解释变成一个黑盒子。

这个“黑盒”问题并不是历史领域独有的:即使是机器学习系统的开发人员,有时也难以理解它们是如何运作的。幸运的是,一些为历史学家设计的方法可以提供更大的透明度。

Ithaca 系统提出了一系列按概率排序的假设,BIFOLD 的研究人员正在用可解释的人工智能来解释他们的模型,这旨在揭示哪些输入对预测贡献最大。历史学家说,他们自己通过鼓励人们以批判的态度来看待机器学习并促进透明度:这是一种有用的工具,但也容易出错,就像人们容易出错一样。

尽管人们对这种新技术依心存怀疑,但历史领域正在逐渐接受它。瓦勒里亚尼认为,随着时间的推移,拒绝使用计算方法的历史学家将会越来越少。他说,学者们对人工智能伦理的担忧,与其说是不使用机器学习的原因,不如说是人文学科为其发展做出贡献的机会。

正如法国历史学家伊曼纽尔·勒罗伊·拉杜里(Emmanuel Le Roy Ladurie)在 1968 年写的那样,历史学家已经开始尝试用计算方法来调查问题,比如 1840 年代英国议会的投票规律,所以“未来的历史学家将是一个程序员,否则他将不复存在。”

支持:Ren

原文:

/