AI「解码」古罗马，重现千年铭文真相，DeepMind新模型再登Nature

2025-08-18 来源：AI图库吧

爱在西元前的歌词里唱到：「当古文明只剩下难解的语言，传说就成了永垂不朽的诗篇。」如今借助DeepMind推出的生成式AI工具Aeneas，考古学家面对古代碑文不再抓瞎了。

Aeneas原本是古希腊神话中流浪英雄。

出现在7月24日Nature主刊的Aeneas则是一个多模态生成式神经网络，它能帮助历史学家更好地解读、归属和修复残缺文本。

想象考古学家在欧洲发现了一块刻有古代文字的铭文，文本残缺不全、部分文字被风化或被故意破坏。

也没有语境信息，这使得恢复、确定年代和定位这块铭文的出处变得几乎是不可能的，尤其是在比较相似的铭文时。

考虑到在罗马世界，文字无处不在——从帝国纪念碑到日常用品，无不刻有文字。从**涂鸦、爱情诗篇和墓志铭，到商业交易、生日邀请和魔法咒语。

图1由Aeneas修复的，公元113/14年来自萨丁岛的青铜军事命令，由皇帝Trajan授予一艘战船上的水手

这些铭文为现代历史学家提供了丰富的见解，揭示了罗马世界日常生活的多样性。

但也增加了考古工作的难度，考古学家需要依赖其专业知识检索自身积累的数据库，方可识别相似文本——这些文本在措辞、句法、标准化公式或来源方面具有相似性。

然而检索相似的信息，为文章确定上下文，不就是生成模型适合的活吗？

于是Aeneas出现了，它能够跨越数千份拉丁铭文进行推理，在几秒钟内检索出文本和语境相似文本，这样的加速度，让考古学家从检索文本这项复杂且耗时的工作中解脱出来。

如今他们能快速地拿到对古代铭文的解释，并基于模型的发现进行进一步研究。

图2Aeneas的使用界面

Aeneas的丰富功能

在Aeneas出现之前，2022年Deepmind推出了Ithaca，这是一个基于深度神经网络预测古希腊铭文年代，并补全缺失文本的工具。

Aeneas则更进一步，它能帮助历史学家解读文本，通过提供上下文，赋予孤立片段意义，从而得出更丰富的结论，并整合对古代历史的更好理解。

具体来看，它在庞大的拉丁铭文集合中搜索平行文本。通过将每个文本转化为一种历史指纹，Aeneas可识别出文本间的深层联系。

在年代和出处预测方面，Aeneas能够将文本置于历史学家提供的日期范围内13年内，以72%的准确率将铭文归入62个古代罗马行省之一。

作为首个利用多模态输入确定文本地理来源的模型。它可同时分析文本和视觉信息，例如铭文图像。

不同于只能预测单个词的Ithaca，Aeneas够修复文本中缺失长度未知的段落。

Aeneas能以73%的准确率修复最多十个字符缺失的损坏铭文。当修复长度未知时，准确率也会有58%。

这使得它成为处理严重损坏材料的史学家的更通用的工具。

Aeneas不仅适用于铭文，还可以适应其他古代语言、文字和媒介，从莎草纸到硬币，扩展其功能以帮助连接更广泛的历史证据。

想试用Aeneas的可登录predictingthepast.com，以交互式使用。

作为开源软件，中国的考古学家也可以调整Aeneas，让Aeneas能够用于解读诸如西夏文，契丹文等失传的中国古迹。

工作原理和典型案例

为了训练Aeneas，Deepmind的研究者精心策划了一个庞大且可靠的数据集，借鉴了数十年来历史学家的工作成果来创建数据集，其中包括了古希腊和罗马时代铭文的文本和图像。

Aeneas使用了NLP领域的大杀器transformer来处理碑文文本输入，并通过解码器检索相似的碑文，并按相关性排序。

对于每块铭文，Aeneas的语境化机制使用一种称为嵌入的技术检索一系列相似物——将每块铭文的文本和语境信息编码成一种包含文本内容、语言、来源时间地点以及与其他碑文关联性的历史指纹。

图3Aeneas的架构，展示该模型如何接收文本和图像输入以生成省份、日期和修复预测

接下来看Aeneas解析古代文本的一个典型例子。

古罗马皇帝奥古斯都以第一人称成就记述《功业记》，这是古罗马历史中一块著名的石碑，这份铭文由奥古斯都亲自撰写、是其自我夸耀的终身成就的总结。

文本中出现了对帝国夸张的描述、无关的日期和虚假的地理标志，而且学界对其撰写的时间也存在争议。

历史学家们长期以来一直争论这块铭文的年代。Aeneas将所有碑文的模糊年代和来源特征进行语境化分析。

它捕捉到了拼写和词汇的线索，以及表明微妙**意识形态和帝国归属的语言学细微差别。

其预测基于文本中提到的微妙语言特征和历史标志，如官方头衔和纪念碑。

通过将年代问题转化为基于语言和上下文数据的概率估计。

有趣的是Aeneas并没有预测一个固定的日期，而是产生了一个可能的日期分布的详细情况，如图4所示。

其预测呈现两个明显的峰值，一个较小的峰值出现在公元前10-1年左右，一个较大的、更自信的峰值在公元10-20年之间。

这些结果说明Aeneas给出的预测是谨慎的，其反映了当前学者们意见的差异。

给出了两个可能的日期范围，而不是单一的预测，反而说明了Aeneas能够历史辩论提供了一种新的、定量的方法。

图4Aeneas对《功业记》年代归属预测的直方图，该模型模拟了围绕这一著名碑文年代测定所展开的学术辩论

近期，有不少将AI技术应用于考古领域的尝试，从为无名老兵做面部复原，到博物馆里对古人构建数字虚拟替身，AI在考古及历史领域的应用值得关注。

去年复旦大学更是开设了「AI考古」的课程，华南理工大学深度学习与视觉计算实验室（SCUT-DLVCLab）也曾推出的专注于古籍文言文处理的通古大模型。

面对中国浩如烟海的古籍古碑，未来的考古学家，或许更需要像Aeneas这样的工具，来从海量数据中淘金。

超低标注需求，实现医学图像分割，UCSD提出三阶段框架GenSeg

相关AI教程资讯

热门工具

本周AI教程资讯

更多