"云端数字化:文化遗产元数据采集的新纪元"

Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects

摘要

本文介绍了一种基于Microsoft 365云技术的数字化工作流程,旨在为文化遗产对象获取丰富的元数据。该解决方案由Jagiellonian大学与Jagiellonian图书馆合作开发,利用MS Excel文件作为元数据采集接口,Office Script进行验证,以及MS Sharepoint进行存储。此工作流程允许领域专家(如文献学家、历史学家、哲学家、图书馆员、档案管理员、策展人等)无需信息系统经验即可进行元数据采集。最终目标是创建一个描述分析藏品的知识图谱,并链接到通用知识库和其他文化遗产收藏。该工作流程已在DiHeLib项目中针对“柏林收藏”进行了两次试点评估,并在国际嘉宾参与的研讨会中得到了改进和确认。

原理

该论文提出的数字化工作流程基于Microsoft 365云平台,通过使用MS Excel作为元数据输入界面,结合Office Script进行数据验证,以及在MS Sharepoint中存储数据。这种集成解决方案不仅不干扰现有机构的数字化和基本元数据收集系统(如文件类型、图像质量、使用Dublin Core/MARC-21),而且扩展了这些系统,以实现以前不可能的丰富元数据收集。通过这种方式,领域专家可以轻松地输入和验证元数据,而无需深入了解复杂的信息系统。此外,该系统还支持与外部数据库的链接,如Geonames和Europeana,从而增强了数据的互操作性和可用性。

流程

数字化工作流程的具体步骤包括:首先,领域专家使用MS Excel文件(称为知识矩阵TKM)输入元数据;其次,通过Office Script进行初步验证;然后,使用Python脚本进行更详细的验证;最后,将验证后的元数据存储在MS Sharepoint中。此外,工作流程还包括一个映射系统(MAP),用于将特定页面与实际扫描文件关联。例如,在DiHeLib项目中,这一流程已被用于处理大约300,000份具有重要历史价值的文档。整个流程通过迭代开发和实际应用中的不断调整,确保了元数据的高质量和数字化过程的顺利进行。

应用

该论文提出的数字化工作流程不仅适用于Jagiellonian图书馆,还具有广泛的适用性,可以推广到所有GLAM机构(画廊、图书馆、档案馆和博物馆)。随着数字化技术在文化遗产领域的广泛应用,这种基于云的解决方案能够有效地支持大规模的元数据采集和知识图谱构建,从而促进文化遗产的保存、研究和全球共享。未来,该工作流程还计划在Jagiellonian大学的其他项目中进行评估和应用,进一步验证其通用性和效率。