荷兰集团适用于在第二次世界大战后期创建的数字化合作档档案馆
数字化档案在荷兰法庭档案项目Triado在仓库中的船档框中移动到一个搜索引擎,用户可以访问任何文档。
三年步的Triado项目开始了三年前,目的是识别哪种计算机技术最能应用于历史集合来数字化和解锁它们。
“当然,我们不是第一个努力工作的人,但我们想了解我们可以用可用的技术做些什么,特别是在国家亚军纪念公约[国家档案馆的特殊司法[CABR]中央档案馆的集合],“项目领导者Edwin Klijn说。
这项档案馆是在第二次世界大战后不久创建的,并包含300,000人的档案,被怀疑与战争中的德国占领者合作 - “犯罪者存档,因为它被称为专业术语”。
此外,它可能是荷兰第二次世界大战最重要的档案。
“我们想看看我们是否可以制作13米的存档 - 这主要包含键入的文件,而且还包含手写的文件 - 机器可读,错误的差距是以及我们可以与数据做什么,”Klijn说。
要将文档数字化,研究组尝试了两个知名软件包:ABBYY FINEREADER和TESSERACT。“ABBYY实际上只是光学字符识别[OCR],但TESSERACT已经有更多的机器学习,”他说。
除了数字化之外,另一个目标是能够访问文件并使其在文档级别中搜索。
“我们试图从使用命名实体识别中提取人员名称,从机器可读文本中放置名称和日期,”Klijn说。
然后,我们将此数据链接到其他数据源,例如由Remmbrance Centor Westerbork和犹太文化季度创建的迫害者(NDVS)的数据库。“
此数据库包含在战争期间受到迫害的人的姓名。“我们希望我们能够在13米数字化存档中识别来自NDV的名称。这导致这一小型测试集的几个100%匹配,因为在肇事者的文件中,当然也提到了许多受害者的名称。“
KLIJN表示,该软件在识别名称中的识别名称中的大幅幅度也醒目。“有很多德国术语,有时案件是用旧荷兰的大写字母写的。”
除了丰富,还进行了实验,以使计算机能够识别某些类型的文件。CABR包含许多标准,可预测的文件,例如会员卡,智力和官方报告的状态,因此系统必须是可识别的。
“我们的右80%的分数为80%,2%错误,”Klijn说。“此外,有很多改进后续项目的空间。我不得不说学习曲线在项目结束时仍在上升。“
这种自我分类实验的优势在于,可以从存档中检索特定类型的文档,这是一个按钮的总共4km。
“在项目结束时,我们制作了一个原型,一个内部网站,我们可以搜索我们数字化的13米档案,”Klijn说。
存档包含有限的公共材料,因此无法从外部访问它。但原型显示了数字化历史文本收集和档案的具体可能。
“我正在努力继续使用新技术和档案的其余部分,尤其是越来越减少误差的余量,”Klijn说。但是,整个档案的数字化也存在困难,例如隐私问题和道德问题。
“这是一个令人难以置信的敏感的存档,不仅是因为它包含的名称,而且因为它的角色:'犯罪者存档'。除此之外,我怀疑技术和基础设施的另一个主要挑战。数字化整个存档需要大约六年。
“这就是为什么考虑到技术的渐进发展是必不可少的以及为什么基础设施应该放在适当的地方,这使得可以不断创新,”Klijn说。“因为明天我们明天的一切都会过时过时。”
例如,今天,Transkribus也是可用的,这是一种软件,它学习如何在手写文档的基础上阅读其余文档。
“不幸的是,在2016年,当我们开始该项目时,该软件尚未完全开发,所以我们不与它合作,”他说。“我们选择了现成的产品并测量了错误的余量。在类型的材料的情况下,结果结果为15%。所以还有改进的余地。
“如果我们现在开始与Transkribus一起使用,那么错误的余量可能会很大。”
重要的是,这种档案可以为人文研究提供。家庭成员,也是历史学家,将能够使用此数据向档案提出新问题或测试旧问题。
它是来自原始源的大量新数据,可以在文本中搜索每个单词。
“我怀疑当这种数据变得可用时,可以重写许多关于战争的书籍,”Klijn说。“它也意味着研究人员,科学家和历史学家必须调整他们的工具箱。还有许多数据可以提供,但一旦这些系列数量可用 - 您可以以新的方式进行研究。“
Triado表明,新技术有很多东西要提供数字化和解锁档案。这在荷兰档案部门中非常革命性,因为它意味着可以搜索到文档级别。目前,很少有可能的集合。
“如果我们能够获得足够的资金来充分数字化CABR档案,这将是一个巨大的项目,”他说。“我认为我们谈论迄今为止归档部门中最大的数字化项目之一。
“我们不应该低估,”Klijn说。“但再次,我不能等。这不仅仅是我的手是痒的,而是我的项目团队中的人民手中的手。“