荷兰集团适用于在第二次世界大战后期创建的数字化合作档档案馆
Apple为Macs的“大血管”安全变为“大血管”
iCloud密码即将到来用于Windows
微软将在4月份用基于铬的版本替换遗留边缘
(微妙)的4秒钟来了
Google Fi:完整的常见问题解答
随着修补程序周二到达,在控制下获取Windows自动更新
为什么Apple应该让您在iPhone上定义私人地方
纯储存概述增长势头,Bolsters云戏剧
Wannacry Variants意外保护vannacry
CIO应该考虑它员工同时的意味着什么
VMware使用Anywhere Workspace定位远程工作安全性
ICO探讨政府通过GOV.uk数据收集计划
注意,手机制造商:我们的设备不是您的广告牌
理事会通过数字举措提供节省
HSM的光谱倾斜,带有Storcycle Storage Management软件
半年后,微软终于将Windows 10放在10亿马克上
调查显示,忠诚的荷兰IT专业人士没有得到奖励
Cortana现在可以在iOS的Outlook中大声读取电子邮件
新加坡航空公司扩展了使用VMware Workspace One
技术初创公司可以在Brexit后提高英国航运市场
Microsoft结束了Office 2010的支持,刘海办公室365锣
经合组织推动国际数字服务税议程
公务员主席呼吁“明智的,经验丰富的强大”IT领导人申请CDIO工作
Windows 10:情况很复杂
Microsoft削减了Windows 10长期支持一半
亚马逊消费者的设备易受两岁的漏洞利用
企业合作进入创新快速车道
Apple Ceo Tim Cook捍卫App Store业务
英国人工智能投资达到记录水平
行业合作修补SWAPGS CPU漏洞
苹果是企业的三大PC供应商,报告索赔
Mutlicloud在金融服务部门使用rife,建议YellowDog Research
随着全球投资跌倒,欧洲金融化投资将继续增长
OpenReach开始推出暗纤维产品
微软通过提供高级Bug Bounteries提升了团队的重要性
Apple的OS开发团队将“建立不同”
Atom Bank CTO在挖掘其数据中心并搬到Google云平台
Restaurant Group支付员工几乎通过Fintech App提前1米
街头掌握伦敦无人驾驶汽车试验
看门狗在警务中敦促生物识别法规
NHSX主管限制了未来的NHS应用增强
亚亚洲如何简化其客户服务
Apple,iPhone 11,CBRS和企业
政府继续探讨英国网络安全劳动力市场
沙特阿拉伯最大的汽车公司作为数字转型的一部分完成SAP项目
新的安全挑战等待APAC专家们等待5G规划师
IBM:'Mac用户更快乐,更高效'
Microsoft将捆绑更新以简化修补程序
学生贷款公司未来的IT基础架构和网络安全“至关重要”
您的位置:首页 >论坛 > 移动互联 >

荷兰集团适用于在第二次世界大战后期创建的数字化合作档档案馆

2021-09-06 13:44:08 [来源]:

数字化档案在荷兰法庭档案项目Triado在仓库中的船档框中移动到一个搜索引擎,用户可以访问任何文档。

三年步的Triado项目开始了三年前,目的是识别哪种计算机技术最能应用于历史集合来数字化和解锁它们。

“当然,我们不是第一个努力工作的人,但我们想了解我们可以用可用的技术做些什么,特别是在国家亚军纪念公约[国家档案馆的特殊司法[CABR]中央档案馆的集合],“项目领导者Edwin Klijn说。

这项档案馆是在第二次世界大战后不久创建的,并包含300,000人的档案,被怀疑与战争中的德国占领者合作 - “犯罪者存档,因为它被称为专业术语”。

此外,它可能是荷兰第二次世界大战最重要的档案。

“我们想看看我们是否可以制作13米的存档 - 这主要包含键入的文件,而且还包含手写的文件 - 机器可读,错误的差距是以及我们可以与数据做什么,”Klijn说。

要将文档数字化,研究组尝试了两个知名软件包:ABBYY FINEREADER和TESSERACT。“ABBYY实际上只是光学字符识别[OCR],但TESSERACT已经有更多的机器学习,”他说。

除了数字化之外,另一个目标是能够访问文件并使其在文档级别中搜索。

“我们试图从使用命名实体识别中提取人员名称,从机器可读文本中放置名称和日期,”Klijn说。

然后,我们将此数据链接到其他数据源,例如由Remmbrance Centor Westerbork和犹太文化季度创建的迫害者(NDVS)的数据库。“

此数据库包含在战争期间受到迫害的人的姓名。“我们希望我们能够在13米数字化存档中识别来自NDV的名称。这导致这一小型测试集的几个100%匹配,因为在肇事者的文件中,当然也提到了许多受害者的名称。“

KLIJN表示,该软件在识别名称中的识别名称中的大幅幅度也醒目。“有很多德国术语,有时案件是用旧荷兰的大写字母写的。”

除了丰富,还进行了实验,以使计算机能够识别某些类型的文件。CABR包含许多标准,可预测的文件,例如会员卡,智力和官方报告的状态,因此系统必须是可识别的。

“我们的右80%的分数为80%,2%错误,”Klijn说。“此外,有很多改进后续项目的空间。我不得不说学习曲线在项目结束时仍在上升。“

这种自我分类实验的优势在于,可以从存档中检索特定类型的文档,这是一个按钮的总共4km。

“在项目结束时,我们制作了一个原型,一个内部网站,我们可以搜索我们数字化的13米档案,”Klijn说。

存档包含有限的公共材料,因此无法从外部访问它。但原型显示了数字化历史文本收集和档案的具体可能。

“我正在努力继续使用新技术和档案的其余部分,尤其是越来越减少误差的余量,”Klijn说。但是,整个档案的数字化也存在困难,例如隐私问题和道德问题。

“这是一个令人难以置信的敏感的存档,不仅是因为它包含的名称,而且因为它的角色:'犯罪者存档'。除此之外,我怀疑技术和基础设施的另一个主要挑战。数字化整个存档需要大约六年。

“这就是为什么考虑到技术的渐进发展是必不可少的以及为什么基础设施应该放在适当的地方,这使得可以不断创新,”Klijn说。“因为明天我们明天的一切都会过时过时。”

例如,今天,Transkribus也是可用的,这是一种软件,它学习如何在手写文档的基础上阅读其余文档。

“不幸的是,在2016年,当我们开始该项目时,该软件尚未完全开发,所以我们不与它合作,”他说。“我们选择了现成的产品并测量了错误的余量。在类型的材料的情况下,结果结果为15%。所以还有改进的余地。

“如果我们现在开始与Transkribus一起使用,那么错误的余量可能会很大。”

重要的是,这种档案可以为人文研究提供。家庭成员,也是历史学家,将能够使用此数据向档案提出新问题或测试旧问题。

它是来自原始源的大量新数据,可以在文本中搜索每个单词。

“我怀疑当这种数据变得可用时,可以重写许多关于战争的书籍,”Klijn说。“它也意味着研究人员,科学家和历史学家必须调整他们的工具箱。还有许多数据可以提供,但一旦这些系列数量可用 - 您可以以新的方式进行研究。“

Triado表明,新技术有很多东西要提供数字化和解锁档案。这在荷兰档案部门中非常革命性,因为它意味着可以搜索到文档级别。目前,很少有可能的集合。

“如果我们能够获得足够的资金来充分数字化CABR档案,这将是一个巨大的项目,”他说。“我认为我们谈论迄今为止归档部门中最大的数字化项目之一。

“我们不应该低估,”Klijn说。“但再次,我不能等。这不仅仅是我的手是痒的,而是我的项目团队中的人民手中的手。“

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。