英国的arkivum为4.8亿欧元欧盟科学数据档案项目
基于英国的数字归档提供商Arkivum是为欧洲跨国公司船舶项目的480万欧元原型阶段选择的三个提供商之一,该项目旨在为其科学伙伴提供Petabyte-Scale数据归档和保护。
该项目由Cern - Geneva附近的大型特罗龙撞机的家中领导 - 并且还包括斯瓦西(德国Elektronen-Synchrotron),Embl-Ebi(欧洲生物信息学院)和PIC(港口D'InformacióCientífic)。
来自Cern的IT部门的Archiver Projects领导者的科学合作伙伴称,Archiver项目旨在为各种研究和分析用例提供Petabyte-Scale Stucts,为科学合作伙伴,Archiver项目领导者。
该技术的可扩展性是一个高优先级,因为预期的最终能力将在几十个Petabytes中。在该项目的原型阶段,系统将在每天最多100TB的速率下摄取数据。
第二阶段价值4.8亿欧元,持续八个月。Archiver由欧洲联盟的地平线2020研究和创新计划共同资助。
“这不仅仅是关于存储比特,还要关于数据的智力控制,因此保留了先前的数据完成了什么,谁由和保留文档和软件,”fernandes说。
这些要求总结了公平原则 - 可找到的,可访问,可互操作性和可重复使用 - 因此如果需要,实验可以在上次工作后再现并继续进行。
实验之间的时间可以冗长,因此数据具有显着的长期价值,并且需要在研究项目结束后可能在存档中保持活跃和可访问。目前,用于处理复杂且有时敏感数据集的自定义数据库为研究人员上传和下载数据提供障碍。
阅读更多数据分析和存储
数据湖泊存储:云与身份上提下的数据湖泊。数据湖是数据管理的基本概念。但是您需要在云上建立数据湖以及云的主要和缺点是什么类型的存储?高性能对象存储:什么是开车?对象存储是实现其性能,以满足内容交付,分析和IOT使用情况的需求,同时通过快速闪存存储介质和其他技术进步实现。“我们有大约10个主要用例,”Fernandes说。“有些人纯粹是关于数据保存的。有些是关于保持第二份副本,也是能够再现分析。其他人,例如与基因组工作相关的那些,涉及每年增加50%的数据,并且需要对数据缓存的何处允许访问它来进行决定。“
Fernandes还描述了需要支持的协议,这些协议是由机构本身开发的(例如Cern / Stanford的Xrootd - 更广泛的行业标准方法,如S3对象存储。
为第二种原型设计阶段选择的三个设计是:arkivum与使用谷歌云平台的托管存储服务层;利比瓦,哪种费尔南德被描述为“使用类似模型到Arkivum”,但在使用的软件方面使用AWS和专有;和Onedata,由Deutsche Telekom / T-Systems提供,并基于开源软件。
在项目移动到下一阶段并在2022年,将在LIMITE的原型项目中评估三种设计中的每一个。
Arkivum是南安普敦大学IT创新中心的旋转。它成功完成了2020年10月的三年项目的初始设计阶段。