数字资源长期保存,可以定义为一系列对数字信息进行持续管理和维护的活动,目标是为了确保数字信息的长期存活,保证数字信息真实可信,能够被未来的使用者所理解和应用。[][13] 基于对国内外主要数字资源长期保存体系的研究和分析,其架构体系按照职能的不同,可以分为数据管理、数据结构、数据获取、数据存储和数据访问五部分。五个模块的功能划分和相互关系如图1所示。
1数据管理
数据管理功能模块主要用于实现资源规划、工作流程、技术策略、大规模数据迁移策略、数据存储策略、数据获取和访问策略、以及知识产权保护策略等的制定和确认工作,从技术和管理层面对整个系统的运行做出设计,并实时监测系统的运行状态。数据长期保存主要面向多个机构在某个行业、领域或专题的数据,其目的在于实现对数据的整合、永久保存和共享,因此涉及到大量管理、规划和安全保障工作,实现系统的可信赖性。
2数据结构
数据结构主要用于管理数字内容、元数据及二者之间的相互关系,以便于实现对数据的导入、导出、查询和访问等功能。数据结构包括描述信息和管理信息两种资源类型,并需要满足以下功能。(1)数据结构需具有可扩展性,可根据保存目标及规模进行调整;(2)能够为数字资源及其元数据提供唯一标识符;(3)能够抽取和创建元数据并进行管理;(4)能够将资源呈现给用户;(5)需要具备强大的数据索引及检索功能;(6)对所用技术进行监测,及时发现并替换过时的技术;(7)能够记录所有元数据的历史变更信息;(8)定期对数据进行审计等。
3数据获取
数据获取功能主要用于与资源第三方协商确定获取数据的内容、规范与版权条例后,应用数据封装、唯一标识、完整性校验和格式转换等技术手段将资源获取到长期保存系统进行存储的过程。为降低该功能模块的复杂性,一般会要求对同一机构的同一类型数据采用同一种数据结构和规范进行获取。在数据进入长期保存系统后,首先要对数据质量进行检测,包括数据完整性、格式统一性、数据有效性、数据可读性和病毒检测等。在检测通过后,数据会进入存储模块,同时向资源提供者发出确认通知并生成系统日志。
4数据存储
数据存储功能主要用于解决数据的安全问题,通过数据存储软、硬件技术相配合的方式,创建数据安全体系,增强系统对各种故障、意外事故和灾难的抵御能力。目前常用的数据存储技术包括:网络存储、分层存储、虚拟化和云存储等类型,对于重要的数据资源,应实现远程备份。由于数据长期保存系统通常会涉及到大体量的数据存储问题,对存储空间的容量、存储安全性、错误检测和数据读取速度具有较高要求,导致存储设备的投入成本较高。
5数据访问
数据访问功能模块主要用于接收用户的资源访问请求,然后根据用户的资源访问权限和数据管理控制要求,将生成的响应数据传递给用户的过程。其中,资源定位、用户认证授权和数据开放协议等技术是数据访问模块的核心问题。应当在保证数据和系统安全性的前提下,提高系统的易用性和可用性。