1 国际敦煌项目
国际敦煌项目成立于1994年,董事会设在英国,在中国、俄罗斯、日本、德国、法国和韩国设有研究中心,共同开展敦煌西域和丝绸之路东段的文献保护、编录和数字化工作。资源类型包括绘画、手工艺品、纺织品、手稿、历史照片和地图等。截至2018年9月19日,数据库中的影像数量达到520681件。项目提供英、中、俄、法、日、德、韩七种版本的数据,近90%的数据可在线提供检索服务。数据库涵盖了藏品馆藏号、出土地、收藏史、材质、尺寸、装帧、主体、文种、保存与修复情况等信息。同时,在线为研究学者提供藏品的高清影像,并提供下载服务。若用于商业出版则需获得相应馆藏机构授权。为便于学者进行研究,项目收集了与敦煌学、丝绸之路相关的出版文献资源,并与藏品数据建立关联。
国际敦煌项目建立了统一的元数据及图像命名标准。所有数据均以结构化形式存储在数据库中。数据库使用XML语言,使用统一的DTD格式进行数据描述及数据交换。选择国际通用的元数据作为标准集。影像数据格式同样进行了严格的规范。国际敦煌项目在全球所有的成员机构设有藏品编目及数字化研究中心,遵循同样的业务操作流程。大部分研究中心的数据托管在本国的服务器上。每个研究中心拥有对自己数据的读写权限,及对其他托管机构数据的只读访问权限。数据的更改和添加操作会同步到其他服务器上。每个研究中心需按照项目组制定的工作流程要求完成藏品的选择与保护、数据创建、影像处理、质量检查等工作。
2 欧洲数字文化遗产平台
欧洲数字文化遗产平台由EUROPEANA基金会于2008年组织在线开放,致力于将整个欧洲博物馆、画廊、图书馆和档案馆的馆藏进行数字化处理并整合到平台上,便于世界各地的学者进行交流学习。截至2018年9月26日,可在线检索的欧洲艺术品、文物、书籍、视频和声音数据达58,246,083条,同时创建了5个主题馆藏和30多个展览,提供资源的机构超过3500家。
欧洲数字文化遗产平台在资源的数据结构方面做了较大创新。采用自创的EDM(EuropeanaDataModel)作为数据结构标准。EDM模型参考了CIDCO的语义模型结构,为每一个资源分配了唯一标识符,同时定义了数据关联规则用于识别资源之间隐秘的关联关系。EDM数据结构有如下特点:具有较强的灵活性和扩展性,能够最大限度的在各种分散、异构和跨领域资源间建立数据关联关系,同时能够尽可能完善的保存资源数据的各种描述信息。例如,正在开发的V4Design项目中,计划在数据结构中实现3D数据的建模,并将建筑物3D数据与描述性数据建立关联。其次,该项目除了提供丰富的资源描述信息外,还可以添加情境信息,通过相似度算法在地理位置、时间序列、事件、主题内容、形状等情境中为资源建立关联。另外,EDM数据结构具有较强的开放性,与DC、ORE、RDF、FOAF、SKOS、OWL等数据结构具有良好的兼容性和互通性,同时创建了Europeana数据许可框架提高与其他应用程序和服务的数据互操作性。以德国为例,通常将本国相关文化遗产机构的数据转化为LIDO格式并集成到德国数字图书馆平台(German Digital Library,DDB)上,再由DDB将其数据统一传输至欧洲文化遗产平台。根据双方确定的语义转化规则,将展示元数据转化DDB-view格式,索引元数据转化为EDM格式。
3 中国记忆
中国记忆项目由国家图书馆发起,以口述影像作为主要载体,照片、书信、日记、实物、文献资料为辅助载体,记录中国现代及当代“记忆”的数字资源。项目资源以专题库的形式进行整合及展示,涉及主题包括非物质文化遗产、重大历史事件和人物、图书馆记忆三个主题,数据总量达到40TB以上。
由于中国记忆项目涉及到大量的多媒体资源,因此在创建数据结构时,主要考虑两方面问题:其一,制定多媒体资源的描述规范。为了提高视频资源的检索准确性,除去视频编目标准、馆藏和版权等描述信息外,同时将人物音频转换为文字,然后以文字为基础实现对视频的内容描述和关键词标引,如口述事件发生的空间和时间范围以及视频内容描述等,这为实现基于文本的关键视频片段精准查找提供了条件。其二,在视频资源与其他资源间建立数据关联关系。项目以主题库的形式展示资源,因此在数据存储时采用了基于主题的层级结构。以东北抗联专题为例,在其下分为抗联简介、老战士口述、历史照片、文献目录等子专题,这些子专题以资源类型进行划分,在每个子专题下又分别采用了不同的资源组织形式并制定了严格的编码规则。中国记忆项目目前仅对“我们的文字”、“蚕丝织绣”、“中国当代音乐家”、“中国年画”等收集整理的六个专题的资源实现在线展示。作为新媒体时代以记录历史、保存文献、传承民族记忆、服务终身学习为宗旨的全国性文化项目,中国记忆项目未来会加强与地方的合作,利用已有的资源标准规范,收集并展示各地区、民族、行业的历史文化和实践经验,避免稀缺个体资源的遗忘和缺失,实现国家的文化传承。