- 作者: Christopher Hill、Philipp Koellinger、Erik Van Winkle
- 2024 年 3 月 14
- 编者注:今天的文章由 Christopher Hill、Philipp Koellinger 和Erik van Winkle撰写。Christopher 是一位神经经济学家、技术专家和企业家。他与他人共同创立了 DeSci Labs,致力于开发下一代技术以促进可复制、开放和公平的科学出版。Philipp 是阿姆斯特丹自由大学的经济学教授。他与他人共同创立了 DeSci Labs,并担任 DeSci 基金会的主席。Erik Van Winkle 是 DeSci Labs 的业务发展主管、GO FAIR 基金会的 FAIR 实施推动者以及 DeSci 基金会 dPID 工作组的负责人。全面披露:作者隶属于 DeSci Labs AG 和 DeSci 基金会。dPID 是一种开源软件解决方案,根据 MIT 许可证分发,由 DeSci Labs AG 开发(https://github.com/desci-labs/nodes/)。
互联网上的持久性:一个全球性问题
我们都同意我们需要一个数字版的科学记录。问题是当前的互联网并不是为此而设计的。除了链接失效的问题之外,还有内容漂移的问题,即 URL 解析后不再链接到初始内容。Jones等人 (2016)的一项研究表明,链接失效或内容漂移影响了 Elsevier、arXiv 和 PubMed Central 语料库中的几乎所有互联网参考文献。参考文献越旧,问题就越严重。1997 年的 URL 如今几乎不再有效(见下图)。但即使是三年前的 URI 参考文献中也有 50% 受到链接失效和内容漂移的影响。
在这篇文章中,我们讨论了当前解决现有互联网技术缺点的方法,找出了剩余的瓶颈,并提出了解决这些瓶颈的方法。我们在此讨论的对科学记录主干的升级将在很大程度上解决复制危机和出版商发现虚假研究的日益严峻的挑战。
图 13 取自 Jones 等人(2016 年),《学术语境漂移:四个 URI 引用中有三个导致内容改变》,PLOS ONE,11(12): e0167475。根据 CC BY 许可使用。
持久标识符:DOI 面临的挑战
当然,互联网上的持久性问题众所周知。解决方案是数字内容的持久标识符 (PID),这些标识符应该能够实现长期引用和访问。数字对象标识符 ( DOI )系统是作为学术记录数字版本的 PID 解决方案开发的——这是一个巨大的成功案例。
DOI 已成为学术信息持久标识符的事实标准,以至于有些人认为 DOI 是科学合法性的保证(但事实并非如此)。出版物、预印本、科学数据集和其他学术内容已注册了超过 1 亿个 DOI。DOI 对于学术数据库和索引服务(如 Web of Science、Scopus、Dimensions 等)至关重要。
然而,我们目前识别和解析学术内容的黄金标准仍未达到所需的持久性水平。真正持久的标识符应该始终解析为相同的结果。但 DOI 并非如此。根据Klein 和 Balakireva (2020)的一项研究,大约 50% 的 DOI 请求无法解析到目标资源。该研究详细说明了不同网络中 DOI 行为的不一致:当您在工作时尝试从计算机解析 DOI 时,以及在旅行时尝试从手机解析 DOI 时,您可能会得到截然不同的响应。
对于出版商来说,获取 DOI 和更新 DOI 记录也是一项繁琐且昂贵的任务。CrossRef 和 DataCite 的收费结构都是,如果创建的 DOI 越多,收费就越高。如果出版物的 URL 发生变化,DOI 发布者负责更新 DOI 数据库——但并非所有发布者都能持续快速地更新。换句话说,DOI 系统依赖于平台运营商和 PID 提供商之间的社会契约和信任,而这些契约和信任很难执行,而且成本高昂。这限制了 DOI 系统的可靠性和可扩展性。
此外,在未来潜在的FAIR (可查找、可访问、可互操作和可重复使用)科学世界中,每一项研究成果(不仅仅是已发表的手稿)都需要一个全球唯一、持久且可解析的标识符。为了实现这一目标,未来十年必须铸造数万亿个 PID,并且需要维护数万亿个 PID 到 URL 的映射。这对于当前的 DOI 系统来说是不可想象的。
随着 DOI 铸造的激增(或更糟的是缺乏),链接腐烂、内容漂移、工件碎片化和不一致解析的盛行将进一步扩大。不接受 FAIR 科学的社会成本甚至更大:欧盟委员会的一项研究发现,仅欧洲经济没有FAIR 研究数据每年就损失超过 100 亿欧元。这一估计甚至不包括对研究质量、技术进步和经济增长放缓的不利影响。
dPID:分布式生态系统的分布式架构
这些问题的技术解决方案已经开发出来,但尚未在科学生态系统中广泛实施。在过去的二十年里,几个开源社区和 W3C 工作组已经解决了互联网缺乏持久性的根本原因。核心思想是 PID 不应该问“这个位置存储的内容是什么?”相反,正确的问题是“这个数字指纹的内容是什么?”对这样一个基础问题进行微小的调整会产生深远的影响,从而实现确定性的解决方案。
确定性解析是指 PID 应保证解析到其索引资源。确定性解析长期以来一直是一个难以实现的目标,但由于支持技术的成熟,它终于有望实现。这种新型 PID 技术称为“dPID”——“分散式持久标识符”的缩写。除了确定性解析之外,dPID 还提供了许多令人惊讶且有益的特性,可以大大改善科学的开展、交流和评估方式。
创建 dPID 的行为使得底层内容可以在开放的对等网络上使用,存储库、图书馆、大学和出版商可以参与内容的管理和验证。它还可以将具有相同标识符的冗余副本存储在由不同实体运营的不同服务器上,而无需开发或使用基于 API 的服务。它还消除了手动维护和更新 DOI 记录的需要。当存储库或期刊计划离线或更改所有者时,dPID 还提供了一种优雅的方式来处理数据转换到新主机,因为指向内容的链接不会改变,从而增加一种内置的方式来保护否则可能永远丢失的内容。
dPID 不仅仅是单个文件的标识符。相反,它们允许寻址几乎无限扩展的链接文件夹结构。此文件夹结构中的每个文件都可以从基本 dPID 进行唯一寻址,从而实现将所有相关项目部分链接在一起的数字研究对象(例如,手稿、数据、代码)。dPID 还具有版本可控性,这意味着索引内容可以随时间变化,而不会覆盖原始版本。更改由 PID 所有者记录、加盖时间戳并进行数字签名,为对 PID 执行的任何修改提供可追溯和可验证的出处,同时确保内容的先前版本仍然同样可解析。
dPID 的可版本性和出处使研究人员能够创建透明的记录,记录他们如何得出最终结果,这将与最佳开放科学实践保持一致,并有助于解决复制危机和大量虚假研究,这些对出版商构成了重大挑战。编辑、审稿人和读者不仅可以查看稿件的提交版本,还可以查看该稿件之前的整个历史记录,包括带时间戳的分析计划、数据、代码、实验室笔记、早期草稿等版本。
持久解析还使科学家能够通过 dPID 直接将开放数据集检索到他们的编程和计算环境中,只需一行代码,或者将容器化的计算作业发送到托管数据的服务器。后一种技术称为边缘计算,对于无法公开共享的敏感数据集或非常大的数据集尤其有价值:例如,下载 1PB(例如气候建模数据)可能需要支付超过 100,000 美元的出口费,即使在最佳条件下也需要几个月的时间——即使对于资金非常充足的科学家来说,这也是一个难以承受的负担。
虽然从技术上讲实施起来很简单,但采用和扩展 dPID 等新的公共基础设施却很难。幸运的是,社区已经利用ORCID和RoR作为科学家及其组织的身份层,做出了非凡的工作。因为我们可以基于现有的身份解决方案进行构建,所以采用 dPID 并不需要从零开始:我们既可以重复使用现有的基础设施,也可以从其预先存在的网络效应中受益。
此外,可靠的出处与网络的开放性相结合,将使期刊、图书馆或数据管理员能够随着时间的推移添加新信息来丰富研究对象。这些 dPID 数据丰富可能在性质上千差万别:从 FAIR 元数据(例如本体和受控词汇表)、开放的同行评审报告、开放数据的数字验证徽章、可重复性等等。这有很多好处,包括为开放科学实践创建更好的指标和激励措施。此外,由于在此内容可寻址网络上读写无需支付特定费用,因此可以确保公平访问,并且可以实现大幅成本节省。
dPID 和 DOI 的兼容性
需要注意的是,dPID 是一种新的 PID 技术,而不是新的 PID 标准。这种区别很重要,因为 PID 标准的泛滥并不可取。事实上,通过将 DOI 作为 dPID 的同义词添加,DOI 可以“升级”为 dPID。然后,DOI 将简单地解析为链接到 dPID 文件系统的资源。这种向后兼容性不仅可以消除手动更新 DOI 记录的需要并使 DOI真正持久,而且还将解锁上述新功能。单个 DOI 可以展开为具有机器可操作数字对象的单独 PID 的整个文件系统,并确定性地解析为其映射的资源。
除了这些特性之外,dPID 技术还可以帮助维护科学生态系统中所有利益相关者的自由和主权。平台运营商、存储库、出版商和图书馆可以控制他们公开分享的内容。重要的是,dPID 技术完全基于开源软件,任何人都可以在自己的硬件上免费运行。
dPID 引起了持久标识符社区的极大兴趣。2023 年国际数据周期间, dPID 工作组成立,参与者来自全球各地的组织。该工作组由DeSci 基金会主办,旨在充当推动力、社区中心和共享知识库,并向任何有兴趣参与的人开放。
实现完全机器可操作的科学记录的理想比以往任何时候都更加重要。虽然科学数据作为研究的主要成果的重要性正在上升,数据量也在迅速增加,但互操作性需要跟上。随着人工智能和伪科学的兴起,一份可靠的手稿来源和背景记录是无价的。鉴于其特性,dPID 及其提供的确定性分辨率是值得探索的途径。
dPID 背后的技术堆栈
对于那些想要深入了解技术细节的人,这里简要概述了 dPID 所基于的核心技术。这些协议和基于软件的解决方案已经与其 W3C 正式规范一起开发。它们可以免费使用且开源,任何人都可以参与进一步的改进。
- IPFS允许您通过内容标识符共享和访问数据。内容哈希用于识别和解析每个文件。IPFS 形成内容寻址信息的对等存储网络,允许用户根据实际内容的数字指纹存储、检索和定位数据。此指纹由加密哈希函数(例如SHA-256)生成,该函数将任何内容转换为固定长度的字符串。更改内容中的任何内容(即单个单词、像素、逗号)都会产生不同的哈希。SHA-256 允许生成 10 77 个不同的哈希,这是地球上原子数量的数十亿倍。因此,两个不同输入产生相同哈希的概率接近于零。由于所有数据都保证具有唯一的指纹,因此不会发生内容漂移,因为可以在不同的指纹下访问。此外,很容易检查您从 IPFS 网络收到的内容是否与其哈希匹配,从而消除了从未知网络对等点下载内容的风险。而且得益于IPLD,IPFS 不仅适用于文件,还适用于任意数据结构。这确保了组织和个人的稿件、数据、代码或其他 PID 之间的关系持久性。它还创造了缓解科学记录碎片化并获得更好的元数据和分析的可能性。
- 去中心化标识符。去中心化标识符 (DID) 可实现可验证的去中心化数字身份。DID 可以指代由 DID 控制者确定的任何目标(例如,个人、组织、事物、数据模型、抽象实体等)。这种设计使 DID 的控制者无需任何其他方的许可即可证明对其的控制,从而实现可信任的交互。
- 区块链技术可创建持久记录。区块链是一种分布式账本,其记录(区块)列表不断增加,并通过加密哈希安全地链接在一起。与区块链相关的智能合约会在此加密账本上自动记录 IPLD 文件夹结构的根哈希,以及时间戳和更新记录的个人或实体的 ID,从而创建高度持久、开放且值得信赖的元数据。
对于那些对上述 dPID 工作组感兴趣的人,我们随时欢迎新人,感兴趣的人可以联系info@descifoundation.org。
Comments (0)
No comments