查看原文
其他

当期荐读 2020年第5期 | 基于区块链的人文社科专题数据库协同管理研究

施艳萍 等 信息资源管理学报 2022-04-24

图源:Internet


施艳萍 李阳 卞一洋

(南京大学信息管理学院,南京,210093)


  摘 要 ·


在差异化目标和需求驱动下,当前众多人文社科领域的专题数据库大多处于分散自建的状态,不利于人文社科专题数据库的知识流动与协作开发。区块链因其丰富多元的技术体系在专题数据库的共建共享共治方面可发挥重要作用,能够助推人文社科专题数据库的协同管理,实现数据资源的互联互通。在剖析人文社科专题数据库协同管理现存问题的基础上,讨论了区块链技术的适用性;而后融合区块链的技术架构以及人文社科专题数据库的特征,构建了基于区块链的人文社科专题数据库协同管理模型;并进一步探讨了人文社科专题数据库区块链协同管理模型的核心机制。基于区块链的人文社科专题数据库协同管理模型构建,有助于促进不同领域方向人文社科专题数据库的数据资源融合,奠定知识共享以及再发现的基础,营造良好的开放科学氛围。


关键词 ·


区块链,人文社科,专题数据库,协同管理,资源融合,知识共享


1  引 言

2020年4月,中共中央与国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》将数据正式纳入生产要素范围,明确强调要在推进各领域数据开放共享的基础上,探索建立统一规范的数据管理制度,从而提高数据质量和规范性[1]。管窥国家政策对数据要素的新定位、新导向可以发现,数据管理在市场化培育视角下仍然需要得到进一步的重视。而在科学研究领域,这种对数据资源的重视也随之更加凸显,以契合总体数据开发战略。尤其是在近几年数字人文、社会计算等理念的席卷下,数据密集型科研范式日益兴起,数据逐渐成为人文社科领域的重要资源,人文社科领域的数据管理已是多方需求使然。


人文社科专题数据库是面向人文社科领域特定主题的数据资源集成平台,是人文社科领域数据管理的重要组成部分。然而,囿于技术、资金等因素,当前众多人文社科专题数据库的建设与管理常常各自为政,彼此间相互割裂,形成了众多“数据孤岛”,造成协同难、管理难的弊端,知识难以形成流动和再利用开发。多库主体之间即便存在协同共享、协同管理的实践,也多局限于小范围、小领域。为此,有必要对人文社科专题数据库进行有效的协同管理,进而从更大范围内改善数据质量,促进数据共享,降低建设成本,提高管理效率,支持知识发现。总体来看,协同管理是人文社科专题数据库建设的重要环节。


区块链因其分布式存储、多节点共识、可追溯、防篡改等技术特征,在人文社科专题数据库的协同管理层面有着得天独厚的优势。2020年4月,区块链技术首次被国家纳入新型基础设施体系,作为提供数字转型、智能升级和融合创新等服务的基础设施体系,“新基建”是数字经济发展的内核。与此同时,教育部于5月印发的《高等学校区块链技术创新行动计划》提出,要通过引导高校,汇聚力量、统筹资源、强化协同,不断提升区块链技术的创新能力[2],这对于推进区块链即服务(BaaS, Block chain as a Service)的发展、拓展区块链技术的应用场景等具有积极引导意义。有鉴于此,本研究拟融合区块链核心技术体系,构建人文社科专题数据库协同管理模型,以提升人文社科专题数据库的追踪能力,保证库内数据的公开透明,保护知识产权以及数据安全,推动人文社科专题数据库的协同管理,构建人文社科专题数据库的均衡和谐生态。


2  相关研究综述

由于资源存储、信息服务、科学研究等方面的巨大需求,人文社科领域各级各类专题数据库建设呈现蓬勃发展之势。图档博等文化机构以及大学科研机构纷纷开始推进人文资源的数字化和网络化,建立了大量的人文主题网站、专题数据库[3]。研究与实践并进,关于人文社科专题数据库的学术成果也日渐增多、渐趋成熟,早期研究内容主题主要聚焦于专题数据库建设的案例介绍,而后逐渐过渡到专题数据库的规划建设,即着重于探讨人文社科某一特定领域专题数据库的建设原则[4]、建设流程[5]、支撑技术[6]以及管理制度[7]等内容。在数字人文的新环境下,亦有少量研究围绕人文社科专题数据库建设规范化管理展开,涉及到知识组织[8]等多个层面。其中,李阳等[9]揭示了人文社科专题数据库建设规范化管理在标准规范、质量控制、开放协同、知识产权、安全管控等方面存在问题,认为需采取相应的技术策略,促进人文社科专题数据库建设的规范化管理。目前来看,在开放科学背景下,协同管理作为人文社科专题数据库建设规范化管理的关键环节,至关重要。


区块链因其去中心化等特性,为人文社科专题数据库协同管理注入了新动能,作为比特币体系的支撑技术之一,最早由中本聪(Satoshi Nakamoto)于2008年在其发表的《比特币:一种点对点的电子现金系统》一文中提出[10]。此后,关于区块链的研究开始慢慢出现增长势头,2015年开始呈现出井喷式增长态势[11],成为区块链研究进程的分水岭。近年来,由于区块链行业政策环境的显著优化,技术能力的快速提升,行业应用范围逐步延伸[12],相关研究从基础研究过渡到应用研究。其中,基础研究聚焦于区块链技术的内涵、特征等基本知识的梳理和介绍。应用研究则可以按照学科演进轨迹被分为三个发展阶段:其一,区块链1.0是将区块链技术应用于数字货币市场;其二,区块链2.0则将应用范围拓展到更广泛的金融市场;其三,区块链3.0则将区块链技术渗透到通信、物流、图书情报等更多领域[13]。例如,在图情档领域,学界和业界都已经关注到了区块链技术的优势和潜能,也催生了很多前沿性探索,相关研究从区块链的透明可信、防篡改、可追溯、去中心化等特性出发,探索区块链在图情档领域宏观以及微观层面的应用问题。其中,宏观层面主要探讨了区块链技术在图档博等文化事业机构中的智慧服务建设[14]、数字版权管理[15]等方面的应用;微观层面则集中于研究区块链技术在数字资源管理[16]中的应用。


综上所述,目前关于人文社科专题数据库的研究主要聚焦于专有、特定领域的专题数据库的建设层面,而鲜有涉及协同管理。同时,暂无研究明确将区块链技术应用到人文社科专题数据库的协同管理中。步入区块链3.0阶段,区块链已经成为各种场景应用的技术要件。有鉴于此,本研究拟在探究区块链技术体系和人文社科专题数据库特征的基础上,针对人文社科专题数据库协同管理存在的问题,以区块链为核心支撑技术构建人文社科专题数据库协同管理模型,并进一步探究该模型的运行原理、优势以及应用难点,以期推进人文社科专题数据库的规范化管理。


3  人文社科专题数据库协同管理存在的问题及区块链的适用性

3.1

人文社科专题数据库协同管理存在的问题

协同化是充分发挥专题数据库价值的关键,目前来看,建库目的、资源类型、技术资金、目标受众等方面的差异制约了人文社科专题数据库的协同管理。现阶段,人文社科专题数据库协同管理面临的问题与难点主要表现在三个方面。


第一,主体协同认知以及信任体系尚且不足。各级各类人文社科专题数据库一般由文化机构、科研院校、社会组织等不同主体自主分散建设。受传统资源归属逻辑、负面知识共享文化、利益保护倾向等因素影响,建库主体无法形成知识合作和协同的认知,建库逻辑仍然是“单兵作战”,导致很多知识资源被直接或间接地“孤立”。从研究的角度出发,不同建库主体之间的信任基础薄弱就是数据库协同认知不足的重要原因之一。信任是合作协同认知的前提,传统的信任模式主要是依托于熟人、机构或机制的中介信任。通过这种信任模式去建构协同关系,建库主体就不可避免地面临数据资源共享风险、协同拓展空间不足、共享探寻成本高等不确定性问题。在此背景下,建库主体想要建立相互信任的协同关系着实困难。


第二,数据和知识资源协同尚且存在技术障碍。相较于自然科学领域,人文社科领域的技术基础薄弱、技术应用的广度和深度不足,在专题数据库协同管理层面,主要体现在平台架构和数据资源两个方面的技术薄弱性。首先,在平台架构层面,由于人文社科专题数据库资源涵盖主题丰富,数据类型繁多、结构迥异,因此对平台架构要求较高。然而,实际建设中很多人文社科专题数据库的系统选型落后,平台架构设计不够专业规范,可用性较差,缺乏领域导向性和安全保障性。其次,在数据资源层面,很多人文社科领域数据资源实际上趋于分散、断面,目前尚未有统一规范的元数据标准,普遍缺乏便于机器读取和交互操作的数据接口,形成了逻辑性“数据孤岛”、物理性“数据壁垒”,阻碍了知识本体的构建、关联数据的实现以及数据资源的聚合,增加了协同管理的难度。


第三,协同运作机制尚不畅且缺乏活性。虽然人文社科专题数据库建设热潮不减,但是在协同机制方面仍然存在诸多不足,如缺乏长效的激励机制、可靠的版权保护机制、合理的利益分配机制等。针对激励机制问题,良好的激励机制一般兼具正向鼓励和反向监督的作用,而目前业界尚未有比较成熟的激励机制示范,相关激励机制的不完善导致不同主体、不同部门参与协同管理的积极性不高、动力不足,难以满足大数据时代背景下数据库建设主体享受数字经济红利、信息服务变现的需求。在版权保护机制方面,专题数据库中无论是自建数据还是购买数据均涉及到版权确权的问题。现实中很多人文社科专题数据库的数据资源结构并不单一,既拥有自建数据,又拥有购买数据,多源异构的数据特性大大增加了协同后的版权管理难度。尤其是在当前网络数据资源版权管理的法律法规不健全的环境下,相关数据资源的版权保护界限不明,一旦数据库愿意参与到协同网络之中,庞大的数据数量将导致版权保护流程复杂、公信力不足、溯源困难等痛点[17],数据资源的安全性也难以得到保证。此外,人文社科专题数据库协同后的利益分配机制尚不明晰,缺乏深度讨论和规范,没有成熟的实践经验。如最终的利益分配衡量标准是原始资源占有度,抑或是出资多少、贡献大小等均有待商榷,等等。


3.2

区块链技术的适用性

区块链可以理解为一种集合了分布式存储、共识算法、智能合约、密码学等多种新型技术的数据传输方式,具有去中心化、开放性、独立性和安全性等特征。如图1所示,区块链适用于多状态、多环节、存在互不信任的多方主体协同参与的场景,同时多方主体间无可信任的第三方(TTP, Trusted Third Party)可委托[18]。人文社科专题数据库是存储多领域多类型数据的“仓库”,由各级各类机构自主分散建设,其协同管理需多方主体参与,然而由于目标、资源差异,多方数据库间难以相互信任,可信第三方难寻。由此可见,人文社科专题数据库协同管理的场景与上述区块链的应用条件吻合。区块链的核心技术体系和突出优势特征使得其在多源异构数据的共建共享共治方面发挥着举足轻重的作用,能够有效缓解上述人文社科专题数据库协同管理存在的困境和问题。


如上文所述,信任是达成协同认知的一个基础。然而,在建库理念不同、数据安全难以保证等因素的困扰下,传统环境中的人文社科专题数据库建库主体之间难以建立信任关系,即便存在信任关系也仅基于历史业务关系或第三方中介信任,具有高昂的时间成本与交互成本,由此建立的信任关系亦非稳定持续。此时,区块链系统便可扮演可信第三方的角色,即通过分布式存储系统,建立全链节点对等、同步记账、共同维护的去中心化共信机制,通过智能合约技术进行信用锚定,所有参与节点均可相互检测监督,即便各个节点跨领域、跨部门,信用问题也可得到保障[19],实现了传统的第三方中介信任向“机器信任”的转变,促进人文社科专题数据库主体协同管理认知的形成。


区块链关键技术作用的发挥是推进和维系人文社科专题数据库协同管理的基础,能够在一定程度上弥补现有人文社科专题数据库数据和知识协同存在的技术缺陷。在分布式存储的区块链系统中,网络中的所有参与节点均是对等节点,皆可公平均等地发布或接收信息,并且拥有随时获取系统网络全部数据、共同参与决策的权限。所以,整个系统公开透明,摆脱了传统系统中心化管理的黑箱,保障了系统内海量数据的可信性,有助于实现人文社科专题数据库的多节点交互以及集成式管理。此外,篡改以PoW等作为共识算法的区块链系统需要全系统超过51%的算力,难度和成本均较大,且篡改行为一旦发生,全网便能见证篡改过程并弃用该区块链系统,导致系统失去价值,因此一般情况下篡改行为不会发生。同时,区块链中的哈希函数加密技术也可以保证人文社科专题数据库内数据资源的完整性与不可篡改性。另外,区块间链式连接机制与时间戳技术可以实现数据溯源。这在很大程度上保证了人文社科专题数据库内数据资源的安全性,同时便于查询追踪、版权维护。


针对人文社科专题数据库协同管理机制不畅且缺乏活性的问题,区块链系统具有独到的应对方案,其中分布式存储和智能合约等关键技术发挥了主要作用。例如,针对激励机制缺失的问题,区块链的基础技术架构本身包含激励层,在评估人文社科专题数据库协同主体的贡献度的基础上,结合其特色化需求给予相应的应用权限、设计合理的奖励原则,能够提高众多数据库主体的数据共享意愿以及协同管理积极性。在版权保护机制层面,首先,区块链的分布式存储和智能合约技术能有效地去除第三方,缓解因第三方带来的维权难、周期长、成本高和赔偿低等弊端,同时能保障授权和交易的公开透明;其次,区块链的共识算法和哈希运算技术能够保障人文社科专题数据库内的数据不可篡改,并且可永久回溯,在发生版权冲突时,可以避免出现版权举证难的问题。在利益分配机制方面,则需发挥区块链技术体系内智能合约的作用,商定利益分配方式以及比例,建立信用积分体制,保障各参与节点收益的公平性和稳定性,等等。


4  人文社科专题数据库协同管理区块链模型构建

基于区块链的人文社科专题数据库协同管理模型的构建遵循以下步骤:①选择适宜的区块链类型;②根据所选区块链类型的技术架构,并结合人文社科专题数据库的特征,进行技术架构映射;③基于映射的技术架构构建人文社科专题数据库协同管理区块链模型。


4.1

区块链类型选择

在构建人文社科专题数据库协同管理区块链模型前,需要选择合适的区块链类型。按照开放程度以及参与节点的特性,区块链主要分为三种类型,分别是公有链、联盟链和私有链,三者的特性对比如表1所示。公有链对任何节点开放,共同参与数据的读取和维护,公平公正公开,数据不可篡改,去中心化的性质最强。私有链则恰与公有链相反,只对组织内部开放,数据也不可篡改,但开放程度有限,去中心化程度很弱,不过因为参与数据处理的节点数减少,效率高于公有链。联盟链则介于两者之间,通常由多个互相已知身份的组织共同构建,数据由联盟内部的成员共同维护,只对组织内部成员开放,去中心化程度适中,甚至可以说是多中心化的,其在效率方面比公有链强,比私有链弱。总的来说,不同类型的区块链具有不同的作用,公有链比较偏向于公共建设,而私有链、联盟链则比较偏向于企业或组织方向的应用。



当前,人文社科专题数据库尚无组建大规模的建设联盟,且人文社科专题数据资源来源广泛、种类繁杂、结构多样,在差异化需求的驱动下,仍然存在大量潜在的建库主体。因此,公有链适用于人文社科专题数据库协同管理模型的构建。需要注意的是,未来区块链的链网结构必然会呈现跨链、多链并行的形态,所以区块链类型的选择并非古今一辙,需要结合具体情境加以甄别。例如,当人文社科领域的专题数据库形成建设联盟时,选择联盟链作为协同管理的基础支撑技术也无可非议。


4.2

技术架构

一般而言,完整的公有链技术架构自下而上包括六层,分别为数据层、网络层、共识层、激励层、合约层和应用层,其中数据层和网络层属于基础模块,合约层、激励层、共识层共同组成核心模块,应用层则为交互模块,具体内容如表2所示。



构建人文社科专题数据库区块链技术架构,需要结合公有链的技术架构、应用准则以及人文社科专题数据库的特征,有选择地应用每个层级的相关技术,如考虑到系统安全性和政策性风险,人文社科专题数据库协同管理平台数据层的加密算法应当选择国密算法[20]


4.3

模型构建

基于上文公有链的技术架构以及区块链的链式结构特征,构建人文社科专题数据库协同管理模型,如图2所示。该模型由人文社科专题数据库网络、公有链以及管理平台构成。其中,人文社科专题数据库作为参与节点,以P2P协议作为网络传输协议,并在共识机制的作用下,源源不断地向公有链中的区块输送基础数据资源;数据区块中存放了特色专题数据、交易数据等数据内容,依托时间戳技术进行顺时序排列。在此基础上,通过父区块哈希值来连接众多数据区块以组成区块链的基本数据结构。这种链式结构保证了数据的不可篡改性,并且能够实时记录最新交易数据状态,而无需遍历。最后,所有经过认证的数据资源将被传送到人文社科专题数据库协同管理平台加以整合存储,同时,平台将依托激励机制回馈参与节点相应数量的代币/积分。



人文社科专题数据库协同管理区块链模型的突出优势在于,能够不依赖第三方而推进众多参与节点达成协同共识,实现人文社科领域海量数据资源的分布式协同管理。且在每次交易过程中相关数据均是防篡改可溯源的,支撑了数据资源的版权保护,确保了人文社科专题数据资源更加安全可靠。模型内激励机制的存在也能提高人文社科专题数据库主体参与协同的积极性,并在一定程度上保障了参与主体的权益。另外,该协同管理模型以公有链为技术基础,具有自由开放的特征,便于更多潜在人文社科专题库主体参与。已有参与主体与潜在参与主体的协同合作,能够在很大程度上丰富领域数据资源,为深层次的数据加工和知识发现奠定坚实的基础,并最终推动人文社科领域知识服务的发展。


5  人文社科专题数据库协同管理区块链模型核心机制分析

根据表2,共识层、激励层和合约层是公有链的核心模块,分别对应共识机制、激励机制和智能合约技术。


共识机制的选取需考虑人文社科专题数据库自身特征以及参与节点的需求。当前区块链系统中具有四类主流共识算法,分别为工作量证明(Proof of Work, PoW)类共识算法、凭证(Po*)类共识算法、拜占庭容错(Byzantine Fault Tolerance, BFT)类共识算法和结合可信执行环境的共识算法,这些共识算法均有自身的特色和应用场景。其中,PoW、PoS(Proof of Stake, 权益证明)、DPoS(Delegated Proof of Stake,委托权益证明)共识算法适用于面向大众的公有链。然而,PoW每次达成共识时,需要全网节点共同参与,由此带来巨大的资源消耗,PoS虽能弥补这一缺陷,但对系统要求高,DPoS则在PoS的基础上增加了投票,具有资源消耗小、共识时间短等优势。由于人文社科专题数据库数量众多,且质量参差,因而综合考虑下DPoS机制更适用于作为人文社科专题数据库协同管理的共识机制。


建立合理的激励机制,能够在保障参与节点的经济利益的同时提高其数据共享的意愿和积极性。首先,应当在评估所有参与的人文社科专题数据库信用的基础上,给予其无偿使用平台数据资源的权限;其次,在评估参与节点提供的数据资源的数量和质量的基础上,发放相应数量的代币或积分,后续可用于兑换服务、资源或现金。为了确保激励机制的顺利运作,需要考虑设计初始化原则、维护交易原则、奖惩原则、进出原则、积分原则、分配原则等一系列基本原则。


在人文社科专题数据库协同管理的过程中使用智能合约,不仅能保证数据资源公开透明,还能商定利益分配机制,节约人力资源、降低人为干预风险,大幅度提高管理效率。智能合约技术的价值发挥,得益于人文社科专题数据库的价值共创主体———现有建库主体以及潜在建库主体的共同参与,需要相关价值共创主体在遵循法律法规的前提下,共同拟定相应的合约内容和触发机制,并以代码形式嵌入系统。在触发条件得以满足时,智能合约便自动执行,不受外界干扰。


6  结语与展望

人文社科专题数据库的协同管理能够推进数据资源的共建、共享、共治,区块链技术凭借其开放共识、匿名交易、防篡改、可溯源等优势特征,能够为人文社科专题数据库协同管理注入新的动力。本研究在剖析人文社科专题数据库协同管理现存问题的基础上,分析了应用区块链技术缓解以上问题的合理性和适用性;同时,融合了区块链的技术框架与人文社科专题数据库的特征,以构建人文社科专题数据库区块链协同管理模型,为当前人文社科专题数据库协同管理存在的缺乏共识、难以互操作等问题提供一种改进思路,促进数据组织聚合以及知识共享发现。另外,本研究仍然存在一些问题需要完善,例如共识机制的选择标准、激励机制的原则细化、智能合约的作用原理,等等,更详实的内容将在后续的研究中深入探讨。



作者简介


施艳萍,博士研究生,研究方向为知识管理与学术评价, Email:IIvy1113@163.com。

李阳,博士,助理研究员,研究方向为应急情报与信息资源管理。卞一洋,博士,助理研究员,研究方向为数据挖掘与情感分析


参考文献



*原文载于《信息资源管理学报》2020年第5期,欢迎个人转发,公众号转载请联系后台


* 引用格式

施艳萍,李阳,卞一洋.基于区块链的人文社科专题数据库协同管理研究[J].信息资源管理学报,2020,10(5):30-37.

制版编辑 | 王阿凤


当期目录 | 2020年第5期

当期荐读 2020年第5期 | 学术出版:功能的异化、回归与建构

论文荐读 2020年第4期 | 信息搜索任务难度研究述评

论文荐读 2020年第4期 | 医疗数据隐私泄露容忍度的计量分析

论文荐读 2020年第4期 | 社交网络使用会影响用户心理健康么?——一项元分析研究

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存