查看原文
其他

2023年第2期 | 全文计量分析的实践与展望:理论、方法与应用 ——2022全文本文献计量分析学术沙龙综述

周海晨 章成志 等 信息资源管理学报 2024-01-09


周海晨 章成志 胡志刚 徐硕 杨思洛 李恺


1.中国科学院成都文献情报中心,成都,610299; 

2.南京理工大学经济管理学院,南京,210094; 

3.大连理工大学科学学与科技管理研究所,大连,116024; 

4.北京工业大学经济与管理学院,北京,100124; 

5.武汉大学信息管理学院,武汉,430072; 

6.美国田纳西大学信息科学学院,诺克斯维尔,37996



    摘    要    

Abstract

2022年12月1日—2日,由中科院成都文献情报中心主办、科技创新评价研究中心(SERC)承办“第五届科学计量与科技评价天府论坛”在成都举办。由章成志等人发起的第三届“全文本文献计量分析”沙龙是天府论坛的一项重要活动,吸引了百余位专家学者的参与和交流。本文通过对沙龙嘉宾的发言与研讨内容进行梳理与总结,将沙龙的主要内容归纳为理论研究、技术方法与应用方向等方面,以期揭示国内外全文本文献计量分析的研究现状和发展趋势。


关键词

全文本 文献计量 全文计量 引文内容 颠覆性技术 弱信号



01

 引言

随着开放获取(Open Access, OA)运动的持续推进,深度学习、自然语言处理以及可视化等技术的快速发展,学术全文本数据的获取难度不断降低、分析方法不断丰富。数据与技术的交汇融合致使全文本文献计量研究成为众多学者关注的热点。近年来,学界与业界在理论、技术、应用等各方面进行了广泛的探索与实践。在此背景下,2018年9月和2019年11月,南京理工大学经济管理学院章成志教授、大连理工大学科学学与科技管理研究所胡志刚副教授、北京工业大学经济与管理学院徐硕教授在天府论坛上先后两次发起“全文本文献计量沙龙”[1-2],受到了与会者的热烈欢迎。伴随着两届沙龙的举办,相关研究的学术影响力持续提升,学界业界的热情愈发高涨。

  为进一步促进全文本文献计量研究的繁荣发展,2022年12月,章成志、胡志刚、徐硕发起了第三届“全文本文献计量分析”学术沙龙,特邀武汉大学信息管理学院杨思洛教授、美国田纳西大学信息科学学院李恺助理教授、中国科学院成都文献情报中心周海晨助理研究员作为沙龙嘉宾,吸引了来自全国各高校、科研机构及企业的师生、学者、从业人员共100余人参加。与会嘉宾介绍了各自最新的研究成果,沙龙交流环节气氛热烈活跃。

  通过对本次沙龙内容的梳理和总结,本文将从理论研究、技术方法、应用方向等方面来解读本次沙龙,以揭示全文本文献计量分析的研究现状与发展趋势。



02

概述

学术出版的历史沿革从书信交流到开放获取,经历了长达三百多年的发展历程,呈现出结构化、规范化、数字化和开放化的态势[3]。全文的开放获取运动,丰富了科学计量学的数据来源。科学文本的结构化格式呈现,进一步减少了全文本计量分析的难度,提升了学术信息提取的准确度[4]。全文计量分析以文献全文为研究对象,采用数学、统计学等计量方法,结合自然语言处理和文本挖掘等技术,研究文献内部知识单元的分布结构、数量关系、变化规律和定量评价等。杨思洛认为,目前全文计量研究集中在三方面:①引文内容分析[5-7],对引用与被引的位置、强度和语境分析,例如“引用次数-位置-功能-情感-主题”;②知识单元计量[8-10],从语词层面、语句层面和语篇层面展开,通过全文本深入知识实体计量,例如术语、理论方法、工具、研究问题、图表、公式、数据、亮点贡献、局限、展望、语言等抽取;③全文计量指标,结合全文本特征、语义与传统计量指标,例如基于全文的结构类指标、主题类指标、情感类指标、复合指标、综合性指标等。



03

理论研究

3.1 学术文本的演化趋势

学术文本作为承载创新的载体,其本身处于不断的演化之中。从内容的角度,eLife宣布所有来稿论文只要科学性过关,将与评审意见一起出版。胡志刚认为,这表明论文的意义本身重要性将下降。因此在论文的IMRAD结构中,渲染意义为主的论文引言(introduction)部分写作的重要性或将下降,而方法(method)部分的占比可能会提升。李恺认为,数据论文与描述软件包或工具集的软件论文的重要性在逐步增加,但在现阶段传统论文仍然是主流。一方面,其观察到在生物学领域,越来越多的研究人员专注于描述生物分类法的发现,表明未来的研究将更加聚焦于某种具体研究对象、实体(如实体计量学)。另一方面,许多领域要求作者以代码的形式提供整个方法的流程,研究人员需要更加交互、透明地呈现研究背后的数据、工具包、软件、运行过程等。

从形式的角度,胡志刚认为,视频技术或者交互式论文或将取代当前的PDF成为学术交流的新型载体。例如开源的Web应用程序Jupyter Notebook,其代码实时运行、参数动态调整等特性为计算机领域的交互式论文写作提供了很好的助力[11]。周海晨认为,纳米出版物(nanopublication)的“小而精”也可能是学术文本的演变方向之一,即通过RDF的方式将研究的论断(assertion)、出处(prov-enance)、出版信息(publication information)等关键文本进行表示、存储、管理,从而有助于提高科学知识传播与交流的效率[12]

3.2 全文本知识交流体系

知识交流是指存在知识不对称的双方在一定的动机作用下,一方通过某种载体把知识传递给对方并产生影响的交互活动。杨思洛认为,全文计量可以使知识交流研究更加细粒化、精准化、多元化和全面化。具体来说,从文献外部特征转向文献内部知识单元,知识交流研究更加细粒化;从简单频次分析转向语义特征分析,知识交流研究更加精准化;从传统题录信息转向文献全文内容,知识交流研究更加多元化;从文献计量转向多学科结合,知识交流研究更加全面化。在此基础上,他提出了全文计量视角的知识交流体系研究,可分别从过程维度、行为维度、内容维度和载体维度展开。①过程维度[13]:划分为知识输入(阅读和引用等)、知识产出(图书、论文、专利等)、知识输出(被阅读和被引用等);②行为维度[14]:涵盖引证行为、科学合作行为、社交媒体行为、撤稿行为、更正行为等;③内容维度[15]:研究亮点、摘要、正文、引文内容、致谢、参考文献、作者贡献等;④载体维度[16]:期刊论文、会议论文、学术图书、专利文献、网络新型载体等。

3.3 数据论文的叙事结构

数据论文作为一种新的论文形式,与传统研究论文的区别在于它专注于描述数据,而非具体的研究设计和结果,因此叙事结构和传统的研究论文存在很大的差别。了解数据论文的摘要使用的叙事结构,能够更好地评估数据论文能否有效地支持数据分享,也有助于进一步抽取数据论文中的各类实体。李恺拓展了一个经典的对于英文研究论文摘要中叙事任务的分类法,发现了四种和数据有关的叙事任务。通过人工标注两个标志性的数据期刊Scientific Data和Data in Brief发现,①数据论文结合了经典的IMRAD结构以及关注数据本身的叙事任务;②数据论文对于叙事任务的使用体现了数据期刊对于论文结构的要求[17]。李恺认为,未来会出现多种和数据有关的文本,例如论文中的作者贡献声明[18],并分享了其在分析PLoS期刊论文时的发现,即论文中作者贡献声明文本存在许多模糊性表述,导致文本分类的效果会受到参数的较大影响,参数的差异很大程度会影响研究发现[19]。尽管自然语言处理技术与机器学习等新兴技术的广泛应用促进了全文计量分析发展,但上述技术的固有缺陷(如更为复杂的数据处理与分析过程)也对全文计量分析带来新的挑战,应该保持审慎的态度去使用,尽可能地保证实验结果的可重复性,提升实验结果的可靠程度。



04

技术方法

4.1 论文篇章结构识别及其应用

篇章结构在满足读者阅读动机的差异、实体级的计量与评价、细粒度学术信息推荐等方面有重要用途。章成志团队围绕学术论文篇章结构语料的标注、篇章结构的自动分类和篇章结构信息的应用三个方面展开了研究。在标注方面,由于目前缺乏高质量且可训练的语料库,所以相关研究采用自行标注的方式;在自动分类方面,对比将传统机器学习算法(如朴素贝叶斯、Logistic回归,KNN,SVM等)与深度学习算法(如Bi-LSTM、CNN等)应用于篇章结构自动分类的效果时发现,两种方法针对不同特点的文章效果具有差异,学术文本的结构性、规范化程度较高时,采用传统机器学习算法即可满足需求;而结构性、规范化程度较低时,需要利用深度学习加上论文标题与全文本的特征才能取得更好的效果[20]。在应用层面,尝试了包括融入篇章结构信息的关键词抽取[21]、利用篇章结构评估算法知识的影响力[22]、利用篇章结构挖掘同行评审意见关注点[23]、学术文献未来研究工作句识别与分类等方向[24]

4.2 概率主题模型

概率主题模型在全文本分析中发挥着重要作用,它可以帮助研究人员更好地理解学术文本中的主题分布、主题演化、作者兴趣等,从而更好地挖掘学术文本中的重要信息。徐硕从全文本分析视角对概率主题模型的发展进行了梳理。从历史沿革来看,概率主题模型是从TF-IDF(1983)到LSA(1990),然后再到pLSA(1999)逐步发展起来的,LDA(2003)被认为是最基本的主题模型。然而,LDA模型本身存在许多局限性,这导致后续出现了大量变种。早期受限于数据类型,改进多从元数据角度入手[25],比如融入时间信息的DTM[26]、DIM[27]和ToT[28]模型等,融入作者或母体文献信息的AT[29]、ACT[30]和AToT[31]模型等。随着数据类型的丰富与计算机性能的提升,越来越多的细粒度特征被加入到概率主题模型当中,如纳入词序信息的TNG模型[32]等,考虑领域实体信息的CCorrLDA2模型[33]等,结合作者贡献信息的ATcredit模型[34]等,包含引文链接和上下文信息的CIM模型[35]和cite-pLSA-LDA模型[36]等。日益丰富的全文本数据要素深刻影响着概率主题模型的迭代方向,迭代后的模型也将继续推动全文本分析的发展。


05

应用方向

5.1 基于全文计量的数据平台

2022年Web of Science(WoS)数据库推出了新的Enriched Cited References(下称ECR,被引参考文献深度分析)功能,从而完成了SCI之父加菲尔德博士60年前的夙愿[37]④。ECR基于可供解析的全文数据(以开放获取论文为主),提取篇中的引用信息,并展示了这些引用的位置、强度、语境和类型等信息。借助ECR,可以更为深入和全面地揭示一篇学术文献的学术影响和潜力,提高文献检索和学术评价的能力。具体来说,ECR有助于研究人员:①了解各篇文献对作者的影响(每篇参考文献被引用的次数);②获取参考文献间的相关程度(参考文献间的被引距离);③推断作者引用的原因(每篇参考文献的被引位置)。胡志刚将citation index[38-39](1965)、keywords plus[40](1991)和ECR(2022)视为WOS有关引文信息挖掘的三个里程碑产品。他认为,凭借WOS的影响力,ECR或将带领全文计量分析进入新的阶段。

除了传统引文数据库,初创企业也加入到全文计量分析的领域,进一步丰富了全文本计量分析的数据来源。周海晨介绍了引文分析平台Scite,该平台整合了OA与合作出版商(Wiley、PubMed、Sage等)的高质量学术全文本数据,通过开展深度学习与文本挖掘分析,实现了对引文陈述(引用所处的句子)、引文语境(引用所处句子的上下文)、引文位置(引言、方法、结果、讨论等)、引文类型(支持、争议、提及)以及编辑信息(修改、撤稿、特别关注等)的自动识别与提取,并在信息检索与可视化技术的基础上整合为平台,供学者、编辑、师生使用[41]。截至2022年底,Scite已经从3200多万篇全文文章中挖掘了12亿条引文信息,并提供了API等多种数据获取形式。周海晨认为,Scite平台提供的数据集若得到合理应用,有望在学术评价、编辑出版、颠覆性技术识别等领域发挥积极作用。

5.2 全文本视角下的科技评价

全文计量分析并不限于计量领域,信息检索、信息组织等将文本作为分析对象的领域均可以采用全文计量分析。杨思洛认为科技评价是全文计量分析最重要的应用方向。在破“五唯”背景下,基于传统计量分析的方法(如被引频次、影响因子、H指数等)由于存在时滞性、“以刊评文”等片面性应用,已经不适应当前科技评价的需求。如何利用全文计量分析促进科技评价的精准化、智能化发展,成为重要的探索方向。精准化方面,传统计量分析更多是宏观层面、粗粒度的。以被引为例,传统计量分析仅考虑被引频次,而通过全文计量分析可感知被引态度、被引结构、被引者身份,以及建立被引语义与机构、国家、知识单元间关联等,实现更加细粒度的科技评价。智能化方面,人工智能已在众多领域取得了突破性进展,如智能驾驶、智慧城市、智慧图书馆等。文本挖掘、自然语言处理、深度学习等人工智能技术与科技评价有天然的紧密联系。传统同行评议主观性过强,“同行”专家遴选困难,时间资金成本高昂,智能化评价将极大地降低耗费的精力与时间。但当前实现完全智能化、自动化的评价尚具有挑战,可从辅助专家评价决策(如辅助同行评议)等方面切入,例如,提供与已有论文的创新性比较、规范性提示等。除此之外,智能化系统、智能化指标、智能化呈现、智能化服务,也是智能化评价的发展方向。周海晨介绍了Scite Index(SI),一种用于衡量单篇论文受支持程度的指标。Scite将之应用在学者、机构、期刊等对象的评价中。该指标实现了从被引类型角度对各类主体的比较,是促进科技评价精细化的一次有益尝试。章成志认为,科技评价的精准化需要模型拥有较高的正确率。以引用情感为例,当前数据规模不够大,且分布极不均衡,中性引用居多,负面引用较少,导致情感分析的准确率不高。智能化方面,章成志介绍了丁颖团队的一项研究,他们从论文里抽取一些实体,判断新出现的实体的占比,然后评价其创新性[42]。胡志刚介绍了一项关于科学论文情感分析的研究[43],该研究使用正文当中的表示创新性的词汇或者表达乐观情绪的情感词来作为判定标准,用于检测一项研究的突破性。研究发现,在过去的几十年里,研究人员在用词上越来越乐观,越来越具有创新性。但也有研究指出,从引文角度来看,科学呈现出固化的趋势,创新性研究在减少[44]。因此,他认为全文计量如何真正地评价出研究的新颖性或影响力还面临着一定的困难。

5.3 颠覆性技术与弱信号识别

识别颠覆性技术(尤其是技术早期的弱信号[45])可以帮助国家、科研机构与企业在技术上占领科技先机,在激烈的全球竞争中保持领先,甚至实现弯道超车。徐硕指出,当前颠覆性技术识别大部分为后评估,而非早期阶段的识别。例如,区块链技术具有颠覆性,总结其具有的性质后,尝试拓展到其他技术,观察其他技术有没有与前者性质相符[46]。但后评估的指导意义有限,首先,由于领域差异性的存在,不同领域的颠覆性技术可能拥有不同的性质、特征;其次,特征的量化较为困难,如创新性较强、影响力较小、模糊性(不确定性)较大等,难以通过科学的指标衡量;另外,颠覆性技术刚出现的时候人们的认知可能不一致。通过什么方法能在技术刚萌芽的时候就捕捉到它的弱信号是当前难点。论文的展望、不足、未来工作等部分的文本可能会存在一些启发,但会不会比全文本或者摘要部分的信息更有价值,仍不得而知。总体而言,在早期阶段探测出颠覆性技术、识别技术弱信号尚具有较大难度,与实际应用还有一定距离[47]

章成志表示,颠覆性技术预测具有挑战性,尤其是缺乏全文本的情况下挑战性更大。他介绍了王贤文教授一项研究,使用科研工作者的搜索日志来识别颠覆性技术的研究,作者认为如果搜索的专业术语没有任何结果,可能一定程度上说明这个科学家关注着一个潜在的新兴研究主题[48]。从全文本角度来看,颠覆性技术的弱信号的频次较低,因此识别也具有难度。颠覆性产品或服务的产生并非由一项技术突破产生,而是由多项技术突破在成本降低时汇集而成。周海晨认为,颠覆性技术的识别是一个系统性、长期性过程,需要从多来源、跨领域、动态视角观察颠覆性技术的融合与发展。


06

存在问题与研究展望

6.1 存在问题

在谈到全文计量分析面临的问题时,“数据”与“应用场景”成为高频词。章成志认为,全文计量分析面临的主要问题是技术、数据以及应用场景。其中技术处于稳定的发展阶段,可能不是当前最大的问题;不同领域数据的开放程度存在差异,例如生物学领域数据开放相对较多,相关成果数量也更多,可起到示范作用;应用场景也在不断地丰富,Clarivate、Scite等厂商已经开始推出商业化产品,随着用户数量与使用反馈的不断增加,后续的发展令人充满信心。胡志刚指出,高量级的数据支持能够极大地降低研究门槛,吸引更多学者加入。若Elsevier、Springer等出版商能积极行动,将为该方向带来更加繁荣的前景。

在观众提问环节,中国科学院文献情报中心李杰副研究员认为,当前全文计量分析缺乏一套标准架构或简单的软件,导致成熟的技术和分析流程难以固化,无法形成全文计量分析的固定研究范式,制约了领域发展。章成志表示,传统的软件工具如CiteSpace、VOSviewer对促进科学计量可视化领域发展甚至扩散到其他学科起到了很大的作用。但就全文计量分析而言,工具的开发对于图书情报学者来说较为困难,一方面需要有情报挖掘能力,另一方面也需要软件开发能力。胡志刚与杨思洛提到,当前国内学者多关注英文论文的研究,中文文献的全文计量研究比较缺失,中文全文数据库的开放性不足,面向中文文献的计量软件与工具有限。

6.2 研究展望

实用化作为全文计量分析的必由之路,是当前学界业界共同探讨的重要议题。未来如何推进全文计量分析走向实用化,杨思洛认为,一方面,离不开数据与平台的支持,正如文献计量的发展离不开SCI的诞生与发展;另一方面,技术的推陈出新也会使它的实用性增强。另外,研发者或企业可以开发一些类似于CiteSpace的全文本计量工具或平台,降低使用门槛,扩大用户规模。章成志指出,实用化首先要看具体场景,当前许多问题(如数据、技术等)并没有被完全解决。已有部分数据厂商正在尝试提供学术全文本相关服务,推进着实用化进程。而学术界应该从其他方面考虑,例如借鉴计算机、人工智能领域的经验,开展情报分析的测评任务,开放一定规模的数据集,吸引大量初学者或研究生参加,促进理论发展、技术问题解决[49]。此外,随着开放数据的增加,学术界可以通过和工业界合作(如从技术预测等方面),尝试在某些领域产出示范性项目。徐硕认为标准化是实用化的重要维度之一。若将不同的文本内容转化为标准化格式,并配套不同编程语言的处理工具,可以帮助千万科研人员节省大量时间精力。在某些领域已经有相关工具,如生物领域的BioC[50]。计量领域可在元数据方面进行适当的拓展,例如对BioC等工具的修改、升级等,以促进实用化。


07

总结

得益于日益增长的学术全文本数据集与快速发展的文本挖掘分析方法,全文本文献计量分析拥有了强劲的生长动力与广阔的成长空间。在此背景下,“全文本文献计量分析”学术沙龙围绕全文计量分析的理论研究、技术方法与应用方向等主题,对全文本文献计量分析的研究现状与发展趋势展开了讨论,为与会者提供了一场精彩的学术盛宴。

总体而言,全文本文献计量分析的数据来源持续增长、数据类型日益丰富、分析方法更加强大、应用场景开始显现。但缺乏标准化的数据格式与实用化的分析工具等成为了阻碍学者深度参与研究的藩篱,制约了全文本文献计量的全面普及。期待高校、科研机构以及企业联合起来,发挥自身优势,携手推进全文本文献计量分析的发展。


致谢:特别感谢中国科学院成都文献情报中心创新研究部主任、科技创新评价研究中心(SERC)执行主任陈云伟研究员为本次沙龙提供场地支持和主持工作。

①https://reviewer.elifesciences.org/author-guide/editorial-process

②https://neurips.cc/Conferences/2022/CallForPapers

③https://jupyter.org/try

④https://clarivate.com/webofsciencegroup/release-notes/wos/new-wos-april-29-release-notes/)

⑤https://scite.ai/

⑥https://scite.ai/journals

⑦http://tonyseba.com/wp-content/uploads/2020/09/Appendix-1-Seba-Technology-Disruption-Framework.pdf



参考文献

[1] 王佳敏,李信,刘齐进.全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2018,8(4):119-125.

[2] 章成志,胡志刚,徐硕,等.全文本计量分析理论与技术的新进展与新探索——2019全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2020,10(1):111-117.

[3] 胡志刚,侯海燕,林歌歌.从书信沙龙到开放获取——刍议学术论文形态的演化[J].数字图书馆论坛,2016(10):32-37.

[4] 胡志刚,章成志.悄然兴起的全文计量分析[J].图书馆论坛,2021,41(3):1-11.

[5] Zhang C, Liu L, Wang Y. Characterizing references from different disciplines: A perspective of citation content analysis[J]. Journal of Informetrics, 2021, 15(2): 101134.

[6] An X,Sun X,Xu S,et al.Important citations identification by exploiting generative model into discriminative model[J].Journal of Information Science,2023,49(1):107-121.

[7] An X,Sun X,Xu S.Important citations identification with semi-supervised classification model[J].Scientometrics,2022,127:6533-6555.

[8] 沈雪莹,欧石燕.科学文献知识单元抽取及应用研究:梳理与展望[J].情报理论与实践,2022,45(12):195-207.

[9] 杨思洛,程濛,莫莹莹. 学术论文研究亮点的语言特征与主题识别[J/OL]. 图书馆论坛,2022. [2023-01-29].https://kns.cnki.net/kcms/detail//44.1306.g2.20221222.0757.002.html.

[10] 安欣,徐硕,叶书路,等.面向全文本的微观实体抽取及扩散研究[J].图书馆论坛,2021,41(3):42-49.

[11] Beg M, Taka J, Kluyver T, et al. Using jupyter for reproducible scientific workflows[J]. Computing in Science & Engineering, 2021, 23(2): 36-46.

[12] 李春秋,徐曾旭林,宋宁远,等.基于纳米出版物的中文学位论文语义组织研究[J].中国图书馆学报,2021,47(5):97-115.

[13] 杨思洛,张一鸣.iSchools院校研究的跨学科特征:文献计量分析的视角[J].中国图书馆学报,2020,46(6):55-74.

[14] 袁子晗,张红伟.学术不端撤销论文施引文献引用态度分析——以哈佛大学心脏干细胞撤稿事件为例[J].中国科技期刊研究,2021,32(4):465-473.

[15] Yang S, Xiao A,Nie Y, et al. Measuring coauthors’ credit in medicine field — Based on author contribution statement and citation context analysis[J]. Information Processing & Management, 2022, 59(3): 102924.

[16] 杨思洛,聂颖.结合全文本分析的论文影响力评价模型研究[J].现代情报,2022,42(3):133-146.

[17] Li K, Jiao C. The data paper as a sociolinguistic epistemic object: A content analysis on the rhetorical moves used in data paper abstracts[J]. Journal of the Association for Information Science and Technology, 2022, 73(6): 834-846.

[18] Lu C, Zhang C, Xiao C, et al.Contributorship in scientific collaborations: The perspective of contribution-based byline orders[J]. Information Processing & Management, 2022, 59(3): 102944.

[19] Jiao C, Li K, Fang Z. Data sharing practices across knowledge domains: A dynamic examination of data availability statements in PLOS ONE publications[J]. Journal of Information Science, 2022: 01655515221101830.

[20] Ma B, Zhang C, Wang Y, et al. Enhancing identification of structure function of academic articles using contextual information[J].Scientometrics, 2022, 127(2): 885-925.

[21] Zhang C, Zhao L, Zhao M, et al. Enhancing keyphrase extraction from academic articles with their reference information[J]. Scientometrics, 2022, 127(2): 703-731.

[22] Wang Y, Zhang C. Using the full-text content of academic articles to identify and evaluate algorithm entities in the domain of natural language processing[J]. Journal of Informetrics, 2020, 14(4): 101091.

[23] Qin C, Zhang C. Which structure of academic articles do referees pay more attention to? Perspective of peer review and full-text of academic articles[J/OL]. Aslib Journal of Information Management, 2022.Doi:10.1108/AJIM-05-2022-0244.

[24] Zhang C, Xiang Y, Hao W, et al. Automatic recognition and classification of future work sentences from academic articles in a specific domain[J]. Journal of Informetrics, 2023, 17(1): 101373.

[25] 张晗,徐硕,乔晓东.融合科技文献内外部特征的主题模型发展综述[J].情报学报,2014(10):1108-1120.

[26] Blei D M,Lafferty J D.Dynamic topic models[C]//Proceedings of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,USA.New York:ACM,2006:113-120.

[27] Gerrish S M,Blei D M.A language-based approach to measuring scholarly impact[C]//Proceedings of the 27th International Conference on International Conference on Machine Learning.Haifa,Israel.New York:ACM,2010:375-382.

[28] Wang X R,McCallum A.Topics over time:A non-Markov continuous-time model of topical trends[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Philadelphia,PA,USA.New York:ACM,2006:424-433.

[29] Rosen-Zvi M,Chemudugunta C,Griffiths T,et al.Learning author-topic models from text corpora[J].ACM Transactions on Information Systems,2010,28(1).Doi: 10.1145/1658377.1658381

[30] Tang J,Zhang J,Yao L M,et al.ArnetMiner:Extraction and mining of academic social networks[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Las Vegas,Nevada,USA.New York:ACM,2008:990-998.

[31] 史庆伟,乔晓东,徐硕,等.作者主题演化模型及其在研究兴趣演化分析中的应用[J].情报学报,2013,32(9):912-919.

[32] Wang X,McCallum A,Wei X.Topical N-grams:Phrase and topic discovery,with an application to information retrieval[C]//Seventh IEEE International Conference on Data Mining (ICDM 2007).Omaha,NE,USA.Piscatawy: IEEE,2007:697-702.

[33] Xu S,Zhai D S,Wang F F,et al.A novel method for topic linkages between scientific publications and patents[J].Journal of the Association for Information Science and Technology,2019,70(9):1026-1042.

[34] Xu S,Li L,Wang C C,et al.An improved author-topic (AT) model with authorship credit allocation schemes[J].Journal of Information Science,2022:016555152211335.

[35] Dietz L,Bickel S,Scheffer T.Unsupervised prediction of citation influences[C]//Proceedings of the 24th International Conference on Machine Learning.Corvalis,Oregon,USA.New York:ACM,2007:233-240.

[36] Nallapati R M,Ahmed A,Xing E P,et al.Joint latent topic models for text and citations[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Las Vegas,Nevada,USA.New York:ACM,2008:542-550.

[37] Small H.Citation indexing revisited:Garfield’ s early vision and its implications for the future[J].Frontiers in Research Metrics and Analytics,2018,3:8.

[38] Garfield E.Science citation index—A new dimension in indexing[J].Science,1964,144(3619):649-654.

[39] Stevens M, Giuliano V, Garfield E. Can citation indexing be automated?[J].Statistical Association Methods for Mechanized Documentation, 1964, 269: 84-90.

[40] Garfield E,Sher I H.KeyWords PlusTM—Algorithmic derivative indexing[J].Journal of the American Society for Information Science,1993,44(5):298-299.

[41] Nicholson J M,Mordaunt M,Lopez P,et al.Scite:A smart citation index that displays the context of citations and classifies their intent using deep learning[J].Quantitative Science Studies,2021,2(3):882-898.

[42] Liu M, Bu Y, Chen C, et al. Pandemics are catalysts of scientific novelty: Evidence from COVID-19[J]. Journal of the Association for Information Science and Technology, 2022, 73(8): 1065-1078.

[43] Vinkers C H, Tijdink J K, Otte W M. Use of positive and negative words in scientific PubMed abstracts between 1974 and 2014: Retrospective analysis[J]. British Medical Journal, 2015, 351:h6467.

[44] Chu J S G,Evans J A.Slowed canonical progress in large fields of science[J].Proceedings of the National Academy of Sciences of the United States of America,2021,118(41):e2021636118.

[45] 徐硕,王聪聪,安欣.新兴技术弱信号扫描预判述评[J/OL]. 情报杂志,2023.[2023-02-16].https://kns.cnki.net/kcms/detail//61.1167.G3.20230105.2113.012.html

[46] Xu S, Hao L, Yang G, et al. A topic models based framework for detecting and forecasting emerging technologies[J]. Technological Forecasting and Social Change,2021,162:120366.

[47] 周波,冷伏海.演绎逻辑与归纳逻辑视角下的颠覆性技术识别方法研究述评[J].情报学报,2022,41(9):980-990.

[48] Wang X, Wang Z, Xu S. Tracing scientist’s research trendsrealtimely[J]. Scientometrics, 2013, 95(2): 717-729.

[49] 陈果,姚游倩.情报学研究的可靠性评估:内涵、进展与对策[J/OL]. 情报理论与实践.[2023-01-29].https://kns.cnki.net/kcms/detail//11.1762.G3.20221109.1020.002.html.

[50] Comeau D C,Islamaj Doˇgan R,Ciccarese P,et al.BioC:A minimalist approach to interoperability for biomedical text processing[J].Database,2013,2013:bat064.

(收稿日期:2023-02-21)

 




作者简介

周海晨,研究助理,博士,研究方向为科技评价与文本挖掘,Email:zhouhc@clas.ac.cn;

章成志,教授,博士,研究方向为信息组织、信息检索、数据挖掘及自然语言处理;

胡志刚,副教授,博士,研究方向为科学学与科学计量学;

徐硕,教授,博士,研究方向为科学计量学、科技情报分析和数据挖掘;

杨思洛,教授,博士,研究方向为文献计量与科学评价;

李恺,助理教授,博士,研究方向为科学计量学与学术传播。

* 原文载于《信息资源管理学报》2023年第2期,欢迎个人转发,公众号转载请联系后台。


* 引用格式

周海晨,章成志,胡志刚,等.全文计量分析的实践与展望:理论、方法与应用——2022全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2023,13(2):135-142.


往期 · 推荐

当期目录 | 2023年第2期

学术活动 | 全文本分析理论与技术的新进展与新探索——2019全文本文献计量分析学术沙龙综述

本期荐读 | 全文本文献计量分析学术沙龙综述

2023年第1期 | 美国数据与算法安全治理:进路、特征与启示

2023年第1期 | 平衡信息接触能否帮助人们打破信息茧房?信息感知与态度变化的关系研究


▲点击访问信息资源管理学报小程序


制版编辑 | 王伊杨

审核 | 于阿媛



长按识别二维码关注我们

信息资源管理学报

微信号

xxzyglxb




分享、在看与点赞

只要你点,我们就是朋友😊



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存