冯小东 黄雨杭 | 基于SciBERT的科研合作知识交叉测度及其对科研主体持续科研产出的因果效应
我院冯小东副教授、黄雨杭硕士研究生撰写的论文《基于SciBERT的科研合作知识交叉测度及其对科研主体持续科研产出的因果效应》发表于《情报学报》2025年第07期。
摘要
随着科研问题日益综合化与复杂化,科研合作及学科交叉趋势愈演愈烈,此过程中知识交叉是知识相互作用、融合、创新的过程,可能带来斐然的科研成果。突破已有学科交叉研究的学科粒度及成果静态呈现视角,本文探究了科研主体与合作者在前期动态知识经验累积上的细粒度知识交叉的测量及对其持续科研产出的影响。基于SciBERT模型对论文句子及关键词的表示能力,利用文本挖掘方法,构建科研主体的科研合作知识交叉强度测量模型。以信息系统学科的论文发表数据为例,构建面板数据,使用广义倾向性得分匹配方法进行因果效应分析,并探究研究问题和研究方法维度上知识交叉的影响差异。研究结果表明,科研合作的知识交叉对于科研主体下一阶段的科研产出数量呈现倒U形的影响关系,科研主体在研究方法上开展科研合作的知识交叉比在研究问题上的知识交叉更能影响其后续的持续科研产出。
01研究背景
科研人员身处越发激烈的竞争中,“预聘-长聘”制等人才政策、学术资源分配等外部因素不断对科研人员的科研产出能力提出更高的要求。科研产出的能力既反映科研人员通过理论创新进行知识生产与科技创新的能力,以及通过整合与应用实现技术创新、知识运用与知识转化的能力,也是衡量科研能力与人才价值的基本标准之一,通常使用论文、专著、专利、知识产权、获奖等数量与质量进行表征。随着跨学科科研合作成为影响学界科研产出的重要因素,这一过程中涉及了多学科知识的交叉和重组,可能催生新方法、新知识甚至是新学科,给参与其中的科研人员带来高潜在影响力的科研成果。部分科研工作者选择打破学科壁垒、寻求跨学科科研合作,以提高自己的科研产出能力。鉴于此,围绕跨学科研究与科研产出之间的影响机制的研究成果颇丰,大量研究主要从科研合作团队构成和科研成果知识融合角度,探索了具有跨学科特征的科研成果对科研成果绩效带来的影响。然而,当前面向跨学科的研究主要基于粗粒度的学科划分视角,探讨科研合作团队或科研成果的知识构成特征,并不能完全概括科研活动中更细粒度的知识交叉与融合创新的动态过程。在研究方法上,大多数研究主要回答了跨学科科研合作这一现象与科研产出特征(如影响力)的相关性问题,忽略了科研人员跨学科行为与科研产出之间的内生性问题,缺乏在因果推断视角上的稳健性检验。
02研究方法和结果
本文突破科研合作或科研成果的学科粒度,从更一般性的细粒度知识构成角度对学术论文的知识特征进行表示。首先,利用基于语言模型(如基于科学论文数据的预训练模型SciBERT)的文本特征表示能力及相似度计算方法,从不同科研合作主体前期成果的相关性视角,构建更一般性的科研合作的知识交叉测量模型;其次,除了对科研主体的科研合作整体知识交叉性进行测量以外,还利用基于预训练语言模型微调的文本分类方法,提取学术论文摘要中的研究问题和研究方法要素构成,形成不同维度的科研合作知识交叉测量;最后,在实证分析中,选取具有跨学科交叉特征的信息系统领域学者及学术论文数据集,利用基于广义倾向性得分匹配的稳健因果推断方法,探究科研主体的科研合作知识交叉与其持续科研产出之间的因果关系,并比较研究问题和研究方法要素的知识交叉产生的影响的差异性。
研究结果表明,科研合作的知识交叉对于科研主体下一阶段的科研产出数量呈现倒U形的影响关系,科研主体在研究方法上开展科研合作的知识交叉比在研究问题上的知识交叉更能影响其后续的持续科研产出。
03研究贡献
本文主要有以下几点贡献:
①将致力于探究不同领域科学研究间互相交叉合作的跨学科研究从学科粒度拓展到细粒度的知识构成,并从不同科研主体知识经验的接近性视角探索科研合作成果知识交叉的测量,突破了基于科研成果静态呈现视角的现有研究对科研主体前期知识经验如何决定科研成果交叉性的忽略;
②利用微调预训练语言模型的语义识别和表示能力,构建了科研主体的科研合作知识交叉测量模型,为后续基于语言模型的科技文献挖掘相关研究提供了重要借鉴;
③关于科研主体的科研合作知识交叉对其持续科研产出倒U形非线性的影响关系的结论,丰富了相关研究的理论发现,为研究问题和研究方法知识交叉影响差异的探索提供了新的研究思路;
④利用广义精确匹配因果推断方法对科研主体的科研合作知识交叉与其持续科研产出间的因果关系进行识别,相比于传统的相关分析和回归分析,通过避免混淆因素和内生问题,提高了因果效应估计的鲁棒性,为图书情报领域后续关于因果关系探索的研究提供了方法参考。
04主要研究内容
本文创新性地提出基于文本挖掘方法的论文成果细粒度知识交叉计算,以测算科研主体的合作交叉特征。通过网络爬虫从OpenAlex开源数据库获得作者基本信息以及包括论文标题、关键词和摘要在内的文本信息;随后,基于预训练模型SciBERT进行微调,实现论文问题与方法构成要素的识别,基于SciBERT获取关键词或句子向量表示,通过余弦相似度计算知识交叉程度;构建广义倾向性得分匹配(GPSM)模型,分析知识交叉与科研产出之间因果关系;最后,使用似无相关回归(SUR)与SHAP模型识别研究问题与研究方法在影响上的差异性,进行稳健性检验。研究框架如图1所示。
<< 作者简介 >>
冯小东,博士,中山大学信息管理学院副教授,硕士生导师,主要研究方向为在线信息及科技文献大数据挖掘;
黄雨杭,中山大学信息管理学院24级情报学硕士研究生,主要研究方向为科学计量。