- 0
- 0
- 约10.96万字
- 约 80页
- 2026-01-21 发布于江西
- 举报
摘要
大科学时代,科学问题逐渐复杂,涉及的范围与规模不断扩大,呈现出多学
科或多领域交叉的现象,依靠单一学科已经无法解决这些复杂问题,跨学科研究
在现实需要下成为一种普遍现象。随着各学科间交叉融合程度越来越深,探索学
科交叉的一般规律和方法,将有助于充分发挥学科交叉在科技创新中的作用和价
值。目前,交叉学科或领域的知识发展规律已成为国内外学界关注的热点,研究
对象的学科属性判定则成为了跨学科研究开展的前提条件,知识单元的学科分类
任务是重要的基础性工作。但目前现有知识单元的学科分类方法主要针对的是文
献或机构等粗粒度知识对象,而对于词汇粒度知识单元的学科分类研究相对较少
且缺乏方法性能的验证。基于此,本文从交叉领域的词汇单元出发,融合多学科
特征构建词汇学科自动分类模型,旨在发掘最优的分类模型及学科特征组合以支
持交叉领域词汇学科分类任务。
交叉领域的词汇学科分类问题可以理解为已知一个给定的学科领域词汇集合,
根据词汇的学科特征表现,为其赋予其一个学科标签。为实现词汇学科分类效果
提升,识别和发现关键特征对提升词汇学科分类性能具有重要作用,因而本文尝
试构建词汇的学科特征体系,通过梳理现有统计测度指标的计算原理,归纳出3种
词汇学科特征,分别是学科重要度I、学科相关度R和学科区分度D。基于3种学
特征进一步设计7种学科特征组合,并从全局词汇、不同词频数、不同学科覆盖数
三种角度出发,在7种特征组合下验证了词汇学科分类模型的通用性和适用性,以
此发现最优的词汇学科分类模型及学科特征组合。
本文将新兴交叉领域“计算医学”词汇作为目标对象,以MeSH医学主题词表
作为词汇学科分类结果的参照标准,展开实证分析。针对交叉领域词汇学科自动
分类问题,本文主要得出以下几点结论:一是本文提出的多特征融合词汇学科自
动分类模型在整体性能上优于传统的统计测度指标,F1值有较大提升,其中融合
学科重要性I和学科相关性R的RF分类模型是综合性能最好的分类模型;二是融
合多学科特征的整体性能优于单学科特征,其中特征组合学科重要性I+学科相关
性R在词汇学科分类任务中具备最好的通用性和适用性;三是中频词和四学科覆
盖数词汇场景更有利于提高词汇学科分类模型的整体性能,且中频词更能代表交
叉领域知识内容的学科特征。
关键词:词汇单元;学科分类;多特征融合;机器学习;交叉领域
Abstract
Intheeraofbigscience,scientificproblemsaregraduallycomplex,thescopeand
scaleinvolvedareexpanding,showingthephenomenonofmultidisciplinaryormultifield
crossover,andrelyingonasingledisciplineisnolongerabletosolvethesecomplex
problems,sothatinterdisciplinaryresearchhasbecomeacommonphenomenonunderthe
realisticneeds.Asthedegreeofcross-fusionbetweenvariousdisciplinesbecomesdeeper
anddeeper,exploringthegeneralrulesandmethodsofcross-disciplinewillhelptogive
fullplaytotheroleandvalueofcross-disciplineinscientificandtechnologicalinnovation.
Atpresent,thelawofknowledgedevelopmentofcross-disciplinesorfieldshasbecomea
hotspotofattentionindomesticandforeignacademiccircles,andthedeterminationof
disciplinar
原创力文档

文档评论(0)