- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
西南大学研究生课程考试-《情报探索》.doc
基于科技文献的概念图自动构建
秦小铁
重庆科技学院图书馆 重庆 401331
摘要: 在数字化科研资源环境中,科研学者在进入一个新的研究领域时迫切需要获得该领域资源整体概念图,有效地梳理这些资源,按照知识结构组成部分和其自身具体情况补充。本文提出概念图自动构建流程,通过提取科技文献的关键词,分析关键词共频现象,结合寻径网络映射技术来构建概念图,突出显示领域内的知识节点,节省学者构建新领域内知识结构的时间。
关键字: 概念图;共词分析; PFNET;自动构建;可视化
1 引言
概念图将特定情景下的事物以及事物之间的关系以一种图示的方式直观形象地表现出来[1],利用人类的视觉能力来理解复杂的信息,是一种有效的知识可视化工具。概念图用来描述由链接和结点组成的网络里的概念及它们之间的关系,用结点描述概念,链接描述关系。概念图能为研究者提供研究参考,有助于某领域初学者更好地掌握领域知识。构建概念图往往需要拥有丰富领域知识的专家的参与,而且常常是手工完成。面对一个知识迅速增长的时代,多学科交叉的现象越来越明显,新概念层出不穷, 概念之间的关系也在发生变化,仅仅依靠领域专家手工构建概念图显然不能满足需求。如果在科研检索过程中借助计算机技术自动生成的概念图,帮助学者在已有的认知结构基础上更快的吸收新概念和主题,可以缩短用户查找、分析信息的时间,节省其进入新研究领域的时间。
研究假设
假设一:科技文献中每一个关键词表示一个基本概念。
科技文献的关键词通常用来表示文献的研究主题以及研究者的兴趣方向。作者通常选择恰当的关键词来表示论文研究的概念,方法,理论,模型或其他有意义的主题,我们用关键词作为构建概念图的基本实体。
假设二:如果两个关键词出现在同一个研究论文中,表示这两个概念间存在着特定的关系,且如果两个关键词在同类型的文献中共现的次数多,表示这两个概念在该研究领域内有更加密切的关系。
科研论文的目标是解决其研究领域内的某个特定问题,而论文列出的关键词是假定为用于解决该问题而应用的概念,方法,理论或模型,这意味着关键词间存在某种特定关系。如果两个关键词在该研究领域的多篇论文中出现说明这两个关键词在领域中的分析解决某个问题过程中占据重要的地位。
概念图自动构建流程
概念图自动构建流程主要包括三个处理过程:概念抽取,共词分析,可视化映射。
图1 概念图自动构建流程图
3.1 概念抽取
构建研究领域的概念图,必须掌握恰当的研究对象,根据文献检索出的相关期刊论文所列举的关键词可以有效的描述了该研究领域的概念。但是不同作者对同一概念的描述术语可能不完全一致,例如K近邻,K-近邻,K-最近邻代表的都是同一概念,如果同义术语不归一处理,那么频率计算结果将影响到概念图的整体结构,造成概念图信息丢失或冗余,叙词表是规范同义术语的有效字典。
3.2 叙词表
叙词表将文献作者、标引者和检索者使用的自然语言转换成规范化的叙词型主题检索语言的术语控制工具,亦称主题词表、检索词典。它是一种概括某一学科领域,以规范化的、受控的、动态性的叙词(主题词)为基本成分和以参照系统显示词间关系,用于标引、存储和检索文献的词典。, 是科技文本挖掘的重要方法。其原理主要是对一组词两两统计它们在同一篇文献中出现的次数, 以此为基础对这些词进行聚类分析, 从而反映出这些词之间的亲疏关系, 进而分析这些词所代表的学科和主题的结构变化。它利用大量文献中共同出现的关键词对有效地反映文本关键词之间的关联强度, 减少了关键词的空间, 用一套结构图有效地展示了关键词之间的关联。它通过分析科技文献中关键词、主题词、索引词或短语在科技文本中共同出现的形式, 统计一组词或短语两两在同一篇文献中出现的次数来建立一个矩阵, 该矩阵显示了词之间的关联。关联的次数越多,他们之间的关系就越密切, “距离”也就越近[2]。
3.4 可视化映射
由共词分析得到的共频矩阵分析对象数量用n来表示, 则每个对象最终都是通过一个 n 维矢量来表示。n 维数据之间的复杂关系很难通过一个图形来简单表示。只有将这高维的数据转换成低维数据, 同时还近似地保持原对象间的关系,才能够在低维空间上简单地表现高维空间中的复杂的对象间的关系。目前应用较多的是多维标度技术MDS、自组织特征映射技术SOM,但是这两种方法在模仿不均匀的关系存在不足,不能突出显示局部关系,[6],这里我们引入寻径网络方法来实现由共频矩阵来到概念图的映射。
3.5 寻径网络
寻径网络(PFNET)对不同概念或实体间关系的相似或差异程度做出评估, 然后应用图论中的一些基本概念和原理生成的一类特殊的网状模型。它对不同概念或实体间形成的语义网络进行表达,从一定程度上模拟了人脑的记忆模型和联想式思维方式。寻径网络由一个简化概念或实体的关系所形成。寻径网络生成算法检查
文档评论(0)