- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
引用内容获取与分析平台90)
刘盛博丁垄刘则渊
(大连理工大学WISELab,大连l16023)
摘要 引文的引用内容可以提供一篇引文被引用的详细信息,包括了这篇引文为什么被引用,在哪些方面被引用以
及具体的引用价值,而目前对于引用内容的研究受限于引用内容的获取。本文基于PubMedCentral全文数据库,设计
了一个引用内容获取与分析平台,提供了一篇文献的所有引用内容检索功能,并利用标签云技术,对引用内容的主题
进行可视化展示。
关键词引用内容获取引用内容分析标签云
Small【11早在1982年就提出引用内容概念,将引用内容定义为“Thetextreferences”,即
surroundingthe
参考文献周围的文本内容,例如,句子“This ismade
comparisonusingBLASTX【18]”就是参考文献[18】
的引用内容,也可以把这个句子前后的句子也作为引用内容。他将引用内容的研究划分为两种类型,一
种是对引用内容进行分类或研究参考文献在施引文献中的功能。另一种是对引用内容本身进行分析,通
过语义分析,研究被引文献的特征。无论开展哪种类型的研究,前提都是需要获取引用内容信息。虽然
引文的引用内容可以提供与引文最直接、最相关的信息,但相对于引文分析其他方面研究而言,对于引
文内容研究较少,其中一个重要原因是引用内容很难获取。一篇文章的引用价值可能体现在多个方面,
可能被不同领域的研究者引用,其引用内容可能分布于不同期刊或学科领域,因此,在对引用内容信息
获取时,需要多方面采集全文数据,将引用内容从全文数据中剥离出来,早期研究通常采用人工抽取的
引文的引用动机。Spiegel—RSsingTM通过人工采集((Science
容信息,将引用内容划分为13类。
近年来,随着计算机技术的发展和全文数据库的完善,人们可以从全文数据库中获取文献的全文,
为引用内容研究提供良好的数据基础。近年来对引用内容的研究主要集中在文章自动概要生成14墙】和信
和Ungson发表的一篇经典文章。分析结果包括了这篇文章中具体的哪些知识被人们引用了,哪些知识对
以后研究具有重大影响以及哪些知识被人们所批判。这些研究都是在Small提出的两种研究类型上发展
起来的,随着全文数据库的发展,引用内容的价值也被广泛关注,美国情报先进研究计划局最近开展了
一个FUSE项目,主要研究如何利用全文数据来揭示科学技术发展特征,而引用内容分析是目前全文数
据分析的一个主要应用方向。我国学者对引用内容分析研究很少,只有少量利用引用内容对引文评价的
作者简介:刘盛博,男,1983年生,大连理工大学科学学与科技管理专业博士研究生,研究方向为:知识计量。E-mail:
llu§b垒DgbQ!121@g盟自il:£Q匝。
丁垫,女,1962年生,大连理工大学人文社会科学学院教授,研究方向为:学科知识管理与创新管理。
刘则渊,男,1940年生,大连理工大学入文社会科学学院教授,研究方向:科学学理论与科学计量学。
158
定性研究【13’14】。
虽然数据库提供了文献的全文信息,但研究人员无法从数据库中直接检索一篇文章的所有引用内
容,而是需要下载全文数据后,从数据中对引文信息进行抽取分析,早期的手工抽取需要的工作量太
大,有些文章被引频次达到上千次,手工抽取不太现实。目前主要采用计算机技术从全文中抽取这些
引用内容,但并非所有研究者都能掌握足够的计算机技术来实现引用内容的抽取,限制了很多研究人
员的研究步伐。因此,本文将以PubMedCentral数据库中的所有全文数据为基础,构建一个引用内容
获取与分析平台,提供了一篇文章的所有引用内容查找功能,希望可以通过这个平台,使人们能够更
方便的对引文的引用内容展开研究。
1引用内容获取与分析平台设计
引用内容获取与分析平台主要包含三个模块设计,分别是数据处理模块、引文内容检索模块和结
果分析模块,如图l所示:
图1.引文内容获取与分析平台设计
数据处理模块包含3部分处理内容,分别是数据采集、引用内容抽取和引用内容索引。
(1)数据采集
您可能关注的文档
最近下载
- 西门子 go topCT 中文版.pdf VIP
- 复合材料【全套课件】.ppt VIP
- 复合材料 第八章 先进复合材料.ppt VIP
- 人教版八年级物理第九单元《压强》测试题及答案.doc VIP
- 《复合材料学》全套教学课件.pptx
- 复合材料复合材料导论.ppt VIP
- 2025年闽教版(2024)小学英语四年级上册(全册)教学设计(附目录P123).docx
- 冠心病的介绍与治疗PPT.pptx VIP
- 2025云南昆明巫家坝建设发展有限责任公司及下属公司第三季度招聘23人笔试参考题库附答案解析.docx VIP
- 2.2.3 气候——特征和影响因素(课件)八年级地理上册(人教版).pptx VIP
文档评论(0)