基于知识图谱国际网络搜索引擎研究现状与前沿分析.docVIP

基于知识图谱国际网络搜索引擎研究现状与前沿分析.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于知识图谱国际网络搜索引擎研究现状与前沿分析

基于知识图谱国际网络搜索引擎研究现状与前沿分析   [摘要]运用知识图谱方法对国际网络搜索引擎领域1999~2010年的相关文献进行多角度的定量定性分析,描绘该领域近年来的研究现状及热点。结果表明:目前该领域的文献量稳步增长,高校是核心的研究力量。同时识别核心作者群,并发现目前的研究主要集中于搜索引擎的基本理论研究、检索效率研究、用户行为研究、语义网研究、医学引擎研究等。   [关键词]网络搜索引擎 知识图谱 研究现状研究 前沿   [分类号]G350      1 引言      因特网信息爆炸性增长在给使用者带来便利的同时,也带来了麻烦。在浩如烟海的信息海洋中快速准确地寻找所需信息犹如大海捞针般困难,网络搜索引擎的出现缓解了这一矛盾。搜索引擎是一种用于帮助因特网用户在互联网上查询信息的搜索工具,它以一定的策略在因特网中发现、搜集信息,并对搜集??信息进行加工整理和组织存贮,为用户提供检索服务,从而起到信息导航的作用。1994年创建的Lycos被认为是第一个现代意义上的搜索引擎。网络搜索引擎发展至今虽只有十余年的历史,却在商界、学术界掀起了巨大波澜。著名因特网网站排名公司Alexa提供的数据显示,搜索引擎公司谷歌于2009年1月5日首次在Alexa日流量排名中占据第一,成为世界头号网站。comScore在2009年9月发布的全球10大因特网资产也显示谷歌排名第二,排在第九、第十位的也均是搜索引擎公司,分别为百度和Lycos。学术界对于网络搜索引擎的基础理论研究、比较研究、技术研究、质量性能研究等均有大量报道,但鲜有涉足现状及前沿分析,即使涉足一般也以定性研究为主。为了解该领域近年来的研究现状及热点,笔者拟用知识图谱方法对国际网络搜索引擎领域的相关文献进行以定量分析为主、定性分析为辅的研究,希冀得出一些有益的结论,为该领域的研究提供借鉴。      2 数据来源、理论基础和研究思路      2.1 数据来源   本文使用的数据均来源于美国科学信息研究所的WoS数据库平台中的SCI-Expanded数据库。以“WebSearch Engine”或“Web Search Engines”为主题词进行检索,在相关题录信息下载过程中,文献类型选为“Artide”,语种为“English”,入库年份为“1999-2010”,下载日期为2010年04月30日,共检索到1268篇文献和36 804条引文题录数据。      2.2 理论基础   科学知识图谱是显示知识发展进程与结构关系的一种图形,是近年来国际上兴起的一种科学计量学研究方法。知识图谱以引文分析、共现分析、词频分析等文献计量方法为基础,综合了计算机科学、图形学、信息可视化、数据挖掘、数学等学科理论和方法,可以以图像图形的形式形象地展现科学领域的发展历程、研究现状及热点前沿,并揭示科学知识之间的联系与知识的发展规律,为科学研究提供有价值的参考。德雷赛尔大学陈超美博士开发的CitespaeelI可视化软件为研究提供了极大便利,是知识图谱方面一款非常优秀的软件。对于一个研究领域的表示,陈超美认为,可以用“研究前沿”和“知识基础”两者之间的时变映射来表示。研究前沿代表了一个领域的思想状况,研究前沿的引文和共被引轨迹则构成了相应的知识基础,Citespaeell使用的光谱聚类算法可以对共现和共被引网络进行自动聚类及标引,采用的Kleinberg突变检测算法可以用于检测一个学科内研究兴趣的突然增长。本文拟用“关键词聚类”和“突变词检测”算法来确定某研究领域的研究热点和研究前沿。      2.3 研究思路   本文首先采用文献计量方法对相关文献的数量、著者、主要研究机构进行分析以揭示研究现状,然后绘制这1268篇文献的高频关键词的共现聚类图谱、高被引文献的共被引网络知识图谱,从而描绘出该领域的研究热点及知识基础。使用到的软件主要有书目共现分析系统、Excel、CitespaeeII可视化软件等。      3 研究现状描述      3.1 文献信息量统计   发表文献的数量在一定程度上代表了某个领域的研究水平与发展趋势。图1所示的是1999~2010年12年间的文献量,其中2010年的数据只统计到4月份。从图中可以看出,文献量除2003、2005年略有下降外,其他年份均呈稳步增长之势。      3.2 论文著者统计分析   3.2.1 作者总体状况统计表明这1268篇文献来自于1045位著者,具体数据如表1所示:   这与经典的描述科学生产率的洛特卡定律并不符合。洛特卡定律描述的是写一篇文章的作者大约占作者总数的60%,而写n篇作者的人数约为写一篇作者人数的1/n2。但从表中发现,写一篇文献的作者人数所占的比例高达89.5%,远

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档