搜索引擎每天出现大量科技信息.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎每天出现大量科技信息.ppt

Physics聚类结果 Physics聚类结果 Physics聚类结果 Physics聚类结果 1.bi-clustering BEP值高于 HAC和K-means 2.性能排序 bi-clustering HAC K-means Genomics聚类结果 1.Topic granularity level1 Combined一直优于其他 2.排序:K-means HAC bi-clustering 3.citation representation 一直不如original 4.整体的BEP值高于 Physics 动态层次聚类 通过人工分析结果发现,随着主题特异度的增加,引文与原文结合表示方式的聚类性能下降 引文特征项更倾向于描述论文通用主题,因为作者想节省空间,让读者自己查阅原始文献获取更多的信息 动态层次聚类:开始时,即当类簇较少(特指的主题)时,主要采用标准的全文文本特征项计算文档的相似性,而当类簇较多(泛指的主题)时,采用不同比例的引文特征项+原始特征项计算文本的相似度。 可以生成更加准确的聚类 动态层次聚类 动态层次聚类 前言 方法 结果 讨论 结论 讨论 1.引文表示和传统的全文表示方式结合能改善文档聚类的准确性,主题越是泛指,改善越明显 2.仅用引文特征项表示文档在聚类中出奇的有效,这一结果表明引文表示比全文表示含有的特征项少,可以提高运行效率但会降低聚类的准确性 3.在物理学文档集中双向聚类性能最好,在基因组学文档集中k-means聚类算法最好,在两个数据集中HAC算法最稳定 讨论 4.引文特征项更倾向于获取文档的通用主题关键词而不是特指主题,这引导我们开发了一种改进标准层次聚类的方法——动态层次聚类方法,我们的结果表明这种方法是比较有前景的动态聚类方法. 5,利用同被引信息计算文档相似度的基于链接的聚类方法不如基于文本的聚类方法 结论 重要贡献 在科学出版物领域分析和使用了引文上下文 在两个领域Genomics 和 Physics开发了新的标记好的科学文献的测试集,这可能有助于我们将来的研究。 结论 1.引文表示是一种不错的可以选择的文档表示方法,可以提供额外的信息。尤其是,可能含有有用的同义词和相关词,这些词能增加相似性计算准确度,是信息检索和文档聚类应用中不可缺少的部分。 2.我们的结果表明原始的全文表示和引文表示结合是最有效的获取科技文献内容的方式。但是引文表示不能替代原始的全文表示,除非特别注重效率时可以单独使用 Bader Aljaber . Nicola Stokes . James Bailey . Jian Pei manuscript 前言 方法 结果 讨论 结论 why 搜索引擎每天出现大量科技信息,为用户寻找相关信息带来了困难。例如,单在生物医学领域每天就出版1800篇论文。 解决信息过载 文档聚类是根据文档的某种联系或相关性对大量无类别的文档集合进行有效的组织、摘要和导航,方便人们从文档集中发现相关的信息。使同类的文档相似度较大,而不同类的文档相似度尽可能小 应用 ①文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,比较典型的例子是哥伦比亚 大学开发的多文档文摘系统Newsblaster ②对用户感兴趣的文档聚类,能够挖掘用户的兴趣模式以用于信息过滤和主动推荐等信息服务 ③聚类技术还可以用来改善文本分类的结果或者找出潜在的主题 ④数字图书馆服务 ⑤文档集合的自动整理。如对个人邮件进行分类,对个人短信息自动分类处理等 Why use citation contexts 许多现有的文档聚类方法采用“词袋”模型表示文档。词袋由源文本中的词简单的组成,每个词赋予一定的权重,如tf-idf权重。 但是,这种文档表示方法在组织文档时并不总是有效,因为有两个语言学现象:多义词和同义词。 “bank” “physics,physical science” 本文的一个目的就是通过从科技期刊论文的引文上下文(citation contexts)中搜集相关词和近同义词来解决同义词的问题。 What is it Citation contexts 就是给定科技论文在文档集中引用它的源文献中的文本描述。 Citation contexts refer to textual descriptions of a given scientific article found in other articles in the document collection which cite it Many techniques have been proposed to address this problem, such as [4

您可能关注的文档

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档