- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎每天出现大量科技信息.ppt
Physics聚类结果 Physics聚类结果 Physics聚类结果 Physics聚类结果 1.bi-clustering BEP值高于 HAC和K-means 2.性能排序 bi-clustering HAC K-means Genomics聚类结果 1.Topic granularity level1 Combined一直优于其他 2.排序:K-means HAC bi-clustering 3.citation representation 一直不如original 4.整体的BEP值高于 Physics 动态层次聚类 通过人工分析结果发现,随着主题特异度的增加,引文与原文结合表示方式的聚类性能下降 引文特征项更倾向于描述论文通用主题,因为作者想节省空间,让读者自己查阅原始文献获取更多的信息 动态层次聚类:开始时,即当类簇较少(特指的主题)时,主要采用标准的全文文本特征项计算文档的相似性,而当类簇较多(泛指的主题)时,采用不同比例的引文特征项+原始特征项计算文本的相似度。 可以生成更加准确的聚类 动态层次聚类 动态层次聚类 前言 方法 结果 讨论 结论 讨论 1.引文表示和传统的全文表示方式结合能改善文档聚类的准确性,主题越是泛指,改善越明显 2.仅用引文特征项表示文档在聚类中出奇的有效,这一结果表明引文表示比全文表示含有的特征项少,可以提高运行效率但会降低聚类的准确性 3.在物理学文档集中双向聚类性能最好,在基因组学文档集中k-means聚类算法最好,在两个数据集中HAC算法最稳定 讨论 4.引文特征项更倾向于获取文档的通用主题关键词而不是特指主题,这引导我们开发了一种改进标准层次聚类的方法——动态层次聚类方法,我们的结果表明这种方法是比较有前景的动态聚类方法. 5,利用同被引信息计算文档相似度的基于链接的聚类方法不如基于文本的聚类方法 结论 重要贡献 在科学出版物领域分析和使用了引文上下文 在两个领域Genomics 和 Physics开发了新的标记好的科学文献的测试集,这可能有助于我们将来的研究。 结论 1.引文表示是一种不错的可以选择的文档表示方法,可以提供额外的信息。尤其是,可能含有有用的同义词和相关词,这些词能增加相似性计算准确度,是信息检索和文档聚类应用中不可缺少的部分。 2.我们的结果表明原始的全文表示和引文表示结合是最有效的获取科技文献内容的方式。但是引文表示不能替代原始的全文表示,除非特别注重效率时可以单独使用 Bader Aljaber . Nicola Stokes . James Bailey .Jian Pei manuscript 前言 方法 结果 讨论 结论 why 搜索引擎每天出现大量科技信息,为用户寻找相关信息带来了困难。例如,单在生物医学领域每天就出版1800篇论文。 解决信息过载 文档聚类是根据文档的某种联系或相关性对大量无类别的文档集合进行有效的组织、摘要和导航,方便人们从文档集中发现相关的信息。使同类的文档相似度较大,而不同类的文档相似度尽可能小 应用 ①文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,比较典型的例子是哥伦比亚 大学开发的多文档文摘系统Newsblaster ②对用户感兴趣的文档聚类,能够挖掘用户的兴趣模式以用于信息过滤和主动推荐等信息服务 ③聚类技术还可以用来改善文本分类的结果或者找出潜在的主题 ④数字图书馆服务 ⑤文档集合的自动整理。如对个人邮件进行分类,对个人短信息自动分类处理等 Why use citation contexts 许多现有的文档聚类方法采用“词袋”模型表示文档。词袋由源文本中的词简单的组成,每个词赋予一定的权重,如tf-idf权重。 但是,这种文档表示方法在组织文档时并不总是有效,因为有两个语言学现象:多义词和同义词。 “bank” “physics,physical science” 本文的一个目的就是通过从科技期刊论文的引文上下文(citation contexts)中搜集相关词和近同义词来解决同义词的问题。 What is it Citation contexts 就是给定科技论文在文档集中引用它的源文献中的文本描述。 Citation contexts refer to textual descriptions of a given scientific article found in other articles in the document collection which cite it Many techniques have been proposed to address this problem, such as [4
您可能关注的文档
- 学术论文的种类.ppt
- 新课改背景下.ppt
- 教育行动研究与教师专业化成长研究.ppt
- 马克思主义.ppt
- 南宋散文和宋代话本.ppt
- 省级立项课题.ppt
- 贸易经济学 - 湖南商学院国家级精品课程.ppt
- 民法学1.ppt
- 外国语学院科研工作总结.ppt
- 外文全文数据库使用指南.ppt
- 2024年05月山东交通职业学院招考聘用博士研究生50人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月安徽芜湖市弋江区老年学校(大学)工作人员特设岗位公开招聘2人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东东营河口区教育类事业单位招考聘用22人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东交通职业学院招考聘用100人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东威海职业学院招考聘用高层次人才2人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月安徽石台县事业单位工作人员33人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东滨州市博兴县事业单位公开招聘考察笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月安徽蚌埠固镇县湖沟镇选聘村级后备干部7人笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东省安丘市教育和体育局所属事业单位学校公开2024年招考232名工作人员笔试历年典型题及考点剖析附带答案含详解.docx
- 2024年05月山东临沂临港经济开发区工作人员(5人)笔试历年典型题及考点剖析附带答案含详解.docx
文档评论(0)