基于PubMed相关文献功能的专题领域文本分类的研究.pdfVIP

基于PubMed相关文献功能的专题领域文本分类的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中华医学会第十五次全国医学信息学术会议 论文汇编 1 PU-31-0024 被认为是一个简单、有效而且在实际应用中很成功的分类 基于 PubMed 相关文献功能的专题领域文本分类研 器。在文本分类领域,贝叶斯定理可以表述如下: 究 ∗ p (cj)p (di / cj) 王秀艳 崔雷 P(cj/di) , 中国医科大学医学信息学系 110001 p (di) 上述公式表示在给定文档di的条件下,di属于类别Cj 1.前言 的概率(称为后验概率)。所以对文档di分类的问题就转化为 随着科学研究以及信息技术的飞速发展,文本信息正在 计算P(Cj/di)的值,使P(Cj/di)取得最大值的那个类别就 以几何级数不断增长,人们每天都必须面对大量纷繁芜杂的 是所属的类别。此算法和PubMed中相关文献的算法的原理相 信息。在这种情况下,要想快速有效的从大规模文本信息资 同,都利用了贝叶斯公式,只是具体计算方法不同。 源中提取符合需要的、简洁的、精炼的信息,必须将采集下 大多数的文本分类的分类对象都是多主题甚至跨学科 来的内容进行科学分类,以保证信息的有序性和实用性。因 的文本,例如对报纸上各类广告的分类,涉及到汽车、房地 此,文本分类成为处理和组织大量文档数据的关键技术。 文本分类(Text Categorization/Text 产等多个主题,分类类别范畴较大,类别划分比较粗犷;但 Classification,TC)是指在给定分类体系下,根据文本内 是对于科学研究的专业阅读来说,更需要对同一主题检索到 的文献进行进一步的分类;同时,上面介绍的方法所使用的 容确定文本类别的过程。这样用户不但能够方便地浏览文 算法非常复杂,操作起来不方便,不适合对于同一主题内论 档,而且可以限制搜索范围来使文档的搜索更容易、快捷。 文的精细分类。寻找一种专题领域内的简便的文本分类算法 文本分类分为手工和自动两种。手工分类就是人工将每 显得更具有实用价值。本文尝试利用PubMed的相关文献记录 篇文档分配到相应的类别下。但是这种方式的代价比较昂 (Related Articles)功能,对通过主题词检索到的PubMed 贵,不适于处理大规模的因特网上的文档。文本自动分类就 文献记录进行分类。 是由计算机自动提取文本的特征项,依据一定的算法,将文 在PubMed的检索结果中,系统提供了“相关文献” 本按内容或属性归到一个或多个类别的过程。其中特征(特 (Related Articles)链接功能,当用户浏览某文章的摘要 征项)用来刻画文本的内容或主题,通常可以是字、词或词 时,页面右侧就会自动列出用户可能感兴趣的相关文章的题 组等,它们的出现具有一定的规律,对文档或文档类有一定 目,给用户提供相关文献的参考。用户可以点击“related 的代表性。特

文档评论(0)

wuhuaiyu002 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档