基于特征选择优化主题描述算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于特征选择优化主题描述算法

基于特征选择优化主题描述算法   摘要:针对当前主题描述不精确以及适应性低的问题,提出了一种基于特征选择优化的主题描述算法――TDFSO(Topic Description based on Feature Selection Optimization)。此算法改进了主题关键词在文本中权重的计算方法,能提取出具有较强文本描述和类别区分能力的关键词。   关键词:主题描述;主题爬虫;文本分类;关键词提取   中图分类号:TP301.6文献标识码:A文章编号:1007-9599 (2012) 01-0000-02   Theme Description Algorithm Based on Feature Selection Optimization   Wang Chunhui,Wu Qi,Zhu Kai   (Computer College,Sichuan University,Chengdu610064,China)   Abstract:The current topic describes the problem of inaccurate and low adaptability topic describes algorithms-TDFSO (Topic Description based on Feature the Selection Optimization) based feature selection optimization.This algorithm improves the topic keywords in the text weight calculation method can extract the key words with strong text description and category distinguishing ability.   Keywords:Theme description;Theme reptiles;Text classification;Keyword extraction   一、引言   随着因特网信息量的快速增长,在网络信息采集、用户个性化需求、信息更新速度方面都面临着前所未有的挑战。传统的基于层次遍历的网络爬虫已经不能满足现有要求。因此,基于主题的网络爬虫已经成为网络信息采集的重要手段之一。主题爬虫的目的是在有限的时间发现更多与主题相关的网页。所以,如何准确的描述主题以便更好地判断网页与主题的相关性成为实现主题爬虫的关键点之一。目前主题描述的方法主要有三种:基于关键词的主题描述[1,2],基于自然文本语言的主题描述[3]和基于分类法的主题描述[4,5]。前两种最终都是形成关键词及其对应的权重去描述一个主题,而基于分类法的主题描述是利用人工维护的一个大型的分类目录去描述主题。文章[6]说明了基于分类法的主题描述能避免基于关键词的主题描述的弊端,即没有考虑到主题之间的联系而认为所有主题都是具有独立的语义的个体。但是基于分类法的主题描述并不能满足用户对不同主题的信息采集需求。因为网络上关注的热点主题随时间变化较大,不可能要求分类目录更新的提取出分值???大的关键字形成主题向量。算法中所使用的训练集可以从网络速度与网络更新的速度相同,所以分类目录并不能描述随时间变化而变化的主题。文章[7]使用TF-IDF算法[8]提取主题关键词作为主题描述。虽然TF-IDF算法是关键词提取的经典算法之一,它能很好地提取出在文本中频繁出现的单词来描述文本主题,但是由于IDF的定义过于简单,它并不能十分准确的提取出最适合的关键词[9]。   为了适应网络主题的多样性以及提取出更具类别区分力的主题关键词,本文提出一种基于关键词特征提取和优化的主题描述算法――TDFSO(Topic Description based on Feature Selection Optimization)。该算法首先对训练集进行学习,提炼出用户感兴趣主题的主题库。然后计算出主题库中的每个关键词与主题的相关度,并用一个分值表示。最后根据分值排序中收集也可以由用户提供,因此提炼出的关键词更能表达用户实际关心的主题信息。另外,TDFSO算法重点突出了关键词在不同类别的训练集中权重的比较。因此相比于TF-IDF算法,TDFSO算法提取出的关键词具有更好的类别描述和区分能力。   二、主题描述算法   (一)主题训练集   在进行主题描述之前需要收集训练集,训练集分为动态训练集和静态训练集。动态训练集可通过两种方式获取,第一种是直接由用户提供一些包含了他们所关心主题的文本;另一种是在用户指定主题后从网络中收集。动态训练集为主题的初始描述,但是其中包括了许多主题不相关信息

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档