Web文本特征提取方法的研究和发展.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十九届全国计算机信息管理学术研讨会论文集 R [1 Y,Katz 1]Chen H,Kubiatowicz PlacementforScalable J.Dynamic Content Replica Delivery http://www.cs.rice.edu/Conferences/IPTPS02/1 84.pdf[2005—7—10】 Web文本特征提取方法的研究与发展 中国科学技术信息研究所庞景安 (北京复兴路15号,100038) 【摘要】本文对当前有关Web文本特征提取方法的研究和实验进行了简要地综述和分析, 比较了每类方法的优势和不足,指出研究中存在的难点和共同探讨的问题,并在此基础上,对 该领域未来研究的发展方向和趋势进行了预测. 【关键词】Web文本文本特征特征提取学习算法 1引言 当前,Intemet正以前所未有的速度飞速发展,Web已经发展成为拥有数以亿计页面的分布 式信息空间,而且这个数字仍以每4至6个月翻一番的速度增加。人们迫切需要从这些海量的、 异构的Web信息资源中,快速、有效地发现和利用有价值的知识和信息。 Web文本挖掘就是从大量的Web文档中发现隐含知识和模式的一种方法和工具,它从数据 挖掘发展而来,但与传统的数据挖掘相比又存在许多不同。Web文本挖掘的对象是海量、异构、 分布的Web文档;文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖 掘所处理的数据是结构化的,而Web文档都是半结构或无结构的。所以,Web文本挖掘面临的 首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又 不至于过于复杂使学习算法无法处理。 近年来应用最多的Web文本特征表示方法是向量空间模型(VSM)。在该模型中,文档空 间被看作是由一组正交词条向量所组成的向量空间,每个文档表示为其中的一个范化特征向量V (d)=(tl 中出现的所有单词作为tl,也可以要求ti是d中出现的所有短语,从而提高文本特征表示的准确 性。 利用向量空间模型(VSM)表示Web文档时,特征向量的维数经常会达到几十万,即使删 除停用词和低频词,仍会有大量的特征留下。统计学、模式识别和机器学习中都有许多特征选 择的方法,但是都不适用于Web文本挖掘,因为Web文本的特征数量实在太大。若特征数为F, 优化时要搜索的特征空间大小为2F。这样的计算复杂度是难以实现的。于是关于Web文本特征提 取的研究就显得非常重要,成为Web文本挖掘进行的必要前提和基础。 2基于评估函数的特征提取方法 这类型算法是在特征独立的假设基础上,通过构造评估函数,对特征集合中的每个特征进 行独立评估,并对每个特征打分。然后将所有特征按分值大小排序,提取预定数目的最优特征 作为提取结果的特征子集。显然,对于这类型算法,决定Web文本特征提取效果的主要因素是 评估函数的质量。常用的评估函数有以下几种: (1)文档频数(document frequency) 192 第十九届全国计算机信息管理学术研讨会论文集 。。m妒)_P㈣=箭 (2)信息增益(information gain) cross (3)期望交叉熵(expecbedentropy) CrDssEntryTxt(耻㈣军P(Ci ty)log等 (4)互信息(mutual information) 胁觑口呦r劢(耻军P(Ci)logiP(W万IC,) 耽瞎,z岫耐砌c,,=P∥,军尸cc,)l,os ratio) (6)优势率(odds

文档评论(0)

july77 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档