Web 文本挖掘及特征选择.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web文本挖掘及特征选择 景丽萍,黄厚宽 (北方交通大学计算机科学与技术学院,北京 100044) 摘 要:文章介绍了Web挖掘的有关理论,从Web文本挖掘的定义、Web文本挖掘 任务的功能等方面加以阐述,然后重点分析了Web文本挖掘,文本的特征表示、特征 选择。将多维文本分析与文本挖掘这两种技术有机地结合起来,快速、有效地挖掘 Web上的HTMI.文档。最后,概述了Web文本挖掘的用途和前景。 关键词:Web文本挖掘;特征表示;特征选择;HTMI.文档 Abstract:Inthispaper,WeintroducethetheoryrelatedtoWebMining(WM), especially,thedefinitionandthefunctionofWebMining.Thenweanalyzethe methodforWebMiningincludingthefeaturedescribing,featureselection.The multi一dimensionanalysisandText,Miningareorganicallycombined,sothatwe canminetheHTMI,documentsonWWW speedilyandeffectively.Lastly, sum m arize W M usingandforeground. Webmining;featuredescribing;featureselection;HTMI,document Keywords: 言都只具有ASCII含义,仅仅是h和i没有 0 前言 空格的结合。所以,用计算机搜索单词并要求 随着 Internet及其相关技术的飞速发 能依据其含义来进行搜索还是一个难题。而 展,WWW 已成为最大的信息集聚地。Web 不同的人从浩瀚的Web信息资源中所获得 上聚集了大量宝贵的信息,但在获取信息的 的信息也是不同的。如何从这些信息中发现 过程中却存在很多问题:其一,有用的信息也 潜在的、有价值的知识便是我们要做的工作, 如同WWW一样分布在,WorldWide,用户 也即Web文本挖掘[〕‘。 难以掌握其所需信息的具体位置;其二,有用 本文第二部分介绍了Web文本挖掘的 的数据混杂在其它数据中,一般人仅能从网 定义及其功能任务;第三部分重点描述了在 页的大量数据中抽取到一点点有用的数据, Web文本挖掘前的特征表示、特征选择等数 这对于数据分析人员要从各个网页中收集信 据预处理操作,以及这些处理对随之而来的 息将是一个不小的负担;其三,从网上得到的 文本挖掘所带来的便利;最后阐述了Web文 数据都是HTMI.文件,很难把其中所包含 本挖掘的应用前景。 的信息用于和其他网页信息进行组合和交叉 比较;其四,这种HTML文件无法被 目前流 1Web文本挖掘 行的分析软件直接使用,除非通过人工再输 数据挖掘[21是要从大量的数据中发现隐 人一次来完成数据格式的产换。 含的规律性的内容,解决数据的应用质量问 而计算机对文本的理解仅限于ASCII 题。充分利用有用的数据,废弃虚假冗余的数 代码。例如单词hi在任何语言中对计算机而 据是数据挖掘技术最重要的应用。相对于 收稿日期:2001一11一15 作者简介:景丽萍。女.硕士生.研究方向为人工智能;黄厚宽.男.教授.研究方向为人工智能。 《电脑与信息技术》2002年第 1期 .1. Web的数据而言,传统数据库中的数据结构 用一些变量或数据库的若干已知字段预测其 性很强,其数据为完全结构化的数据。而 它感兴趣的变量或字段的位置或未来的值; Web上的数据的最大特点就是半结构化,所 而描述指找到描述Web数据的可理解模式。

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档