- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web文本挖掘及特征选择
景丽萍,黄厚宽
(北方交通大学计算机科学与技术学院,北京 100044)
摘 要:文章介绍了Web挖掘的有关理论,从Web文本挖掘的定义、Web文本挖掘
任务的功能等方面加以阐述,然后重点分析了Web文本挖掘,文本的特征表示、特征
选择。将多维文本分析与文本挖掘这两种技术有机地结合起来,快速、有效地挖掘
Web上的HTMI.文档。最后,概述了Web文本挖掘的用途和前景。
关键词:Web文本挖掘;特征表示;特征选择;HTMI.文档
Abstract:Inthispaper,WeintroducethetheoryrelatedtoWebMining(WM),
especially,thedefinitionandthefunctionofWebMining.Thenweanalyzethe
methodforWebMiningincludingthefeaturedescribing,featureselection.The
multi一dimensionanalysisandText,Miningareorganicallycombined,sothatwe
canminetheHTMI,documentsonWWW speedilyandeffectively.Lastly,
sum m arize W M usingandforeground.
Webmining;featuredescribing;featureselection;HTMI,document
Keywords:
言都只具有ASCII含义,仅仅是h和i没有
0 前言
空格的结合。所以,用计算机搜索单词并要求
随着 Internet及其相关技术的飞速发 能依据其含义来进行搜索还是一个难题。而
展,WWW 已成为最大的信息集聚地。Web 不同的人从浩瀚的Web信息资源中所获得
上聚集了大量宝贵的信息,但在获取信息的 的信息也是不同的。如何从这些信息中发现
过程中却存在很多问题:其一,有用的信息也 潜在的、有价值的知识便是我们要做的工作,
如同WWW一样分布在,WorldWide,用户 也即Web文本挖掘[〕‘。
难以掌握其所需信息的具体位置;其二,有用 本文第二部分介绍了Web文本挖掘的
的数据混杂在其它数据中,一般人仅能从网 定义及其功能任务;第三部分重点描述了在
页的大量数据中抽取到一点点有用的数据, Web文本挖掘前的特征表示、特征选择等数
这对于数据分析人员要从各个网页中收集信 据预处理操作,以及这些处理对随之而来的
息将是一个不小的负担;其三,从网上得到的 文本挖掘所带来的便利;最后阐述了Web文
数据都是HTMI.文件,很难把其中所包含 本挖掘的应用前景。
的信息用于和其他网页信息进行组合和交叉
比较;其四,这种HTML文件无法被 目前流 1Web文本挖掘
行的分析软件直接使用,除非通过人工再输 数据挖掘[21是要从大量的数据中发现隐
人一次来完成数据格式的产换。 含的规律性的内容,解决数据的应用质量问
而计算机对文本的理解仅限于ASCII 题。充分利用有用的数据,废弃虚假冗余的数
代码。例如单词hi在任何语言中对计算机而
据是数据挖掘技术最重要的应用。相对于
收稿日期:2001一11一15
作者简介:景丽萍。女.硕士生.研究方向为人工智能;黄厚宽.男.教授.研究方向为人工智能。
《电脑与信息技术》2002年第 1期 .1.
Web的数据而言,传统数据库中的数据结构 用一些变量或数据库的若干已知字段预测其
性很强,其数据为完全结构化的数据。而 它感兴趣的变量或字段的位置或未来的值;
Web上的数据的最大特点就是半结构化,所 而描述指找到描述Web数据的可理解模式。
您可能关注的文档
- 做一名有效的教师.doc
- “新宋学” 与民初考据史学Ξ.pdf
- “叙述转向” 之后 广义叙述学的可能性与必要性.pdf
- “杨殷争辩” 的思考-中国体育该往何处走[J].pdf
- “应用课题实践与项目开发训练” 特色课程中的ADO .NET 教学.pdf
- “有” 字句的后续成分.pdf
- “又”,“也” 的辩驳语气用法及其语法化.pdf
- “又A 又B” 格式的认知模式.pdf
- “之所以” 小句篇章功能论略 3.pdf
- “中国特色社会主义理论体系” 的时空范围分析.pdf
- WTO 与中国行政法律制度的完善.pdf
- アメリカ堅果食文化の特色とその地域差.pdf
- エピサイキディオンに見られる愛の哲学().pdf
- カスケード型識別器を用いたパーティクルフィルタによる人物三次元追跡.pdf
- コンピュータウイルス感染時に対処行動を行う人物プロファイルに関する実験と考察.pdf
- ショット分類に基づく映像への自動的索引付け手法.pdf
- ソフトウェアレーダの構築と2 周波CW 方式の人物運動検知レーダへの適用.pdf
- ゾラの諸作品における出産描写の変遷『ごった煮』 を中心に.pdf
- ゾラの諸作品における出産描写の変遷Ⅱ─『生きる歓び』 を中心に─.pdf
- タンジブルレプリカを用いたMR 空間での遠隔コラボレーション.pdf
文档评论(0)