Web 文本挖掘及特征选择.pdfVIP

下载本文档

3
0
约 6页
2017-09-16 发布于湖北
举报
版权申诉

Web 文本挖掘及特征选择.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web文本挖掘及特征选择景丽萍，黄厚宽 (北方交通大学计算机科学与技术学院，北京 100044) 摘要:文章介绍了Web挖掘的有关理论，从Web文本挖掘的定义、Web文本挖掘任务的功能等方面加以阐述，然后重点分析了Web文本挖掘，文本的特征表示、特征选择。将多维文本分析与文本挖掘这两种技术有机地结合起来，快速、有效地挖掘 Web上的HTMI.文档。最后，概述了Web文本挖掘的用途和前景。关键词:Web文本挖掘;特征表示;特征选择;HTMI.文档 Abstract:Inthispaper，WeintroducethetheoryrelatedtoWebMining(WM)， especially，thedefinitionandthefunctionofWebMining.Thenweanalyzethe methodforWebMiningincludingthefeaturedescribing，featureselection.The multi一dimensionanalysisandText,Miningareorganicallycombined，sothatwe canminetheHTMI,documentsonWWW speedilyandeffectively.Lastly， sum m arize W M usingandforeground. Webmining;featuredescribing;featureselection;HTMI,document Keywords: 言都只具有ASCII含义，仅仅是h和i没有 0 前言空格的结合。所以，用计算机搜索单词并要求随着 Internet及其相关技术的飞速发能依据其含义来进行搜索还是一个难题。而展，WWW 已成为最大的信息集聚地。Web 不同的人从浩瀚的Web信息资源中所获得上聚集了大量宝贵的信息，但在获取信息的的信息也是不同的。如何从这些信息中发现过程中却存在很多问题:其一，有用的信息也潜在的、有价值的知识便是我们要做的工作，如同WWW一样分布在，WorldWide，用户也即Web文本挖掘[〕‘。难以掌握其所需信息的具体位置;其二，有用本文第二部分介绍了Web文本挖掘的的数据混杂在其它数据中，一般人仅能从网定义及其功能任务;第三部分重点描述了在页的大量数据中抽取到一点点有用的数据， Web文本挖掘前的特征表示、特征选择等数这对于数据分析人员要从各个网页中收集信据预处理操作，以及这些处理对随之而来的息将是一个不小的负担;其三，从网上得到的文本挖掘所带来的便利;最后阐述了Web文数据都是HTMI.文件，很难把其中所包含本挖掘的应用前景。的信息用于和其他网页信息进行组合和交叉比较;其四，这种HTML文件无法被目前流 1Web文本挖掘行的分析软件直接使用，除非通过人工再输数据挖掘[21是要从大量的数据中发现隐人一次来完成数据格式的产换。含的规律性的内容，解决数据的应用质量问而计算机对文本的理解仅限于ASCII 题。充分利用有用的数据，废弃虚假冗余的数代码。例如单词hi在任何语言中对计算机而据是数据挖掘技术最重要的应用。相对于收稿日期:2001一11一15 作者简介:景丽萍。女.硕士生.研究方向为人工智能;黄厚宽.男.教授.研究方向为人工智能。《电脑与信息技术》2002年第 1期 .1. Web的数据而言，传统数据库中的数据结构用一些变量或数据库的若干已知字段预测其性很强，其数据为完全结构化的数据。而它感兴趣的变量或字段的位置或未来的值; Web上的数据的最大特点就是半结构化，所而描述指找到描述Web数据的可理解模式。