Web数据挖掘论文.docxVIP

下载本文档

1
0
约7.84千字
约 9页
2019-04-07 发布于天津
举报
版权申诉

Web数据挖掘论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　　1数据挖掘面临的问题目前面向的数据挖掘面临的问题，主要有两个方面11数据库环境的异构型上的每个站点就是一个数据源，数据源之间是异构的，外加上各个站点的信息和组织的不同，网站就构成了一个巨大的异构数据库环境。　　要对这些数据进行挖掘，首先，要解决各个站点之间的异构数据集成，提供用户统一界面，从复杂的数据源中取得所需的有用的信息知识。　　其次，有关上的数据查询。　　12数据结构的半结构化上的数据比较复杂，各个站点的数据都独立设计，具有动态可变性。　　虽然上的数据形成半结构化数据。　　这些问题是进行数据挖掘所面临的最大困难。　　2技术在数据挖掘中的优势数据的异构使数据挖掘变得十分困难,通过可以解决这个问题。　　因为文档具有很好的自我描述性，他的元素、子元素、属性结构树可以表达极为丰富的语义信息，能够很好的描述半结构化的数据，因此在网络数据集成、发送、处理和显示的方面。　　开发人员能够用的格式标记和交换数据。　　在三层架构上为数据的处理提供了有用的途径。　　利用，设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构。　　基于的数据挖掘技术，能够使不同来源的结构化的数据很容易地结合在一起，解决数据挖掘的难题。　　21技术在数据挖掘中具体作用利用技术我们在数据挖掘中可以完成以下几点211集成异构数据源是一种半结构化的数据模型，可以完成和关系数据库中的属性一一对应，从而实施精确地查询与模型抽取。　　可以搜索多个不同数据库的问题，以实现集成。　　212和异构数据进行交换在数据挖掘程中，用户需要和异构数据源进行数据交换，通过自定义性及可扩展性来标识各种数据，从而描述从各站点搜集到的页中的数据。　　的出现解决了数据查询的统一接口。　　213过滤信息并显示描述数据本身，可以使得定义的数据以不同的方式显示，对获取的信息进行裁减和编辑以适应不同用户的需求。　　以不同的浏览形式提供给不同的用户。　　3基于的数据挖掘模型我们通过对及数据挖掘的分析，设计了一个基于的数据挖掘模型通过提供一个数据挖掘的集成环境，提高数据挖掘系统的整体性能。　　工作流程如下系统根据用户要求搜集资源，经数据转换器处理成相应的数据存储，提供给挖掘器使用；挖掘器则根据要求从选取相应的算法挖掘，输出挖掘结果；用户根据自己的满意度，获得需要的挖掘结果，调整挖掘要求进入新一轮数据挖掘。　　通过系统的维护我们可以加入新的挖掘算法，实现升级。　　31各模块具体功能311数据收集从站点上采集数据并存储，获得挖掘内容。　　针对异构数据源，可以多种方式提出相关需求，挖掘的重点是内容和使用的数据。　　把用户访问网站留下原始日志数据进行清洗、过滤和转换处理，转变成统一处理的数据结构，构建日志数据库。　　312转换器对检索得到的数据用技术进行预处理，建立半结构化数据模型，抽取其特征的元数据，用结构化的形式保存，为挖掘模块提供所需的数据。　　313挖掘器不同的挖掘算法有不同适用情况，挖掘综合器根据具体的需求和挖掘方法的不同选择策略到挖掘算法库中去选择挖掘算法或种组合算法执行挖掘任务。　　随着应用的深入，知识库中的算法和规则不断的丰富。　　挖掘算法库是挖掘分析方法的综合库，以插拔的形式组织存放各种挖掘算法。　　314结果生成与评估以直观的方式提交挖掘结果，便于用户的评估。　　通过模式分析和兴趣度度量，若结果使得用户满意，数据挖掘结束，输出用户感兴趣的内容；否则可以在此重新提出挖掘要求，重新挖掘。　　32系统各模块实现方法321数据收集数据的收集也涉及数据挖掘的技术，其过程是通过人工输入办法，给出查询主题，找到相关的页,然后,通过相应的数据挖掘的算法对训练数据集提炼，利用提炼出的数据模式,进行更大范围的搜索，以获取更多的数据源。　　最终形成较新和有效文档。　　322数据的转换处理数据抽取转换是模型实现一个重要环节,其主要方法是把现有的页面转换成格式,并使用相关工具处理结构数据检要把中含有的与主题无关的标记过滤掉,然后转化到的格式存储。　　目前页面到文档的转换,有两部分数据构成一是数据，二是非数据。　　数据,可以直接将它们提交给下一个模块。　　对于非数据,本文的实现方法是用到以改正文档中的常见错误并生成格式编排良好的等价文档，还可以使用生成的子集格式的文档。　　通过构造相应的类完成将数据从到的转换。　　323挖掘方法1文本分类文本分类是指按预先定义的主题类别，把集合中的每个文档确定一个所属类别。　　这样，用户能够方便地浏览文档，并限制搜索范围来使查找更为容易。　　利用文本分类技术对大量文档进行快速、有效地自动分类。　　有