数据挖掘中web文档转换算法的设计和实现.docVIP

下载本文档

1
0
约2.16千字
约 2页
2015-08-10 发布于安徽
举报
版权申诉

数据挖掘中web文档转换算法的设计和实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　　摘要：在数据挖掘的技术中，Web文档是一种极为重要的网络信息处理技术，怎么样把Web的文档转换成为所需要的数据挖掘的格式，是一项非常重要的课题。中国论文网　　关键词：数据挖掘；Web文档；词典；信息服务中心　　中图分类号：TP311.13 文献标识码：A 文章编号：1007-9599 （2012） 20-0000-02 　　目前对于web它属于世界性的信息服务中心，它所涉及的方面非常的广泛，包括了金融管理、电子商务、广告新闻、政府、教育、消费等许多的信息服务，能够提供足够的资源给予数据挖掘，是信息的综合体。现在研究web数据挖掘的人也越来越多，本文研究的是我们从国际互联网络上下载了大量的信息网页文件，现在要将你所下载的网页文件转换成你所需要的文本文件。接着进行一些词频的统计去掉高频词、删除非用词，在来进行相应的处理，最终将生成Database的数据格式。　　1 转化前问题的猜想　　1.1 问题的提出　　国际互联网络上存在着异构性和开放性的特点，因此许多用户在WWW上很难很快和准确的获取所需的信息。如何能够快速有效的获取你所需要的信息，就涉及到了数据挖掘和信息检索两个方面，目前用于英文文档聚类的许多，其中使用最为广泛的是Reuters语料库。而对于Web数据文档是不能够直接的分类分聚的，需要进行一定的处理，将Web文档中的图像、文本及脚本等转换成你所需要的格式，以便为后面数据挖掘的分聚类做好准备。　　1.2 设计的问题　　一般的我们可以通过以下几个步骤对Web文档进行处理：　　（1）先将你下载的网页文件进行分类。（2）整理分类好文件之后再把这些文件转换成为文本文件，把文件中tag、front、table等类的标志去除掉。（3）第三步也是最为重要和关键的一步，通过对这些文件中的数据进行词频的统计，去掉高频词、删除非用词。在来进行单词的词根处理，建立词表，抽取所需要的词，通过字母的排序建立索引，最后在来生成所需的Database的数据格式。比如非用词能够看做是一组无关紧要的词如for、a、with等它们都属于非用词，词频出现的频率虽然非常高，但是起不到多大的作用，可以看做虚词的给与去除。　　1.3 算法的设计　　在词典的文件中只包含着单词的原型，因此需要把文件中的实词都转化成原型，在来从词典中提取词干的检测出单词的序号。一般提取词干我们可以把它分为以下这几步：（1）去掉单词中的复数、-ing、-ed等形式的单词，如ties-ti，caresses-caress，matting-mat，milling-mill，agreed-agree等。（2）如果我们在词干中发现还含有另外一个元音字母的时候，就需要把单词末端的y改成i。（3）把含有双后缀的单词改为单后缀，例如enci-ence，ization-ize，iveness-ive等。（4）这步的步骤与上一步的步骤有些相同，是处理-full，-ic，-ness等。像-iciti-i，-lize-al，-cal-ic，-ul直接去掉，-cate-ic，-ative直接去掉。（5）这一步主要是去掉如-ant，-ible，-ence，-able，-ous，-ize等。（6）当存在着辅音序列和元音序列的个数都大于一的时候，去掉最后的一个e。因为在Word，dic的文件时很大的，存放着许多的单词及单词的ID，如果每一次都是对Word，dic文件进行从头到尾扫描的话这样检索的速度是会非常的慢，因此未来加快检索的速度还需要进行另一种检索进行辅助。按照字母顺序的排列，可以建立这种算法：（7）字典和字典中存在的ID存放到一个结构体的wd文档中。（8）在把该文档中的单词进行分类和分段的索引，按照a、b、c、d…….z的顺序进行二十六段。对该文档进行一次扫描，确定每段的开始位置及结束的位置，为每段建立一个索引。（9）如果有些单词需要到文档中区寻找，我们可以根据文档中的第一个单词去寻找，确定在字典中的那一段去寻找，而不需要翻遍整个字典，这样的话就大大节省了时间和降低了检索的难度。　　2 设计问题的实现　　对于web的文档处理需要经过以下这几个步骤，①对于从Internet下载来的资料文件，应该要进行划分。②目前信息化的社会有许多的现成的软件可以将网页文件转换成文本文件。像现在运用比较广泛的是HTML2TXT软件，并且像这种软件大部分都是大同小异的，都能够将网页文件转换成文本文档，并且还能够去掉一些网页上的标志。③目前实现文档的转换方法一般用的是纯C++语言来完成的。在建立两个以h的文件在分别命名为WordDic.h.和WordVce.h。　　WordDic.h属于字典文件类，包括了建立和查找索引及字典文件的读取等功能，一个是用建立和查找的索引的函数（C