基于HTML结构Web文本主题挖掘研究.docVIP

下载本文档

4
0
约5.09千字
约 13页
2018-08-28 发布于福建
举报
版权申诉

基于HTML结构Web文本主题挖掘研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HTML结构Web文本主题挖掘研究

基于HTML结构Web文本主题挖掘研究　　摘要：随着数据挖掘应用的深入，非结构化和半结构化数据的挖掘，将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘，而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术发展的必然趋势。本文应对Web挖掘的特点，将运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想，使数据提取更加准确。　　关键词：数据挖掘；Web；自动分词；数据提取；语义分析　　中图分类号：TP30　文献标识码：A 文章编号：(2007)01－0102－04 　　　　一、引言　　　　不断发展的Internet拉近了人们彼此之间的距离，但是，web上的海量信息却又逐渐让人们变得无所适从，随着越来越多结构庞大且日益复杂的网站的出现，使网络中的信息量以指数规律迅猛增长，人们不得不花费大量的时间去搜索自己需要的信息。无论个人还是企业，现实的竞争形势要求他们对互联网上大量出现和产生的信息进行实时和深层次的分析。于是，人们想到了数据挖掘技术，将传统的数据挖掘同Web结合起来进行Web挖掘，从Web文档和Web活动中抽取用户感兴趣的潜在的有用的模式和隐藏信息，弥补搜索引擎的不足。　　Web挖掘是从Internet上收取知识的过程。它是从WWW相关的资源和行为中抽取用户感兴趣的有用的模式和隐含信息。web上信息的多样性决定了Web挖掘任务的多样性。按照处理对象的不同，web挖掘一般可分为三大类：Web内容挖掘、Web结构挖掘和web使用挖掘，具体描述可见文献其分类比较见表1。　　　　本文针对目前搜索引擎精度不高的问题，讨论了Web文本主题挖掘涉及的相关核心技术，重点讨论自动分词技术和Web文本的特征表示。　　　　二、系统实现　　　　1．体系结构设计　　这里的Web数据挖掘是一个二次数据挖掘，第1次是通过信息搜索机器人从Internet上获取原始信息，然后通过信息的特征将信息分别缓存到cache中，再通过抽取及语义分析获取与原始数据接近且适合进一步挖掘的数据，将经过处理的结构性强的数据存取到数据仓库，在这个数据仓库上，我们可以运行当今比较成熟的挖掘技术进行挖掘，并通过OLAP进行挖掘结果的验证，最后将结果展现给最终用户。图1中描述的是整体实现Web数据挖掘的体系结构。　　　　　　2．信息获取及分类　　通过信息搜索机器人在网络上查找站点，并通过HTTP访问获取信息。对于动态的站点，我们可以采用预设用户等信息和登录的过程等信息，由此辅助我们获取一定的信息。网络中大量的信息都是用URL定位的，机器人从获取的信息中自动分离出URL，是发现更多信息的简洁方法。　　信息搜索机器人获取信息之后，对获取的信息的HTTP头信息进行分析，同时也对获取的URL进行分析。对文件头信息进行分析是确认是否为HTML、Word文档等。目前信息的存取70%是以文件的方式存取的，对于各种文件的特征可以建立一个特征库。　　　　3．自动分词技术　　互联网的迅速发展，出现了大量的半结构化文本信息资料，典型的是网页资源。对这些信息的抽取需要有从这种半结构化网页抽取有关信息的挖掘方法。在挖掘方法中，当系统从半结构化的网页内容中抽取具有层次结构的信息内容时，如果信息为英文或数字，则容易得多。研究理论已经很成熟了，但是如果信息为中文，则复杂得多。　　由于汉语文本是大字符集上的连续字串，句子中各词语间没有固有的分隔符(空格)，在进行词频统计、特征提取等处理前，需要先对中文文档进行词条切分。汉语自动分词是对汉语文本进行自动分析的第一个步骤。　　中文文本自动分词的研究从20世纪80年代初开始，目前比较常用和实用的主要有最大匹配法(The Maximum Matching Method，MM)，反向最大匹配法(The Reverse Direction Maximum Matching Method，RMM)，二次扫描法，联想一回溯法，基于词频统计的分词法，以及基于知识的专家系统方法，神经网络方法等，中文句子的切分方法不是惟一的，主要原因就是歧义字段的存在。本文以MM为基础，充分考虑中文的语言习惯，采用机械分词与上下文分析相结合的方法(MM with Context，MMC)，有效地解决了歧义字段，提高了分词精度和速度。　　(1)概念和问题描述　　定义1：短句汉语中出现的两个非汉字字符之间的汉字串称为短句，非汉字串包括：外文字母、阿拉伯数字、标点符号、空格。　　定义2：字段短句中出现的有限个连续的汉字称为字段。　　定义3：歧义字段如果一个字段存在不同的切分形式，则称该字段为歧义