- 2
- 0
- 约5.98万字
- 约 64页
- 2019-02-15 发布于上海
- 举报
摘
摘 要
随着计算机技术、Intemet以及数据库技术的飞速发展,各个领域产生的半结构化 数据和信息急剧增加。因此,为满足数据挖掘的需求,需要设计出半结构化数据模型, 从而能够利用模型来描述和存储半结构化数据的结构信息和内容。同时还要设计出有效 的半结构化数据模式抽取算法,从大量半结构化数据中抽取更深层次的用于描述信息、 结构和潜在的有利用价值的模式。从而使得半结构化数据就像传统数据库中的数据一 样,发现其数据结构和数据对象之间的关系,能够利用数据结构进行有效的操作。
本文首先介绍了数据挖掘和Web数据挖掘的相关概念,并对其研究现状和发展做 了深入的分析和总结。详细的介绍了半结构化数据的定义、特点以及目前主要的半结构 化数据模型,同时阐述了半结构化数据模式抽取的概念。本文采用OEM模型来描述半 结构化数据,指出了利用Apriori性质进行剪枝的策略不适用于分支路径中具有相同标
签的OEM模型。为减少标签路径表达式的匹配次数,提高算法的效率,本文给出了一 个有关OEM模型的性质。在如何存储OEM模型的问题上,本文提出了一种新的存储 方式,采用变型的邻接链表存储方式来存储OEM模型,能够有效的提高半结构化数据 模式抽取的效率。
本文重点研究了两个经典的频繁模式挖掘算法:Apriori算法和FP.Tree频繁模式挖 掘算法,并对两种算法的优缺点进行了比较。在此基础上,为了快速、有效和准确的得 到半结构化数据的目标模式,本文结合标签路径及其相关性质,提出了一种直接从OEM 模型中抽取半结构化数据目标模式的算法。算法的基本思想是:采用一次深度优先遍历 策略得到所有标签路径表达式,利用本文给出的性质减少匹配次数,生成所有频繁标签
路径表达式,最后结合有效的删减策略得到最长频繁标签路径表达式。理论分析和实验
,’
r一 结果表明,该算法能够提高目标模式的准确度和执行效率,降低了模式抽取中候选集的
规模。
关键词:半结构化数据,OEM模型,目标模式,最长频繁标签路径
Research
Research of Schema Extraction Algorithm
of Semi.structured DataBased on 0EM Model
Yang Xuewei(Computer ScienceTechnology)
Directed by Associate Professor Gong An
Abstract
With the computer,database and Interact technology develop rapidly,the semi—structured data and information from various areas has increased dramatically.the amount of semi-structured data and information has increased dramatically from various areas.Therefore,
we need to design a semi-structured data model in order to meet the needs of data mining,
which can use the model to describe semi—structured data and store the structural information and content.At the same time we also need to design all effective extraction algorithm of
semi-structured data,the algorithm Can extract model which is used to describe information,
structure,and potential value in deeper level from a large number of semi—structured data.So the semi-structured data can be operated effectively by data structures just as conventional database,and we can found the data structure and the relationship between data objects of Semi—structured data,SO it Can operate effectively by data structure.
Fi
您可能关注的文档
- 基于OCSVM和主动学习的DDOS攻击分布式检测系统-计算机软件与理论专业论文.docx
- 基于OCT图像的黄斑前膜特征研究及分类方案设计-眼科学专业论文.docx
- 基于ODB++的印刷电路板信号完整性审查的研究-电子与通信工程专业论文.docx
- 基于ODBC的流域GIS空间数据存储与管理-水利水电工程专业论文.docx
- 基于ODS与随机子空间的模态分析研究-固体力学专业论文.docx
- 基于OD估计的路网交通检测器优化布设研究-交通运输工程专业论文.docx
- 基于OD矩阵推算的CBD交通影响分析-道路与铁道工程专业论文.docx
- 基于OECD国家经验论海关税收职能演变的影响因素及其借鉴意义-行政管理专业论文.docx
- 基于OEEMRP协议的无线光传感器网络拓扑形成和路由算法研究-电子与通信工程专业论文.docx
- 基于OE的设备维护维修信息系统体系的研究-管理科学与工程专业论文.docx
- 基于oe机制的vpn网关设计与实现-计算机应用技术专业论文.docx
- 基于OFDMA的LTE下行链路信道估计分析-通信与信息系统专业论文.docx
- 基于OFDMA的LTE下行链路信道估计研究-通信与信息系统专业论文.docx
- 基于OFDMA的电力线通信系统资源分配算法研究-电子与通信工程专业论文.docx
- 基于OFDMA的多跳蜂窝网络覆盖分析与优化研究-计算机技术专业论文.docx
- 基于OFDMA的多用户系统资源分配研究-电子与通信工程专业论文.docx
- 基于OFDMA的认知无线网络资源分配和中继选择研究-信息与通信工程专业论文.docx
- 基于OFDMA的认知系统相关技术的研究-信息与通信工程专业论文.docx
- 基于OFDM-WLAN系统的帧同步检测技术研究-通信与信息系统专业论文.docx
最近下载
- 2025年湖南铁道职业技术学院单招职业技能考试题库含答案.docx VIP
- 2025年浙江省中考数学试卷及答案详细解析.docx VIP
- 精品解析:2026届肥城一中高三上学期一模考前模拟英语试题(解析版).docx VIP
- 武安精诚机械磐石克劈裂机规范操作说明书.pdf
- 《煤矿职业病危害防治》培训课件2025.pptx
- 园艺通论试题库及答案.doc VIP
- (编号TCAIM 001-2024)-《高血压病中西医结合诊疗指南》.pdf VIP
- 3套新版人教版小学数学五年级上册期末必备综合试卷(含答案解析).docx
- 2025高中历史中外历史纲要上下册知识点总结(复习必背)_可搜索.pdf VIP
- G银行J分行基层网点员工绩效考核体系优化研究.pdf VIP
原创力文档

文档评论(0)