基于OEM模型的半结构化数据模式抽取算法研究-计算机科学与技术专业论文.docxVIP

  • 2
  • 0
  • 约5.98万字
  • 约 64页
  • 2019-02-15 发布于上海
  • 举报

基于OEM模型的半结构化数据模式抽取算法研究-计算机科学与技术专业论文.docx

摘 摘 要 随着计算机技术、Intemet以及数据库技术的飞速发展,各个领域产生的半结构化 数据和信息急剧增加。因此,为满足数据挖掘的需求,需要设计出半结构化数据模型, 从而能够利用模型来描述和存储半结构化数据的结构信息和内容。同时还要设计出有效 的半结构化数据模式抽取算法,从大量半结构化数据中抽取更深层次的用于描述信息、 结构和潜在的有利用价值的模式。从而使得半结构化数据就像传统数据库中的数据一 样,发现其数据结构和数据对象之间的关系,能够利用数据结构进行有效的操作。 本文首先介绍了数据挖掘和Web数据挖掘的相关概念,并对其研究现状和发展做 了深入的分析和总结。详细的介绍了半结构化数据的定义、特点以及目前主要的半结构 化数据模型,同时阐述了半结构化数据模式抽取的概念。本文采用OEM模型来描述半 结构化数据,指出了利用Apriori性质进行剪枝的策略不适用于分支路径中具有相同标 签的OEM模型。为减少标签路径表达式的匹配次数,提高算法的效率,本文给出了一 个有关OEM模型的性质。在如何存储OEM模型的问题上,本文提出了一种新的存储 方式,采用变型的邻接链表存储方式来存储OEM模型,能够有效的提高半结构化数据 模式抽取的效率。 本文重点研究了两个经典的频繁模式挖掘算法:Apriori算法和FP.Tree频繁模式挖 掘算法,并对两种算法的优缺点进行了比较。在此基础上,为了快速、有效和准确的得 到半结构化数据的目标模式,本文结合标签路径及其相关性质,提出了一种直接从OEM 模型中抽取半结构化数据目标模式的算法。算法的基本思想是:采用一次深度优先遍历 策略得到所有标签路径表达式,利用本文给出的性质减少匹配次数,生成所有频繁标签 路径表达式,最后结合有效的删减策略得到最长频繁标签路径表达式。理论分析和实验 ,’ r一 结果表明,该算法能够提高目标模式的准确度和执行效率,降低了模式抽取中候选集的 规模。 关键词:半结构化数据,OEM模型,目标模式,最长频繁标签路径 Research Research of Schema Extraction Algorithm of Semi.structured DataBased on 0EM Model Yang Xuewei(Computer ScienceTechnology) Directed by Associate Professor Gong An Abstract With the computer,database and Interact technology develop rapidly,the semi—structured data and information from various areas has increased dramatically.the amount of semi-structured data and information has increased dramatically from various areas.Therefore, we need to design a semi-structured data model in order to meet the needs of data mining, which can use the model to describe semi—structured data and store the structural information and content.At the same time we also need to design all effective extraction algorithm of semi-structured data,the algorithm Can extract model which is used to describe information, structure,and potential value in deeper level from a large number of semi—structured data.So the semi-structured data can be operated effectively by data structures just as conventional database,and we can found the data structure and the relationship between data objects of Semi—structured data,SO it Can operate effectively by data structure. Fi

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档