带有通配符的序列模式挖掘研究计算机应用技术专业论文.docxVIP

  • 2
  • 0
  • 约10.79万字
  • 约 90页
  • 2019-01-27 发布于上海
  • 举报

带有通配符的序列模式挖掘研究计算机应用技术专业论文.docx

带有通配符的序列模式挖掘研究计算机应用技术专业论文

摘 摘 要 实际应用领域中产生了大量的序列数据,例如:超市顾客购买数据、信用卡交易记录、 电信数据、DNA和蛋白质序列、文本数据等,这些序列数据中隐含着丰富的有价值的知识亟 待挖掘。序列模式挖掘,旨在从序列数据库中挖掘频繁出现的序列模式,已成为数据挖掘领 域中一项非常重要的研究任务。然而,模式的出现并不都是连续的,模式中每两个连续字符 之间可能含有灵活的通配符。例如,在生物序列中,模式的相邻字符之间可能插入或删除较 短的序列片段。因此,带有通配符的序列模式挖掘研究不仅具有理论上的研究价值,而且在 文本挖掘、生物信息学、传感器网络等领域都有着巨大的应用价值。 本文围绕带有通配符的序列模式挖掘及其在文本领域中的应用开展研究,研究内容涉及 三个方面:(1)定义同时具有间隔约束和one.off条件的带有通配符的序列模式挖掘问题:(2) 带有通配符的序列模式挖掘算法设计与分析;(3)将提出的带有通配符的序列模式挖掘算法 应用在文本领域,利用挖掘的文本模式分析词语之间的语义关系,抽取出关键词。 主要研究内容和创新之处如下: (1)带有通配符的序列模式挖掘问题定义。给定序列用户定义的间隔约束g,以及 最小支持度阈值m/n sup,从序列S中挖掘同时满足间隔约束和最小支持度的频繁序列模式, 并且要求模式在序列中的出现满足one-off条件,即模式的任意两次出现都不共享序列S中同 一位置的字符。针对这一问题,提出一种基于宽度优先搜索的带有通配符的序列模式挖掘算 法One-off Mining,基于一遍扫描技术计算模式在序列中同时满足间隔约束和one-off条件的 支持度,利用Apriod性质,由长度为知l的频繁模式进行连接,生成长度为七的候选模式。 实验结果表明,One-offMining算法在挖掘更多的频繁序列模式情况下,时间效率得到了显著 地提高。 (2)提出一种基于模式扩展的带有通配符的序列模式挖掘算法MAIL,利用前缀模式的 出现信息.构造扩展模式的候选出现空间,有效地降低了模式挖掘过程中产生的候选模式的 规模,同时避免了每次计算模式支持度时都需要重复扫描序列。设计了两种对候选模式出现 进行有效约简的剪枝策略;最左优先剪枝和最右优先剪枝,讨论了两种剪枝策略对带有通配 符的序列模式挖掘算法性能的影响。实验结果表明,MAIL算法能进一步提高解的完备性和算 法的时间效率。 (3)在MAIL算法基础上,提出一种层次有向无环图数据结构,能在多项式时间和空间 复杂度内,构造和存储指数量级的模式的候选出现.利用深度优先搜索策略对层次有向无环 图进行遍历,计算模式的支持度。从理论上证明,基于层次有向无环图的带有通配符的序列 模式挖掘算法,在模式扩展过程中不会丢失解,在对图进行深度遍历计算模式支持度时,能 够获取模式的优化解。从实验角度验证基于层次有向无环图的序列模式挖掘算法计算出的解 接近最优解的精度达到90%以上。 (4)基于文本模式的关键词抽取研究,将带有通配符的序列模式挖掘算法应用在文本挖 掘领域的关键词抽取任务中。针对文本序列数据库具有的长序列、大字符集等特性,将基于 掘领域的关键词抽取任务中。针对文本序列数据库具有的长序列、大字符集等特性,将基于 层次有向无环图的MAⅡ,算法进行了改进,以提高文本序列模式挖掘的效率。从文本序列中 挖掘带有通配符的词语序列模式,分析词语之间的语义关联性。利用机器学习分类算法对获 取的词语模式特征进行学习,构造关键词抽取模型,讨论了不同的模式特征对关键词抽取算 法性能的影响。实验结果表明,词语的模式特征能够提高抽取关键词的质量,并且不受具体 语言和知识库的限制。提出一种基于词汇链的新闻网页关键词抽取方法,利用知识词典 HowNet获取词语语义知识,借助词汇链模型计算词语在文档中的重要度,提高新闻网页关键 词抽取的凝聚性。 关键词:通配符;序列模式挖掘:one-off条件;层次有向无环图;关键词抽取 AbstractThere Abstract There is a huge wealth of sequence data available in real-word applications,such as customer purchase histories,telephone call records,DNA and protein sequences,and text data etc.It is a worthwhile goal tO analyze this wealth of data and mine important knowledge.Sequential pattern mining aiming at finding frequent sequential patterns

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档