《基于加权频繁子图挖掘的图模型在文本分类中的应用》.pdfVIP

《基于加权频繁子图挖掘的图模型在文本分类中的应用》.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《基于加权频繁子图挖掘的图模型在文本分类中的应用》.pdf

第 14卷 第22期 2014年8月 科 学 技 术 与 工 程 Vo1.14 No.22 Aug.2014 1671— 1815(2014)22—0080—06 ScienceTechnologyandEngineering ⑥ 2014 Sci.Tech.Engrg. 基于加权频繁子图挖掘的图模型 在文本分类中的应用 王海荣 (黄淮学院信息工程学院,驻马店 463000) 摘 要 针对传统文本分类算法的分类精度低和计算复杂度高的问题,提 出一种基于加权频繁子图挖掘的图模型文本分类 算法。首先将文档集表示成图集;然后运用加权图挖掘算法提取频繁子图;最后,对特征 向量进行分类。提出的算法仅提取 最重要的子图,使其整体具有较好的分类效果和较高的计算效率。为评估该算法有效性,将其与多种现有分类算法分别对一 个数据集进行分类实验,实验结果表明,提出的算法具有更高的识别精度和更少的运行时间。 关键词 文本分类 图模型 加权频繁子图挖掘 最小支持度 特征提取 中图法分类号 TP399; 文献标志码 A 文本分类方法中最常见的是基于词/词袋表示 必要的模式 J。加权关联规则挖掘 (Weightedasso— 的向量空间模型法,其主要优点是分类算法易于实 ciationrulesmining,WARM)中一个重大问题是项 现 。然而,词/词组向量空间法仅适合采集频繁出现 集不具有 “向下闭合 ”(DC)属性,对此有一种解决 的词/词袋,而忽略了结构和语义信息,事实证明结 方案是在挖掘频繁项集之后将权重当做一个后处理 构信息对分类精度也有重要的影响¨。基于图模 步骤 J,但是这样权重就不会集成到关联规则挖掘 型的文本表示方法比词/词袋表示方法更直观、表现 (associationrulesmining,ARM)过程中。文献 [9] 力更强,但引入了一个额外的复杂度 ,两幅图之间相 提出一个加权支持模型,满足加权 DC属性。文献 似度的计算复杂度明显高于两个向量之问相似度计 [10]为了维持DC属性并推动权重约束深入挖掘过 算。有学者研究采用混合表示法 j,结合结构元素 程而为 WARM 引入一系列概念 ,如 “加权范围”、 (使用图模型)和重要特征 (使用向量模型)混合表 “权重 自信度”和 “支持 自信度 ”,尽管 WARM 的思 示,然而,这些混合模型的计算量仍然很大。 想不能直接应用到加权频繁子 图挖掘 中,然而这个 早期有关文本分类方法的研究大都是针对 研究对本文分类方法研究有一定的启发。 Web文档,文献 [3]表明单独使用文档结构就可以 基于图模型的文本挖掘方法的主要缺点是较高 分类Web文档,本文将证明结合结构和语义信息的 的计算复杂度。本文提出一种运用加权图挖掘分析 方法更为有效。引入混合表示是为了解决单纯图表 法来解决这个问题,将权重约束应用到频繁子图挖 示带来的高计算复杂度问题,文献 [4]表明混合表 掘过程 中,通过仅产生最重要的模式来减少搜索 示法的性能优于单纯 图模型表示方法,然而处理这 空间。 些混合模型需要的计算量仍然很大,主要因为:① 1 频繁子图 节点和边的数 目巨大、边标签数 目少、节点标签结构 重复性高;② 搜索空间的指数复杂度高等原因 J。 现以事务 图集 D = {G ,G ,…,G}为开端介 采用各种方法挖掘频繁子图已经得到了广泛的 绍标准事务图挖掘方法,r(g,G)为任意图g和 G 研究。。J,但主要的问题是在挖掘过程 中许多次要的

文档评论(0)

ghfa + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档