基于依存句法网络的文本特征提取研究.pdfVIP

基于依存句法网络的文本特征提取研究.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于依存句法网络的文本特征提取研究

总第252 期 2014 年 第11 期 基于依存句法网络的文本特征提取研究* 唐晓波 肖 璐 (武汉大学信息资源研究中心 武汉 430072) 摘要: 【目的 】利用依存句法分析构建更准确的文本网络, 提高基于网络图的文本特征提取方法的准确率。【方 法 】根据依存句法分析的结果确定特征词之间的语义关联, 利用特征词依存方向确定其关联方向, 采用改进的 PageRank 算法计算节点重要性, 并以此为指标进行特征提取。【结果 】实验结果表明, 相较共词网络, 基于依存 句法网络的特征提取方法能在一定程度上提高文本聚类的效果。【局限 】利用依存关系确定特征词关联方向时没 有对不同的依存类型进行区分。【结论 】提出的基于依存句法网络的文本特征提取方法是有效的。 关键词: 特征提取 依存句法分析 复杂网络 分类号: TP391.1 1 引 言 络既能反映上下文信息, 又能避免引入无关联的边; 其次, 根据依存句法分析中的依存原则, 依存词对之 [1] 文本特征提取是自然语言处理中的重要技术 , 是 间存在一个词依存于另一个词的现象, 利用这种现象 文本挖掘的基础。常用的特征提取方法有特征频度[2-3]、 可实现节点间的有向关联, 将之前无向网络改进为更 [4-5] [6] [7] χ2 [8] TF-IDF 、互信息 、信息增益 、 统计量 等, 其 准确的加权有向网络。 基本思想是使用某种评估函数对特征词打分, 再根据 由于构建方法的改变, 依存句法网络的结构较共 得分高低进行特征选择[9] 。这种基于词频统计的特征 词网络有较大区别, 在计算节点重要度时, 常用的统 提取方法简单易行, 但容易忽略文本结构信息, 缺乏 计指标作用有限。考虑到该网络的有向性, 因而选择 对特征词条上下文环境的考虑[10] 。为解决该问题, 有 PageRank 算法进行节点重要度计算。传统 PageRank 学者提出了基于复杂网络的文本特征提取方法。该方 算法根据节点之间链接计算重要度, 将相邻节点的影 法将文本表示成网络, 并利用网络统计指标进行特征 响考虑进来, 但该算法没有考虑节点之间链接的权重 选择, 从而解决传统特征提取中忽略文本语义信息的 与节点本身重要度, 本文对其进行了改进, 使之更适 不足, 取得了较好的效果。 用于依存句法网络。最后用实验证明本文提出的文本 文本网络构建是基于复杂网络的文本特征提取方 特征提取方法的可行性与有效性。 法的关键, 常用方法构建的大多为无向网络且容易引 2 研究背景 入无关联边。基于此, 本文采用一种新的构建方法, 该 方法以特征词为网络节点, 利用依存句法分析挖掘节 基于复杂网络的文本特征提取方法最重要的两步 点间关联关系, 据此构建出文本网络, 即依存句法网 为: 文本网络构建和节点重要度计算, 研究背景介绍 络。依存句法网络克服了传统网络存在的不足: 首先, 也将从这两个方面进行。 依存句法分析是一种语法结构分析方法, 用该方法挖 (1) 文本网络构建 掘出的关联词对存在一定的句法关联, 据此构建的网 即将文本表示成网络, 其中节点代表特征词, 边 收稿日期: 2014-05-23 收修改稿日期: 2014-06-24 *本文系国家自然科学基金项目“社会化媒体集成检索与语义分析方法研究”(项目编号:的研究成果之一。

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档