文本关键词提取(TFIDF和TextRank)讲述.docx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本关键词提取(TFIDF和TextRank)讲述

基于关键词提取的TFIDF和TextRank方法的对比研究 题目:开发一个程序,在该程序中,允许输入一段文本(以界面或者文件输入方式均可),该程序自动抽取出包含的关键词,并按照关键词的权重由高到低排序后输出。 完成日期:2016.06.05 一、 需求分析 1. 以文本的形式读入数据,将每个单词抽象成一棵树,将单词与单词之间的关系抽象为图。 2. TFIDF算法部分以EXCEL形式将所有数据输出,TextRank算法部分直接以窗口形式输出排名前十位的数据。 3. 本程序的目的是在提取文本关键词的同时,比较TFDIF和TextRank算法的准确性和性能方面的差异。 4. 测试数据(附后)。 二、 概要设计 1. 抽象数据类型映射树定义如下: ADT Map { 数据对象ID:ID是类型为char的元素集合,即为一个单词中的单个字 符,称为字符集。 数据对象val:val是类型为double或int的元素集合,为每个单词对应 的 TF值或IDF值,称为频率集。 数据对象is_end:is_end是类型为bool的元素集合,判断当前子结点是 否为单词末尾 数据关系 R : R = { IDVal } IDVal = { word– num| word ∈ ID,num ∈ val,表示从word到num之间的一一映射} 运算符重载: 下标运算符 [] : 运算对象为string值,返回对应string值的子 树所代表的val值。 算术运算符 =:运算对象为double或int值,等式左值的val值替换为等式右值,并返回当前子树。 算术运算符 +-*/ : 运算对象为double或int值,对其val值进行运算,并返回当前子树。 相等运算符 ==和!= : 运算对象为val值,判断其val值是否相等,返回对应的bool值。 基本操作: InitMap (T); 操作结果:构造空树。 DestroyMap (T); 初始条件:树T存在。 操作结果:构造空树。 CreateMap (T, word); 初始条件:树T存在且word为string值。 操作结果:按照word的字符顺序自上而下遍历,如果有字符结点未创造,则构造新子结点,直到字符结束。 MapEmpty (T); 初始条件:树T存在。 操作结果:若T为空树,则返回True,否则False。 MapDepth (T); 初始条件:树T存在。 操作结果:返回树的深度。 Root (T); 初始条件:树T存在。 操作结果:返回T的根。 Value (T, value); 初始条件:树T存在,value为T中某个结点的值。 操作结果:返回value的值。 Assign (T, word, value); 初始条件:树T存在,且word结点也存在。 操作结果:结点word的value值替换为当前value。 Parent (T, word); 初始条件:树T存在,且word结点也存在。 操作结果:返回word结点的双亲。 InsertWord (T, word); 初始条件:树T存在。 操作结果:往树加入word值,并将其value值默认初始化。 DeleteChild (T, word); 初始条件:树T存在,且word结点也存在。 操作结果:将word对应子节点的is_end值改为false。 TraverseMap (T, visit() ); 初始条件:树T存在,visit是对结点操作的应用函数。 操作结果:按某种次序对T的每个结点调用visit一次且至多一次。一旦visit失败,则操作失败。 }ADT Map 2. 抽象数据类型图定义如下 ADT?Graph {? 数据对象n:n是具有相同特征的数据元素集合,称为顶点集。? 数据关系:DR = { v, w | v, w ∈ n且 v, w 表示从v指向w的 弧 }? 基本操作:? CreateGraph (G,?V, VR)?; 初始条件:V是图的顶点集,VR是图中弧的集合? 操作结果:按V和VR的定义构造图G DestroyGraph (G); 初始条件:图G存在? 操作结果:销毁图G? LocateVex (G,?u); 初始条件:图G已存在,u和G中顶点有相同特征? 操作结果:若G中存在顶点u,则返回该顶点在图中位置, 否则返回其它信息? GetVex (G,?v);? 初始条件:图G存在,v是G中某个顶点? 操作结果:返回v的值? PutVex (G,?v,?value);? 初始条件:图G存在,v是G中某个顶点? 操作结果:对v赋值value? FirstAdjVex (G,?v); 初始条件:图G存在,v是G中某

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档