文本关键词提取(TFIDF和TextRank)讲述.docx

下载文档 降价啦

86
0
约2.03万字
约 27页
2017-03-29 发布于湖北
举报
版权申诉
保障服务

文本关键词提取(TFIDF和TextRank)讲述.docx

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本关键词提取(TFIDF和TextRank)讲述

基于关键词提取的TFIDF和TextRank方法的对比研究题目：开发一个程序，在该程序中，允许输入一段文本（以界面或者文件输入方式均可），该程序自动抽取出包含的关键词，并按照关键词的权重由高到低排序后输出。完成日期：2016.06.05 一、需求分析 1. 以文本的形式读入数据，将每个单词抽象成一棵树，将单词与单词之间的关系抽象为图。 2. TFIDF算法部分以EXCEL形式将所有数据输出，TextRank算法部分直接以窗口形式输出排名前十位的数据。 3. 本程序的目的是在提取文本关键词的同时，比较TFDIF和TextRank算法的准确性和性能方面的差异。 4. 测试数据（附后）。二、概要设计 1. 抽象数据类型映射树定义如下： ADT Map { 数据对象ID：ID是类型为char的元素集合，即为一个单词中的单个字符，称为字符集。数据对象val：val是类型为double或int的元素集合，为每个单词对应的 TF值或IDF值，称为频率集。数据对象is_end：is_end是类型为bool的元素集合，判断当前子结点是否为单词末尾数据关系 R : R = { IDVal } IDVal = { word– num| word ∈ ID，num ∈ val，表示从word到num之间的一一映射} 运算符重载：下标运算符 [] : 运算对象为string值，返回对应string值的子树所代表的val值。算术运算符 =：运算对象为double或int值，等式左值的val值替换为等式右值，并返回当前子树。算术运算符 +-*/ : 运算对象为double或int值，对其val值进行运算，并返回当前子树。相等运算符 ==和!= : 运算对象为val值，判断其val值是否相等，返回对应的bool值。基本操作： InitMap (T); 操作结果：构造空树。 DestroyMap (T); 初始条件：树T存在。操作结果：构造空树。 CreateMap (T, word); 初始条件：树T存在且word为string值。操作结果：按照word的字符顺序自上而下遍历，如果有字符结点未创造，则构造新子结点，直到字符结束。 MapEmpty (T); 初始条件：树T存在。操作结果：若T为空树，则返回True，否则False。 MapDepth (T); 初始条件：树T存在。操作结果：返回树的深度。 Root (T); 初始条件：树T存在。操作结果：返回T的根。 Value (T, value); 初始条件：树T存在，value为T中某个结点的值。操作结果：返回value的值。 Assign (T, word, value); 初始条件：树T存在，且word结点也存在。操作结果：结点word的value值替换为当前value。 Parent (T, word); 初始条件：树T存在，且word结点也存在。操作结果：返回word结点的双亲。 InsertWord (T, word); 初始条件：树T存在。操作结果：往树加入word值，并将其value值默认初始化。 DeleteChild (T, word); 初始条件：树T存在，且word结点也存在。操作结果：将word对应子节点的is_end值改为false。 TraverseMap (T, visit() ); 初始条件：树T存在，visit是对结点操作的应用函数。操作结果：按某种次序对T的每个结点调用visit一次且至多一次。一旦visit失败，则操作失败。 }ADT Map 2. 抽象数据类型图定义如下 ADT?Graph {? 数据对象n：n是具有相同特征的数据元素集合，称为顶点集。? 数据关系：DR = { v, w | v, w ∈ n且 v, w 表示从v指向w的弧 }? 基本操作：? CreateGraph (G,?V, VR)?; 初始条件：V是图的顶点集，VR是图中弧的集合? 操作结果：按V和VR的定义构造图G DestroyGraph (G); 初始条件：图G存在? 操作结果：销毁图G? LocateVex (G,?u); 初始条件：图G已存在，u和G中顶点有相同特征? 操作结果：若G中存在顶点u，则返回该顶点在图中位置，否则返回其它信息? GetVex (G,?v);? 初始条件：图G存在，v是G中某个顶点? 操作结果：返回v的值? PutVex (G,?v,?value);? 初始条件：图G存在，v是G中某个顶点? 操作结果：对v赋值value? FirstAdjVex (G,?v); 初始条件：图G存在，v是G中某