文本关键词提取(TFIDF和TextRank)分析.docx

下载文档 降价啦

389
0
约1.8万字
约 27页
2017-01-15 发布于湖北
举报
版权申诉
保障服务

文本关键词提取(TFIDF和TextRank)分析.docx

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本关键词提取(TFIDF和TextRank)分析

基于关键词提取的TFIDF和TextRank方法的对比研究题目：开发一个程序，在该程序中，允许输入一段文本（以界面或者文件输入方式均可），该程序自动抽取出包含的关键词，并按照关键词的权重由高到低排序后输出。完成日期：2016.06.05需求分析以文本的形式读入数据，将每个单词抽象成一棵树，将单词与单词之间的关系抽象为图。TFIDF算法部分以EXCEL形式将所有数据输出，TextRank算法部分直接以窗口形式输出排名前十位的数据。本程序的目的是在提取文本关键词的同时，比较TFDIF和TextRank算法的准确性和性能方面的差异。测试数据（附后）。概要设计抽象数据类型映射树定义如下：ADT Map{数据对象ID：ID是类型为char的元素集合，即为一个单词中的单个字符，称为字符集。数据对象val：val是类型为double或int的元素集合，为每个单词对应的TF值或IDF值，称为频率集。数据对象is_end：is_end是类型为bool的元素集合，判断当前子结点是否为单词末尾数据关系 R :R= { IDVal }IDVal= { word– num| word ID，numval，表示从word到num之间的一一映射}运算符重载：下标运算符 [] : 运算对象为string值，返回对应string值的子树所代表的val值。算术运算符 =：运算对象为double或int值，等式左值的val值替换为等式右值，并返回当前子树。算术运算符 +-*/ : 运算对象为double或int值，对其val值进行运算，并返回当前子树。相等运算符 ==和!= : 运算对象为val值，判断其val值是否相等，返回对应的bool值。基本操作：InitMap(T);操作结果：构造空树。DestroyMap(T);初始条件：树T存在。操作结果：构造空树。CreateMap(T, word);初始条件：树T存在且word为string值。操作结果：按照word的字符顺序自上而下遍历，如果有字符结点未创造，则构造新子结点，直到字符结束。MapEmpty(T);初始条件：树T存在。操作结果：若T为空树，则返回True，否则False。MapDepth(T);初始条件：树T存在。操作结果：返回树的深度。Root(T);初始条件：树T存在。操作结果：返回T的根。Value(T, value);初始条件：树T存在，value为T中某个结点的值。操作结果：返回value的值。Assign(T, word, value);初始条件：树T存在，且word结点也存在。操作结果：结点word的value值替换为当前value。Parent(T, word);初始条件：树T存在，且word结点也存在。操作结果：返回word结点的双亲。InsertWord (T, word);初始条件：树T存在。操作结果：往树加入word值，并将其value值默认初始化。DeleteChild(T, word);初始条件：树T存在，且word结点也存在。操作结果：将word对应子节点的is_end值改为false。TraverseMap(T, visit() );初始条件：树T存在，visit是对结点操作的应用函数。操作结果：按某种次序对T的每个结点调用visit一次且至多一次。一旦visit失败，则操作失败。}ADT Map抽象数据类型图定义如下ADT?Graph{?数据对象n：n是具有相同特征的数据元素集合，称为顶点集。?数据关系：DR={v,w|v,w∈n且v,w表示从v指向w的弧}?基本操作：?CreateGraph(G,?V, VR)?;初始条件：V是图的顶点集，VR是图中弧的集合?操作结果：按V和VR的定义构造图GDestroyGraph(G);初始条件：图G存在?操作结果：销毁图G?LocateVex (G,?u);初始条件：图G已存在，u和G中顶点有相同特征?操作结果：若G中存在顶点u，则返回该顶点在图中位置，否则返回其它信息?GetVex(G,?v);?初始条件：图G存在，v是G中某个顶点?操作结果：返回v的值?PutVex(G,?v,?value);?初始条件：图G存在，v是G中某个顶点?操作结果：对v赋值value?FirstAdjVex(G,?v);初始条件：图G存在，v是G中某个顶点?操作结果：返回v的第一个邻接顶点。若顶点在G中没有邻接顶点，则返回“空”?NextAdjVex(G,?v,?w);初始条件：图G存在，v是G中某个顶点，w是v的邻接顶点?操作结果：返回v的(相对于w的)下一个邻接顶点。若w是v的最后一个邻接点，则返回空”?InsertVex (G,?v);初始条件：图G存在，v和G中顶点有相同特征?操作结果：在图中增添新顶点v?DeleteVex (G,?v