基于SWN理论的关键字抽取策略.docVIP

下载本文档

1
0
约2.99千字
约 6页
2018-02-17 发布于广东
举报
版权申诉

基于SWN理论的关键字抽取策略.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于SWN理论的关键字抽取策略.doc

基于SWN理论的关键字抽取策略本文在基于文本挖掘中的共现分析理论上，结合SWN理论及算法，借助图的平均最短路径变化量和簇系数变化量，计算分词在信息中的重要性，以确定文本关键字。，供学习和研宄使用，己的信息，关键词抽取；分词；SWN;共现分析；平均最短路径变化量；簇系数变化量 TP31A1674-6708 (2011) 57-0227-02 1文本预处理和分词文本预处理［1］是进行关键字抽取的第一个步骤。文本预处理操作，一般包括去除文档中的格式标记、过滤非法字符、字母大小写转换、去除停用词和稀有词、词干化处理和中文分词处理等处理步骤。基于字符串匹配的分词方法通常又称为机械分词法或词典法，这种方法是基于一个相对完备的词典，对待分词文本按照特定的规则逐个进行字符串匹配，如果匹配则认为是一个词，一般在机械分词法中用少量词法、语法和语义信息等对分词系统辅助，使其达到最佳效果，由于其实现简单，目前几乎所有的分词方法都属于这一种。根据每次匹配时优先考虑长词还是优先考虑短词，将基于字符串匹配的分词法又分为最大匹配法和最小匹配法。由于大多数汉字均可构成单字词，所以按最小匹配法分词的结果往往因分得太细而不合要求。反之，当待分词文本中出现“词中含词”的情况时，最大匹配法就可能因分得太粗而不合要求。本设计采用最大匹配算法进行分词。 2共现分析共现分析［5］是词语网络构建和分析的基础理论和方法论。由于文本的半结构化特性，现有的成熟的数据挖掘技术无法发现文本中蕴含的大量信息；针对文本数据库内容的特殊性，提出许多文本挖掘方法。在众多文本挖掘方法中，共现分析以科学的分析原理、简便的操作流程和客观的分析结果，逐渐受到文本知识挖掘人员的青睐。该方法以文本的最小内容单位一词汇为分析对象，挖掘词汇语义，以此为基础实现文本内容的有效表示；并能对大规模文本集合进行文本精练和知识提取，可完成文本总结、文本分类、文本聚类、关联分析、分布分析及趋势预测等多种文本挖掘任务。共现窗口是共现分析中一种非常重要的研究，即在同一共现窗口中出现的词是有关联的，具体到商品信息中，共现窗口可以选择一个自然段，也可以选择一个句子，即在一句话中出现的分词是有关联的 3 S丽理论 3.1平均最短路径长度在网络中，两点间的距离被定义为连接两点的最短路所包含的边的数目，把所有结点对的距离求平均，就得到了网络的平均距离 (average distance,也叫平均最短路径变化量)L。L表示网络的有效大小，代表两个结点间的最典型的分离距离。我们用G表示一个网络所对应的拓扑结构图，N和K分别表示图中的结点总数和边的总数，k为从每个结点引出的平均边数。Ki是从第i个结点引出的边的个数(第i个结点的度)。贝IJ: 为了说明图的特性，又设dij表示点vi和vj之间的平均最短路径，用|E(G) |表示任意一个图的中边的个数。下面给出图的平均最短路径变化景的数学定义：我们把图G中所有点之间的距离的平均值叫图G的平均S短路径长度，可表示为：其中L (G)表示图G的平均最短路径长度。设L为图G的平均路径长度，即所有边的权值之和和与顶点个数的比，1，(1)为图01的平均路径长度，则在图G中去掉顶点i后形成的图Gi的平均路径变化量A Li为 3.2簇系数另外一个叫做簇系数(clustering coefficient)的参数，专门用来衡量M络节点聚类的情况。比如在朋友关系网中，你朋友的朋友很可能也是你的朋友；你的两个朋友很可能彼此也是朋友。簇系数就是用来度量网络的这种性质的。用数学化的语言来说，对于某个节点，它的簇系数被定义为它所有相邻节点之间连边的数目占可能的最大连边数目的比例，网络的簇系数c则是所有节点簇系数的平均值。假设无向网络中顶点i与其他顶点相连的边数为ki条，这ki个顶点称为顶点i的邻居。显然，这ki个顶点之间最多可能有ki (ki-1) /2条边。而ki个顶点之间实际存在的边数为Ei，将实际存在的边数 Ei与可能的边数ki (ki-1) /2相比得到顶点i的聚类系数Ci，公式如下: 图G的簇系数C是所有顶点簇系数Ci的平均值，用C (G)来表不：设C为图G的簇系数平均值，C(i)为图Gi的簇系数平均值，则在图G中去掉顶点i后所形成的图Gi的簇系数变化景3. 3 SWN理论近年来复杂网络研宄的兴起，学者们关注网络结构复杂性以及网络行为之间的关系。为研究不同复杂网络的结构共性，需要一种描述网络的统一工具，数学上称为图。任何一个网络都可以看作是巾一些顶点按某种方式连接在一起而构成的图。复杂网络所构成的图普遍具有较大的簇系数和较小的平均最短路径长度，此时高聚类性和小世界效应会在网络中同时呈现，