基于社交网络中非平衡文本聚类方法研究.docVIP

下载本文档

8
0
约3.84千字
约 8页
2018-08-30 发布于福建
举报
版权申诉

基于社交网络中非平衡文本聚类方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于社交网络中非平衡文本聚类方法研究

基于社交网络中非平衡文本聚类方法研究　　摘要：社交网络中的文本种类数量存在极大的差异，不同领域的话题分布极不平衡，而在社交网络文本数据中进行文本聚类对经济生活具有重要意义。该文针对文本聚类展开研究，结合非平衡文本的特点、文本特征的提取、聚类常用的算法进行实验。　　关键词：社交网络非平衡文本聚类方法　　中图分类号：TP393 文献标识码：A 文章编号：1674-098X（2016）05（a）-0090-02 　　随着信息技术的飞速发展，网络已经广泛深入现代社会的工作和生活之中，据第36次《中国互联网络发展状况统计报告》显示，截至2015年6月，我国网民规模达6.68亿，互联网普及率为48.8%；社交网络作为互联网中最活跃的角色之一每天产生数以亿计的数据，主要是文本数据。社交网络中的话题有的可能在短时间里积攒成千万甚至亿级别的热度，而同时同一类别的某个话题可能只有不到10万的热度，针对社交网络中话题体现出的非平衡性进行聚类研究具有很重要的意义，有助于提供更接近真实的汇总信息，更便捷地使用网络资源。　　1 非平衡文本聚类的研究方法　　文本聚类是自然语言处理的一个重要领域，聚类分析原来是统计学机器学习领域研究的课题，近几年随着数据挖掘的兴起，将文本挖掘引入数据挖掘的概念中。文本分析主要分为聚类和分类两种分析方法。文本聚类是根据文本数据的不同特征，按照事物间的相似性，将其划分为不同数据类的过程。聚类和分类是人类认识自然的基本方法，人类经过生活经验和社会活动形成对大千世界的认识观，比方说我们将很自然地将天空中的鸟分为鸽子、燕子、老鹰等，这是对生活经验的总结是典型的分类行为。至于为什么将一种鸟称为鸽子、燕子或者老鹰，是从它们的体型、颜色、喙长、食物链等级等特征总结出来的，这个总结特征的过程就属于聚类分析过程中的特征值提取的研究内容，根据这些鸟特征的不同划分为不同的种类便是一个聚类过程。　　文本聚类的基本流程是经典的三步走流程：文本表示、聚类算法、聚类结果分析。文本表示过程报过文本特征提取、机器语言表示，经过文本表示过程将试验样本表示成计算机可以识别的数据，作为聚类算法的输入数据。聚类算法是聚类分析的主体工作部分，经过聚类算法处理将起初离散的文本数据聚沙成塔，形成各个文本簇，或者叫作类的集合；聚类结果分析是对聚类结果进行综合评价，评价的规则主要有两个：（1）簇（类）内元素差距越小、簇（类）与簇（类）之间差距越大越好；（2）聚类结果与人工判断的结果差距越小越好。　　非平衡文本的本质是在一个文本数据集中一种或多种领域的文本数据在数量上的不平衡，例如在社交网络中获取20 000个话题作为实验样本，其中包含16 000个属于娱乐领域，2 000个属于科技领域，1 000个属于经济领域，1 000个属于文学领域。对此数据集进行聚类分析，由于样本数量的不平衡，在聚类分析中提取的文本特征值数量也不确定。文本特征值数量的不平衡直接影响到聚类分析结果的精确度。因此，基于非平衡文本的聚类方法的研究力图更准确地对社交网络中的文本数据进行聚类研究。实际上，在社交网络中话题的分布十分不均衡，同一时间内话题热度从十万到千万甚至到数十亿，因此将该时间段中的话题进行聚类远比例子中提出的问题复杂得多。除此之外，话题在产生和传播过程中的特定时间段各个话题的数量同样是动态的、不平衡的，因此基于非平衡文本聚类的算法要具备的特征有以下几方面。　　（1）动态性，可以容纳新出现的文本数据而不会剧烈影响聚类的结果。　　（2）稳定性，对文本的描述错误不会带来严重的影响。　　（3）时间无关性，文本输入的顺序与最后的聚类结果无关。　　2 文本表示　　2.1 文本表示模型　　文本作为信息的载体，将原始文本信息表示成计算机形式信息的过程称为文本表示的过程。　　现有的文本表示模型有布尔模型、向量空间模型、概率模型、n-Gram模型。根据话题文本的特征，我们选择向量空间模型。向量控件模型是有G.Salton等人于20世纪60年代末提出，并成功应用于SMART系统，是目前最为成熟和应用最为广泛的文本表示模型之一。向量空间模型以及相关的技术，包括特征项的选择、加权策略，以及采用相关反馈进行查询优化等技术，在文本分类、自动索引、特征检索等许多领域得到了广泛应用。　　向量空间模型的基本思想是：前提假设文本所表达内容的特征和构成文本的某些特征项的出现频率有关，与这些特征项的顺序或位置无关。也就是说可以通过选取文本的特征值，计算特征值在文本中的出现频数和在整个文档集合中出现的频数来表示文本承载的内容。　　特征项是文本中含有的具有领域特征性的基本单位（字、词、词组或短语），文本特征值的提取是文本聚类的重要环节，主要方法根据方式主要分为基于统计和