面向网络舆情分析的语义相似度算法研究-中国管理科学.pdfVIP

下载本文档

2
0
约1.27万字
约 5页
2017-08-31 发布于天津
举报
版权申诉

面向网络舆情分析的语义相似度算法研究-中国管理科学.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向网络舆情分析的语义相似度算法研究-中国管理科学

山东科学第２７卷　第６期　２０１４年１２月出版ＳＨＡＮＤＯＮＧＳＣＩＥＮＣＥＶｏｌ．２７Ｎｏ．６Ｄｅｃ．２０１４ＤＯＩ：１０．３９７６／ｊ．ｉｓｓｎ．１００２－４０２６．２０１４．０６．０１２面向网络舆情分析的语义相似度算法研究魏飞，杨春波，刘守鹏（滨州医学院，山东烟台２６４００３）摘要：本文对广义向量空间模型进行了改进，并利用《知网》义原提出了一种基于义原空间的文本相似度计算方法。此方法根据ＴＦＩＤＦ权重，将文中特征项转化为义原空间中的向量，通过求义原向量之间的夹角余弦值的方式，实现文本相似度的计算。最后进行文本聚类对比实验，结果表明，该方法可以很好地解决舆情分析中的语义漂移问题，使得网络舆情分析的效果有了较大提高。关键词：网络舆情；知网；相似度中图分类号：ＴＰ３９３　　　文献标识码：Ａ　　　文章编号：１００２４０２６（２０１４）０６００７３０５ＮｅｔｗｏｒｋｐｕｂｌｉｃｏｐｉｎｉｏｎａｎａｌｙｓｉｓｏｒｉｅｎｔｅｄｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｙａｌｇｏｒｉｔｈｍＷＥＩＦｅｉ，ＹＡＮＧＣｈｕｎｂｏ，ＬＩＵＳｈｏｕｐｅｎｇ（ＢｉｎｚｈｏｕＭｅｄｉｃａｌＵｎｉｖｅｒｓｉｔｙ，Ｙａｎｔａｉ２６４００３，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ∶Ｗｅｉｍｐｒｏｖｅｔｈｅｇｅｎｅｒａｌｉｚｅｄｖｅｃｔｏｒｓｐａｃｅｍｏｄｅｌ，ａｎｄｐｒｅｓｅｎｔａｎｏｒｉｇｉｎａｌｍｅａｎｉｎｇｓｐａｃｅｂａｓｅｄｔｅｘｔｓｉｍｉｌａｒｉｔｙｃｏｍｐｕｔｉｎｇｍｅｔｈｏｄｗｉｔｈｔｈｅ“ＨｏｗＮｅｔ”ｓｅｍｅｍｅ．ＴｈｅｍｅｔｈｏｄｃｏｎｖｅｒｔｓａｆｅａｔｕｒｅｉｎｔｏａｖｅｃｔｏｒｉｎａｓｅｍｅｍｅｓｐａｃｅｗｉｔｈＴＦ ＩＤＦｗｅｉｇｈｔ，ａｎｄｃａｌｃｕｌａｔｅｓｔｅｘｔｓｉｍｉｌａｒｉｔｙｂｙｔｈｅｃｏｓｉｎｅｏｆｔｈｅａｎｇｌｅｂｅｔｗｅｅｎｄｉｆｆｅｒｅｎｔｓｅｍｅｍｅｖｅｃｔｏｒｓ．Ｗｅｅｖｅｎｔｕａｌｌｙｐｅｒｆｏｒｍｔｅｘｔｃｌｕｓｔｅｒｉｎｇａｎｄｃｏｍｐａｒａｔｉｖｅｅｘｐｅｒｉｍｅｎｔｓ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｍｅｔｈｏｄｃａｎｗｅｌｌｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｓｅｍａｎｔｉｃｄｒｉｆｔｏｆｐｕｂｌｉｃｏｐｉｎｉｏｎａｎａｌｙｓｉｓ，ａｎｄｉｔｓｅｆｆｅｃｔｃａｎｂｅｓｉｇｎｉｆｉｃａｎｔｌｙｉｍｐｒｏｖｅｄ．Ｋｅｙｗｏｒｄｓ∶ｉｎｔｅｒｎｅｔｐｕｂｌｉｃｏｐｉｎｉｏｎ；ＨｏｗＮｅｔ；ｓｉｍｉｌａｒｉｔｙ　　舆情指的是在某一特定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产［１］生和持有的社会政治态度。它是大众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。而网络舆情则指的是民众通过互联网所表达的社会政治态度，相比传统媒体，具有较强的即时性和偏差性，即由于网络具有较强的虚拟性，未实现全部发言者实名制，并且规则限制较少无法形成有效监督，网络自然成为一些网民情绪宣泄的最理想空间。目前的网络舆情分析系统，大都采用基于向量空间模型（ｖｅｃｔｏｒｓｐａｃｅｍｏｄｅｌ，ＶＳＭ）的文本分析技术，通过对特征词进行词频分析实现的。这种技术方法具有分析速度快、实现简单等优点，但这类方法是建立在文本的词语都是相互独立、没有交集的理想状态下，并未考虑到现实生活中，语言之间存在的相关性与相似性，因此许多文本采用基于向量空间模型无法做出很好的判断。为解决此问题，肖志军等［２］在ＶＳＭ模型的基础收稿日期：２０１４０５１４基金项目：烟台市社会科学规划研究项目（２０１２ＳＨ１１）作者简介：魏飞（１９８１－），男，硕士，研究方向为算法设计、网络安全和图像处理。Ｅｍａｉｌ：ｐｅｔｅｒｆｅｉ３０００＠１６３．ｃｏｍ７４山　东　科　学　　　　　　　　　　　　　　　　　　２０１４年上进行了改进，提出了广义向量空间模型（ｇｅｎｅｒａｖｅｃｔｏｒ