文本定向性分析(鱼江).pptVIP

下载本文档

10
0
约2.99千字
约 14页
2018-06-21 发布于河南
举报
版权申诉

文本定向性分析(鱼江).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本定向性分析(鱼江)

互联网舆情挖掘研究述略 2.3.3文本倾向性分析：以下分别从对文本倾向性分析的内容，意义，原则，用到的一些思想，技术，和一个可供参考的具体的算法这一个程序来对文本定向性分析进行具体介绍内容：通过以上互联网舆情信息预处理这一环节，我们需要再对这些已经初步加工和处理了的信息资源，进行深入分析，来准确了解网民们的思想动态，政治态度，我们要对这些信息进行分析和总结，得出有用的数据结论，进行舆情报告或者舆情预警，为领导者提供科学的参考依据。意义：通过倾向性分析可以明确网络传播者的真正意图和目的，它是互联网舆情挖掘研究过程中极其重要的必不可少的一个环节，通过文本倾向性分析，为领导者提供一些科学数据和一些事实结论，方便领导者做出决策，以及改善领导者的工作体制，提高管理效率，这对塑造政府形象，及时解决民众的利益问题，以及推动民众参政议政和丰富人民当家作主的民主形式，正确引导网络舆论，维护社会稳定和人心安定，都具有重要的现实意义。文本定向分析过程中应遵守的原则： 1. 在进行文本定向性分析的过程中，一切结论必须要有科学依据，绝不能凭空乱说。 2. 通过文本的定向性分析，一定要得出有价值的一些结论或者数据资源。 3. 进行分本定向性分析要全面。这主要是要得出全面的结论，我们通过针对文本定向性的分析，得出当时网民们的思想动态，或者政治态度，以及客观社会现实，在此我们还需要分析在这个时间段之前的网民们的思想动态或者他们的政治态度，以及所反映的客观社会现实，同时我们通过对这两个阶段的分析研究来预测未来的网民们的思想和行动以及社会上一些事物的发展动向，从而得出各个方面的相应的结论。文本定向性分析过程中需要的一些思想或者一些实践技术： 1. 为了实现对文本信息的准确提取，不仅要考虑该文本的影响强度，同时还要对文本的感情取向有一个正确把握，我们可以采用加权值的手段要标出舆情的影响大小，而且标出正负号，反映出舆情的褒贬性。 2. 对语义倾向分类结果再进一步按照语义倾向强度进行细分的方法。 3. 利用框架技术对报道的描述进行不同侧面的敏感要素抽取，构成敏感要素集，作为一种分类体系，在报道中找出包括这些要素的关键句，并根据分句提供的信息结构立场概念库等进行倾向性计算。 4. 主题相关度计算常用且效果最好的是基于向量空间模型的主题匹配算法，即将主题和待比较的URL转化成向量后通过余弦夹角公式计算其相似度。 5. 现有的采集技术基本上都是被动的数据采集，只有在某个话题成为热点话题后才去采集，无法保证舆情的时效性，可以通过Agent，主题制导等技术的研究，并结合互联网信息交流的特性，为舆情信息的主动采集提供技术支持。 6. 重点关注谣言，虚假信息的舆情分析技术。可以利用智能信息处理技术，机器学习等研究成果相互融合对网页格式和用词模式做进一步的深入分析，为准确区分谣言、虚假信息提供可靠的语言模型，或者提出一种新的舆情分析指标，可以尝试研究模糊理论中的模糊推理和模糊综合评判方法来辨别舆情信息的真伪。 7. 关注在网络环境下情感倾向特征词的特点和深层分析，并进行语气词类型判别和标注，构建适合于互联网舆情分析的立场倾向概念库。因为文本倾向性分析的研究中语气词的标注主要依靠专家标注，有很强的主观性，而且语义倾向值的计算比较直观，不适应互联网语言的特点，可以重点研究倾向性主客观相结合的分析技术，提出更加科学的计算方法，提高针对互联网环境下舆情分析的准确率。 8. 文本特征表示方法：向量空间模型（VSM）是目前文本分类中使用较多，效果较好的一种文本特征表示方法。它将每个文本表示为特征空间的一个向量，形如：Di={(Ti1,Wi1),(Ti2,Wi2),……，(Tin,Win)},其中Tin为特征项，它可以是字，词或短语；Win为特征项的权重，表示Tin在文本中的重要程度。权重是根据特征项在文本中出现的频率、位置等信息计算得到的，可用TFIDF方法来计算权重，当然在此工程中，一定要筛选出最具有代表性的词条作为特征项，这就要涉及到特征想选择的一些技术。（1）特征提取通常的做法是构造一个评估函数，对特征项集合中的每个特征项进行独立的评估，得到其评估分值（即权值），然后对所有的特征项按照其权值大小进行排序，最后选择预定数目的特征项作为特征结果。目前文本分类中常用的特征评估分类函数有文档频率（DF）、互信息（MI）、信息增益（IG）、期望交叉熵（ECE）、文本证据权（WET）等，为了提高褒贬分类的精度，我们可以人为地构建褒贬词典和褒贬评价模板作为工具。 + （2）分类算法可利用基于向量空间模型的文本分类算法，例如简单向量距离分类法，最近K邻居、贝叶斯方法、支持向量机、神