- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于情感词典的中文词语情感倾向性分析的中期报告
一、问题描述
随着社交媒体的普及和信息化程度的深入,网络上的数据量越来越大,对于这些数据的分析和处理成为一个非常重要的问题。文本情感分析可以分析文本中所包含的情感信息,对于企业的市场调研和风险评估等具有重要的实际意义。
本项目旨在基于情感词典,对中文文本进行情感倾向性分析。
二、数据来源
本项目选取了Sina微博上的数据集合作为分析数据。该数据集包含了2014年9月6日至2014年9月11日的3,000篇微博,通过Python爬虫进行获取。因为数据集是有标签的,每条微博都有情感标签(积极、中立、消极)。
三、研究方法
本项目采用了基于情感词典的方法,对文本进行情感分析。情感词典是由一系列情感词及其情感极性组成的词汇表,其中情感词汇的情感极性通常分为积极、中性、消极三类。
在本项目中,我们使用了开源的情感词典NTUSD的正向和负向情感词库,以及基于哈工大的知网的情感词库。我们从三个情感词典中各自提取出积极情感词汇和消极情感词汇,用以作为情感极性的标志。
对于每条微博,我们首先对其中的汉字进行分词,然后对每个词语进行情感极性的判断。对于每个词语来说,如果它在情感词典中出现了,我们就可以得到它的情感极性值,并且我们可以得到该微博总情感得分。
现有情感词典对于“悲观”、“失落”等情感表达有所欠缺,为此我们从微博中挖掘出一些新的情感词。
四、进展情况
目前,我们已经完成了对数据集的初步的清理和预处理工作,并且基于三个情感词典分别进行了情感分类,并可视化分析了数据。同时,我们对情感词典进行了调整和补充,提高了分析模型的准确性。下一步,我们将继续优化模型并进行实验、模型调参。同时,我们还将持续挖掘数据中的新的情感词,以提升模型的可解释性和预测准确率。
您可能关注的文档
- 无线多媒体传感器网络分布式视频编码技术的研究的中期报告.docx
- 基于领域分析的PGIS-ASA适应性软件体系结构及其实例化的中期报告.docx
- 分权与制衡视域下的公司治理结构重塑的中期报告.docx
- QAM调制技术的研究的中期报告.docx
- 利用影响力受贿罪的中期报告.docx
- 公交车载数据更新系统的研究与设计的中期报告.docx
- 伦理视域下的译者主体性研究的中期报告.docx
- GPS载波相位定位算法研究的中期报告.docx
- 凡纳滨对虾微波蒸煮参数优化及风味成分分析的中期报告.docx
- 激光散斑测量纳米流体速度的研究的中期报告.docx
- 自考专业(公共关系)模拟试题附参考答案详解【黄金题型】.docx
- 自考专业(公共关系)模拟试题及答案详解(名师系列).docx
- 自考专业(公共关系)模拟试题含答案详解(基础题).docx
- 自考专业(公共关系)模拟试题必考题附答案详解.docx
- 自考专业(公共关系)模拟试题附答案详解(研优卷).docx
- 自考专业(公共关系)模拟试题含答案详解(新).docx
- 自考专业(公共关系)模拟试题含完整答案详解(有一套).docx
- 自考专业(公共关系)模拟试题及答案详解【有一套】.docx
- 自考专业(公共关系)模拟试题及完整答案详解1套.docx
- 自考专业(公共关系)模拟试题及参考答案详解(综合题).docx
文档评论(0)