- 30
- 0
- 约5.71千字
- 约 7页
- 2016-09-10 发布于北京
- 举报
中文微博语料情感类别自动标注方法.doc
中文微博语料情感类别自动标注方法
摘要:针对大规模微博语料手动标注困难的问题,提出了中文微博语料情感类别自动标注的方法,包括基于关键词的、基于概率求和的和基于概率乘积的3种自动标注方法和一种集成标注方法。自动标注时首先分别使用3种标注方法进行标注,得到3种标注结果;然后,采用标注方法集成的策略,对3种标注的结果通过投票的方式决定最终的标注结果。通过设计自动标注实验系统进行实验,实验结果验证了所提方法的可行性和有效性。实验结果表明,单个标注方法的准确率均在70%以上,投票方法的准确率达90%以上。
关键词:中文微博;微博情感;情感分类;自动标注;准确率
中图分类号: TP301.6; TP391
文献标志码:A
Abstract: For the difficulty of manual annotation on largescale microblog corpus, three automatic annotation methods and an integrated annotation method by voting for Chinese microblog corpus were proposed. Three automatic annotation methods included keywordsbased annotation method, probabilitysummationbased annotation method and probabilityproductbased annotation method. During the process of automatic annotation, firstly, microblog corpus were annotated by three annotation methods respectively, and three results were obtained, then the final annotation results were determined by voting method with the integrated strategy. By designing automatic annotation experiment system, experimental results verify the feasibility and effectiveness of the proposed methods, and show that the accuracy of the single annotation method is more than 70%, and it is more than 90% for the voting method.
Key words: Chinese microblog; microblog sentiment; microblog sentiment classification; automatic annotation; accuracy
0引言
微博是一种流行的网络社交平台,用户通过操作手机就可以轻松实现获取、分享和转发微博平台上海量的微信息。对微博进行情感分析在市场分析预测、民意调查、智能导购、信息安全等诸多领域有着广阔的应用空间和发展前景[1-2]。微博语料库是进行微博情感分析研究的重要基础,要提高语料的利用价值,关键在于语料的标注,所谓标注[3]就是对语料库中的原始语料进行加工,把各种表示语言特征的附码标注在相应的语言成分上,以便于计算机的识读。然而,规模庞大的微博文本给通过人工标注工作带来非常大的困难,当前中文微博情感分析研究领域没有标准的语料库,这在一定程度上影响了该领域的研究。为了减轻标注人员的负担,提高标注的效率和精确度,减少标注的错误率,非常有必要研究自动标注方法,以便协助标注人员的工作。因此,探索研究微博情感类别自动标注方法是一项非常重要的工作。
在语料库情感自动标注研究领域,李圣楠[4]提出一种无人工干预的微博语料库自动标注方法,采用表情符号及情感词对微博语料进行筛选标注,在特定语料集情况下其标注准确率达到了约83%;徐琳宏等[5]介绍了情感语料库构建中情感标注方面的相关成果,提出了相应的情感标注体系和规范,并对语料库中的情感分布进行了介绍,这有助于进行语料自动标注的研究;庞磊等[6]提出利用情绪词和表情图片两种情绪知识对大规模微博非标注语料进行筛选并自动标注,其用于电影及手机评论语料,标注准确率达到约87%;韩忠明等[7]以HowNet的情感词典为基础,提出一个微博新词发现算法,构建
您可能关注的文档
- 专业预报的研制方法.doc
- 专用刀具在高效铣加工技术上的应用.doc
- 专职摄像存在的问题与对策.doc
- 专门用途英语在高职英语教学中应用的可行性探讨.doc
- 世界一流矿井搬家倒面.doc
- 世界品牌:期待延怀河谷.doc
- 世界最高峰:珠穆朗玛峰.doc
- 世界杯中的航空“8强”.doc
- 世界银行对气候变化适应和清洁能源发展的影响.doc
- 丘陵山地芦柑的栽培管理技术.doc
- 宠物行业新品趋势-炼丹炉x淘天集团-202601.docx
- 2025空间智能软件技术大会:GIS+燃气:智慧燃气行业数字化转型.pptx
- 2025年AI治理报告:回归现实主义.docx
- 2025医疗科技领域AI应用:驾驭变革与机遇研究报告 Artificial Intelligence in Medtech Navigating Change and Opportunity.docx
- 2026年50大科技趋势前瞻报告 The Top 50 Technology Trends.docx
- 数字电网无人机巡检解决方案.docx
- 人工智能企业综合能力评价规范(平台化视角)(征求意见稿).docx
- 中国经济复盘与展望:“反内卷”与结构突围.docx
- 爷爷不泡茶茶饮品牌小红书平台推广方案.pptx
- 2026年美中AI市场竞争态势与DeepSeek的突围(中文).docx
原创力文档

文档评论(0)