- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
語文硏究與創作 (第十五期) 2011
基於機器學習方法的中文微博情感分類方法研究1
戴敏、龐磊、李壽山
蘇州大學
提要
隨著互聯網的迅速普及 web2.0 的快速發展,微型博客(簡稱
微博)越來越受到網路使用者的青睞,成千上萬的用戶通過
發佈微博共用他們的觀點和情感。因此,微博漸漸成為研
究意見挖掘和情感分析非常寶貴的意見資源。本文通過對
新浪微博 (目前最大的中文微博平台)搜集了“國產電影”
和“高鐵”兩個領域話題的微博語料,並進行了人工標
注,將微博分為三個情感類別:正面評價、負面評價和客
觀陳述。在此基礎上,文本分別採用最大熵模型、支援向
量機和樸素貝葉斯三種機器學習方法的分類對這兩個領域
的微博進行分類,考察監督學習方法在中文微博情感分類
任務中的性能。實驗結果表明基於機器學習方法的分類方
法能夠在中文微博情感分類任務上面取得很好的分類效
果。
1. 引言
微博,即微博客(Micro-Blog)的簡稱,是一個基於使用者關係的資
訊分享、傳播以及獲取平台,用戶可以通過 WEB 、WAP 以及各
種用戶端元件個人社區,以 140 字左右的文字更新資訊,並實現
即時分享。最早也是最著名的微博是美國的 twitter ,根據相關公
開資料,截至 2010 年 1 月,該產品在全球已經擁有 7500 萬註冊
用戶,而到 2010 年底,用戶數量已達 2 億。在中國,微博也如火
如荼的發展,從 2009 年 8 月發佈新浪微博截止到 2010 年 12 月,
僅 15 個月的時間,新浪微博註冊用戶便達到 6000 萬,用戶每天
要發佈 2500 萬條微博內容。隨著微博在中國的興起,其他例如騰
1
基金專案:國家自然科學基金資助專案
戴敏 、龐磊 、李壽山 : 基於機器學習方法的中文微博情感分類方法研究
訊、網易、搜狐等也推出了微博服務,使用者數量也相當可觀。
至此,微博成為中文上網人群的又一大關注熱點。
微博越來越受到網路使用者的青睞,成千上萬的用戶通過發佈微
博共用他們的觀點和情感。在這些海量的文本資訊中,有很大一
部分是帶有情感的文本資訊。這些情感文本資訊是非常寶貴的意
見資源。因此,自動分析微博中的情感資訊是一個非常有價值並
迫切需要解決的應用任務。目前,針對情感文本分類研究任務,
主流的方法是基於機器學習的方法,該方法利用統計機器學習分
類方法學習標注樣本,然後用學習好的分類器測試非標注樣本。
這種方法要比基於規則的方法在分類性能上有明顯的優勢(Pang
et al., 2002) 。但是,所有的機器學習的方法都需要用標注樣本進
行訓練,才能得到一個比較好的分類器。在已有的相關研究中,
已有的標注樣本都是來自網頁文本或者普通文本,並沒有微博相
關的情感標注語料。值得注意的是,微博文本明顯區別於傳統的
其他形式的文本,例如:微博的單篇文本長度有限,一般限定在
140 字內,是非常簡短的文本。此外,微博發佈形式靈活,表現非
常自由,文本的格式並不正規。因此,直接使用以往的標注樣本
很難適應微博的情感分類。
為了彌補微博標注樣本缺乏的不足,本文首先通過對新浪微博搜
集了“國產電影”和“高鐵”兩個領域話題的微博語料,並進行
了人工標注,將每篇微博分為三個情感類別:正面評價,負面評
價,客觀陳述。然後,分別採用最大熵模型、支援向量機和樸素
貝葉斯三種機器學習方法的分類對這兩個領域的微博進行分類,
考察基於監督學習方法在中文微博情感分類任務上面的性能。不
同於英文的情感分類方法,中文的文本並沒有明顯的詞界限分
隔,因此我們還將重點採用字的 unigram 和 bigram 作為特徵進
行情感分類。
本文的其餘部分做如下安排:第 2 節對近年在普通情感分類及基
於微博的情感分類的相關研究工作介紹;第 3 節詳細介紹本文使
用的三種機器學習分類方法。第 4 節給出實驗結果與分析;最後
2
戴敏 、龐磊 、李壽山 : 基於機器學習方法的中文微博情感分類方法研究
一節是本文的結論和下一步工作介紹。
2. 相關工作
2.1 普通情感分類方法研究
情感分類是按照文本表達的情感傾向性對
您可能关注的文档
- 国家高技术研究发展计划863计划课题申请书-济南高新技术产业.doc
- 国立中正大学杰出通识教育教师遴选要点-嘉义大学.doc
- 国立中兴大学106学年‘个人申请’入学招生兴翼.doc
- 国立嘉义大学外国语言学系应用外语组.doc
- 国立嘉义大学音乐学系学生手册92学年版.doc
- 国立国会图书馆‘日本十进分类法ndc新订10版’分类基准.pdf
- 国立暨南国际大学财产及物品管理要点草案.doc
- 国语文竞赛朗读篇目.doc
- 国立高雄应用科技大学101年杰出校友推荐表.doc
- 国际声乐高级研修班招生简章2014810-中央文化管理干部学院.doc
- 基于柔性空间机构的人眼表情动画研究-西北工业大学学报导航页.pdf
- 基于微课的翻转课堂实践在食品微生物学试验教学中的-微生物学报.pdf
- 基于生态基础设施的城空间发展格局.doc
- 基于数据生命周期模型的国外数据期刊政策研究.pdf
- 基于摩擦修正的ta15钛合金热变形行为及加工图-精密成形工程.pdf
- 基于生态足迹模型的福建可持续发展研究-cnki.pdf
- 基于眨眼修正卡尔曼滤波的人眼跟踪研究-计算机工程.pdf
- 基于终端干扰和链路稳定性的多终端协同维护机制deviceinterference.pdf
- 基于经济发展方式转变的生态创新动力机制研究.pdf
- 基于简化基因组测序的大黄鱼耐高温性状全基因组关联-水生生物学报.pdf
最近下载
- DL∕T 637-2019 电力用固定型阀控式铅酸蓄电池.pdf VIP
- RoboSim虚拟机器人第三课-灯如流水.pdf VIP
- 22、啊哈C语言!逻辑的挑战(修订版)-2020-01-05.pdf VIP
- 《有余数的除法》.pptx VIP
- 山东第四届结构设计竞赛手册(终稿).pdf VIP
- 气排球比赛记分表格模板.doc VIP
- CMA测试试题培训资料.doc VIP
- 超星尔雅学习通《中华诗词之美》章节测试答案满分版.doc VIP
- 幼儿安全教案:会惹祸的阳台.doc VIP
- 第三单元 水溶液中的离子反应与平衡 (⼤单元教学设计)-【大单元教学】高二化学同步备课系列(人教版2019选择性必修1).pdf VIP
文档评论(0)