基于机器学习方法的中文微博情感分类方法研究1.pdfVIP

下载本文档

5
0
约1.45万字
约 12页
2017-11-04 发布于天津
举报
版权申诉

基于机器学习方法的中文微博情感分类方法研究1.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

語文硏究與創作 (第十五期) 2011 基於機器學習方法的中文微博情感分類方法研究1 戴敏、龐磊、李壽山蘇州大學提要隨著互聯網的迅速普及 web2.0 的快速發展，微型博客(簡稱微博)越來越受到網路使用者的青睞，成千上萬的用戶通過發佈微博共用他們的觀點和情感。因此，微博漸漸成為研究意見挖掘和情感分析非常寶貴的意見資源。本文通過對新浪微博 (目前最大的中文微博平台)搜集了“國產電影” 和“高鐵”兩個領域話題的微博語料，並進行了人工標注，將微博分為三個情感類別：正面評價、負面評價和客觀陳述。在此基礎上，文本分別採用最大熵模型、支援向量機和樸素貝葉斯三種機器學習方法的分類對這兩個領域的微博進行分類，考察監督學習方法在中文微博情感分類任務中的性能。實驗結果表明基於機器學習方法的分類方法能夠在中文微博情感分類任務上面取得很好的分類效果。 1. 引言微博，即微博客(Micro-Blog)的簡稱，是一個基於使用者關係的資訊分享、傳播以及獲取平台，用戶可以通過 WEB 、WAP 以及各種用戶端元件個人社區，以 140 字左右的文字更新資訊，並實現即時分享。最早也是最著名的微博是美國的 twitter ，根據相關公開資料，截至 2010 年 1 月，該產品在全球已經擁有 7500 萬註冊用戶，而到 2010 年底，用戶數量已達 2 億。在中國，微博也如火如荼的發展，從 2009 年 8 月發佈新浪微博截止到 2010 年 12 月，僅 15 個月的時間，新浪微博註冊用戶便達到 6000 萬，用戶每天要發佈 2500 萬條微博內容。隨著微博在中國的興起，其他例如騰 1 基金專案：國家自然科學基金資助專案戴敏、龐磊、李壽山：基於機器學習方法的中文微博情感分類方法研究訊、網易、搜狐等也推出了微博服務，使用者數量也相當可觀。至此，微博成為中文上網人群的又一大關注熱點。微博越來越受到網路使用者的青睞，成千上萬的用戶通過發佈微博共用他們的觀點和情感。在這些海量的文本資訊中，有很大一部分是帶有情感的文本資訊。這些情感文本資訊是非常寶貴的意見資源。因此，自動分析微博中的情感資訊是一個非常有價值並迫切需要解決的應用任務。目前，針對情感文本分類研究任務，主流的方法是基於機器學習的方法，該方法利用統計機器學習分類方法學習標注樣本，然後用學習好的分類器測試非標注樣本。這種方法要比基於規則的方法在分類性能上有明顯的優勢(Pang et al., 2002) 。但是，所有的機器學習的方法都需要用標注樣本進行訓練，才能得到一個比較好的分類器。在已有的相關研究中，已有的標注樣本都是來自網頁文本或者普通文本，並沒有微博相關的情感標注語料。值得注意的是，微博文本明顯區別於傳統的其他形式的文本，例如：微博的單篇文本長度有限，一般限定在 140 字內，是非常簡短的文本。此外，微博發佈形式靈活，表現非常自由，文本的格式並不正規。因此，直接使用以往的標注樣本很難適應微博的情感分類。為了彌補微博標注樣本缺乏的不足，本文首先通過對新浪微博搜集了“國產電影”和“高鐵”兩個領域話題的微博語料，並進行了人工標注，將每篇微博分為三個情感類別：正面評價，負面評價，客觀陳述。然後，分別採用最大熵模型、支援向量機和樸素貝葉斯三種機器學習方法的分類對這兩個領域的微博進行分類，考察基於監督學習方法在中文微博情感分類任務上面的性能。不同於英文的情感分類方法，中文的文本並沒有明顯的詞界限分隔，因此我們還將重點採用字的 unigram 和 bigram 作為特徵進行情感分類。本文的其餘部分做如下安排：第 2 節對近年在普通情感分類及基於微博的情感分類的相關研究工作介紹；第 3 節詳細介紹本文使用的三種機器學習分類方法。第 4 節給出實驗結果與分析；最後 2 戴敏、龐磊、李壽山：基於機器學習方法的中文微博情感分類方法研究一節是本文的結論和下一步工作介紹。 2. 相關工作 2.1 普通情感分類方法研究情感分類是按照文本表達的情感傾向性對