基于机器学习方法的中文微博情感分类方法研究1.pdfVIP

基于机器学习方法的中文微博情感分类方法研究1.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
語文硏究與創作 (第十五期) 2011 基於機器學習方法的中文微博情感分類方法研究1 戴敏、龐磊、李壽山 蘇州大學 提要 隨著互聯網的迅速普及 web2.0 的快速發展,微型博客(簡稱 微博)越來越受到網路使用者的青睞,成千上萬的用戶通過 發佈微博共用他們的觀點和情感。因此,微博漸漸成為研 究意見挖掘和情感分析非常寶貴的意見資源。本文通過對 新浪微博 (目前最大的中文微博平台)搜集了“國產電影” 和“高鐵”兩個領域話題的微博語料,並進行了人工標 注,將微博分為三個情感類別:正面評價、負面評價和客 觀陳述。在此基礎上,文本分別採用最大熵模型、支援向 量機和樸素貝葉斯三種機器學習方法的分類對這兩個領域 的微博進行分類,考察監督學習方法在中文微博情感分類 任務中的性能。實驗結果表明基於機器學習方法的分類方 法能夠在中文微博情感分類任務上面取得很好的分類效 果。 1. 引言 微博,即微博客(Micro-Blog)的簡稱,是一個基於使用者關係的資 訊分享、傳播以及獲取平台,用戶可以通過 WEB 、WAP 以及各 種用戶端元件個人社區,以 140 字左右的文字更新資訊,並實現 即時分享。最早也是最著名的微博是美國的 twitter ,根據相關公 開資料,截至 2010 年 1 月,該產品在全球已經擁有 7500 萬註冊 用戶,而到 2010 年底,用戶數量已達 2 億。在中國,微博也如火 如荼的發展,從 2009 年 8 月發佈新浪微博截止到 2010 年 12 月, 僅 15 個月的時間,新浪微博註冊用戶便達到 6000 萬,用戶每天 要發佈 2500 萬條微博內容。隨著微博在中國的興起,其他例如騰 1 基金專案:國家自然科學基金資助專案 戴敏 、龐磊 、李壽山 : 基於機器學習方法的中文微博情感分類方法研究 訊、網易、搜狐等也推出了微博服務,使用者數量也相當可觀。 至此,微博成為中文上網人群的又一大關注熱點。 微博越來越受到網路使用者的青睞,成千上萬的用戶通過發佈微 博共用他們的觀點和情感。在這些海量的文本資訊中,有很大一 部分是帶有情感的文本資訊。這些情感文本資訊是非常寶貴的意 見資源。因此,自動分析微博中的情感資訊是一個非常有價值並 迫切需要解決的應用任務。目前,針對情感文本分類研究任務, 主流的方法是基於機器學習的方法,該方法利用統計機器學習分 類方法學習標注樣本,然後用學習好的分類器測試非標注樣本。 這種方法要比基於規則的方法在分類性能上有明顯的優勢(Pang et al., 2002) 。但是,所有的機器學習的方法都需要用標注樣本進 行訓練,才能得到一個比較好的分類器。在已有的相關研究中, 已有的標注樣本都是來自網頁文本或者普通文本,並沒有微博相 關的情感標注語料。值得注意的是,微博文本明顯區別於傳統的 其他形式的文本,例如:微博的單篇文本長度有限,一般限定在 140 字內,是非常簡短的文本。此外,微博發佈形式靈活,表現非 常自由,文本的格式並不正規。因此,直接使用以往的標注樣本 很難適應微博的情感分類。 為了彌補微博標注樣本缺乏的不足,本文首先通過對新浪微博搜 集了“國產電影”和“高鐵”兩個領域話題的微博語料,並進行 了人工標注,將每篇微博分為三個情感類別:正面評價,負面評 價,客觀陳述。然後,分別採用最大熵模型、支援向量機和樸素 貝葉斯三種機器學習方法的分類對這兩個領域的微博進行分類, 考察基於監督學習方法在中文微博情感分類任務上面的性能。不 同於英文的情感分類方法,中文的文本並沒有明顯的詞界限分 隔,因此我們還將重點採用字的 unigram 和 bigram 作為特徵進 行情感分類。 本文的其餘部分做如下安排:第 2 節對近年在普通情感分類及基 於微博的情感分類的相關研究工作介紹;第 3 節詳細介紹本文使 用的三種機器學習分類方法。第 4 節給出實驗結果與分析;最後 2 戴敏 、龐磊 、李壽山 : 基於機器學習方法的中文微博情感分類方法研究 一節是本文的結論和下一步工作介紹。 2. 相關工作 2.1 普通情感分類方法研究 情感分類是按照文本表達的情感傾向性對

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档