中文情感语意分析套件CSentiPackage发展与应用-图书馆学与资讯科学.PDFVIP

中文情感语意分析套件CSentiPackage发展与应用-图书馆学与资讯科学.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文情感语意分析套件CSentiPackage发展与应用-图书馆学与资讯科学.PDF

DOI: 10.6245/JLIS.201804_44(1).0002 中文情感語意分析套件CSentiPackage 發展與應用 陳韋帆 Bauhaus-Universität Weimar 博士生 E-mail: wei-fan.chen@uni-weimar.de 古倫維 中央研究院資訊科學所助研究員 E-mail: lwku@.tw 關鍵詞:中文處理工具;意見分析;情感分析;社群媒體資料分析 【摘要】 近年來,意見與情感分析技術漸漸為大家所注意且因網路環境之餘意見發表的便利性,文本 意見與情感分析技術的需求與應用也快速增加,然而在中文上,並沒有公開可利用的意見與情感 分析工具。本文介紹一個供研究使用免費且公開的中文情感語意分析套件:CSentiPackage ,套 件中包含多個可以用於中文情感語意分析研究所需要的各式工具,例如中文意見、構詞詞典、中 文意見樹庫、意見挖掘計分工具,及深度社群立場分析模型等。本文將詳細介紹各個工具的內容。 欲取得 CSentiPackage 套件及其使用方法,可從網址 / 之 Lab Homepage 分頁進入申請下載。 緒論 意見與情感分析旨在探勘目標文本所表達的意見或情感及其程度。意見一般指的是某個 發言者對某個目標的看法,可能是正面、負面、中立,以立場來說則是支持或反對;情感則 是指人類感受到的情感,例如快樂、傷心、憤怒、厭惡、害怕等。意見與情感分析包含所有 找出相關資訊並加以應用的技術。 意見與情感分析的研究,至今已約莫近十五年。從早期在意見分析上,只是做正面與負 面文章的二元分類,中期技術進展到進入句子與詞彙層次,並且能夠分析情感能量的強度, 近期更與社群媒體平台結合,與使用者資料共同運作,並引入了最新的深度學習技術,大大 提高了技術效能,使其應用的可能性更高,應用的範圍也更廣。 24 Journal of Library and Information Science 44 (1):24 – 41 (April, 2018 ) 意見與情感分析的技術,早期多是採用統計式或是簡單的機器學習模型。因為意見與 情感分析牽涉到較為複雜且深入的語意,若未深入考慮到語意層次,即使使用較複雜的學 習模型,效果未必能夠優於簡單的規則模型或關鍵字對應(keyword matching )模型。與自 然語言處理的技術發展模式雷同,意見與情感分析的技術,也是分成統計式與機器學習兩 線來發展,同時間混合型的模型也利用這兩線發展出的最新技術,疊加出更好的效能。近 五年來,由於社群媒體的興起及網路的普及,一般人開始在網路上抒發各式各樣的意見,包 括部落格的生活分享、開箱文、臉書粉絲團、論壇及商場的產品評價文,其他人也開始在網 路上搜尋可靠的意見分享文,做為他們平常生活的購買行為與議題看法的參考。在這樣的環 境下,意見與情感分析技術的重要性快速升溫並受到矚目,加上這兩年深度學習的技術帶 動了技術的精進,使得意見與情感分析的效能更趨成熟,並能夠應用在各領域的文件分析 工作中。 如上所述,意見與情感分析技術可用於各式文本的分析,最常見的就是產品評論的分析。 意見分析的困難之處,除了需要語意上的深入理解之外,由於它本質上屬於監督式的問題, 因此如果採用機器學習的方法,就需要正確標上意見或情感資訊的大量資料,才能夠訓練出 效能好的模型。剛好產品評論資料上使用者所給的星級滿意程度(一般為一到五顆星),大量 且快速地提供了研究所需的標準答案資訊,也就順勢成為意見與情感分析領域研究人員最常 討論開發與測試技術的文類。另外一個在此領域蓬勃發展的則是輿情分析,由於關心選舉及 公共事務的公民,經常於網路發表正反意見及各式討論且此類網路平台也逐漸增加,吸引了 不同族群的使用者,雖然這類主題的文章並沒有平台相關功能的支援來得到標準答案,但由 於應用端的需求,也促成許多研究人員投入人工標記資料的工作。 意見與情感分析也被用於許多資訊科學以外的不同領域,只要是文本的分析,牽涉到意 見與情感的部分都可能可以應用。例如,在醫學方面,可應用此技術分析憂鬱症病患的手稿, 偵測並自動警示病患可能的自殺傾向;在心理學治療方面,可藉由分析兩方交談的內容,自 動加以介入做適當的調解;在政治學方面,可分析兩國間的相關新聞及評論,以得知兩國關 係發展的參考資訊;在商業上分析出商品的優劣及優缺點可用於定價、廣告與行銷等等

文档评论(0)

sunguohong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档