- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
以资讯熵及古德–图灵估计法进行网路新闻推荐
以資訊熵及古德 –圖靈估計 法進行網路新聞推薦
Harnessing Entropy and Good–Turing Estimation to
Internet News Recommendation
1 2 1,2,* 2 3
Yu-Min Zhang, Xun Zhou, Ying-Chih Lin, Chun-Yao Wang and Wei-Kuang Wang
1Department of Applied Mathematics,
2Industrial Ph.D. Program of Internet of Things,
3Department of Environmental Engineering and Science,
Feng Chia University, Taichung, Taiwan, R.O.C.
*
yichlin@.tw
摘要 土地公)就以長詞優先法(maximum matching)為基
礎 [1] 。這個作法的運算原則是「長詞優於短詞」,
民國以後,我們的媒體之多前所未有,媒體的 也就是由句子的一端開始,試著比對出在詞庫中
立場之廣亦是前所未見,對於單一事件如不攝取 最長的詞作為斷詞的結果。例如詞庫裡有「土地
多方觀點,不免落入意識形態囹圄的窘境。亙古亙 公」、「土地」、「公」這三個字詞,當在文章中遇到
今,訊息的流傳至關重要 ,而在今日更是如此;同 「土地公」時會優先把這三個字斷在一起,而非斷
時在這個資料量爆炸的時代,網路媒體多不勝數, 成「土地」與「公」兩個詞;接著將最大匹配後的
連最貼近我們生活的新聞亦是各家網媒眾說紛紜, 詞排除,剩餘部分再重複利用 長詞優先法進行斷
對於閱讀網路新聞的民眾而言,想要在這個資訊 詞,直到處理完整篇文章為止。一般來說,如果使
洪流中得到一個事件完整且客觀的面貌,實屬不 用的詞庫夠大, 文獻指出長詞優先法斷詞可達到
易。因此本研究藉著建構一個整合網路爬蟲、中文 90% 以上的斷詞準確率[2] ,在複雜性與成本考量
斷詞、信息熵、古德圖靈估計- 法等技術的即時新 的情況下,這個作法有還不錯的效果。
聞推薦系統,使讀者在閱讀新聞時,此一系統將能
迅速地找出相關網站的新聞,並將新聞按照資訊 台灣社會在民主化浪潮的席捲下,再加上網
量的多寡加以排序,最後推薦予讀者。此舉讓讀者 際網路的普及,立場不再被箝制的網路媒體(簡稱
能通盤掌握整個事件的各個面向,節省許多精神 「網媒」)越來越多,且各家網媒對事件的描述往
與時間。本研究的實驗是針對各種類型的 網路新 往自行其是,更甚者有斷章取義的情形發生。從一
聞進行 推薦 效果的測試,結果顯示對於泛政治類 個多元化社會的角度來看,這些從不同角度切入
的新聞有 不錯的推薦效果 。 的文章報導正好突顯出各種不同的觀點,但是網
媒針對特定事件而不同觀點立場的描述,往往模
1. 介紹 糊了焦點,表達出來的意見也常常莫衷一是。描述
同一事件時,各家網媒發佈的新聞內文除了既有
語言是人類重要的溝通媒介, 而描述一個事 的政治立場、觀點外,尚有文章資
文档评论(0)