tfidf觀念於自動摘要實作評估-read.ppt

下载文档 降价啦

3
0
约2.83千字
约 28页
2017-03-06 发布于天津
举报
版权申诉
保障服务

tfidf觀念於自動摘要實作評估-read.ppt

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

tfidf觀念於自動摘要實作評估-read

Outline 1.前言 2.TFIDF演算法介紹 3. 應用TFIDF 觀念於自動摘要實作評估 4.結論前言詞頻 Term Frequency, TF 的觀念起源於 Luhn,1958 從進行自動索引的實驗中，為統計詞彙的出現頻率，發現除卻高頻與低頻者，所留下的中頻（middle-frequency）字詞，多半是比較有意義的，因而提出「關鍵字詞適度詞頻論」 resolving power of significant words 。前言而後引發日後諸多學者如：Sparck Jones 1972 , Salton McGill 1983 等人投入自動文件處理的興趣。一般自動索引的主題分析主要可以歸納成三種不同的方式: 1.語意（semantic） 2.語法（syntactic） 3.統計（statistical）統計學派可以說是三種方式中的主流，多數的自動摘要與自動分類也遵循Sparck Jones與Salton所建構，以文件詞彙頻率為主的統計學派。其中TFIDF方法就是計算文件詞彙頻率,常用的方法。 Term frequency and Document Frequency Term frequency tfij: the number of occurrences of Tj in Di Document Frequency dfj : document frequency of term Tj is number of documents in which Tj occurs Inverse Document Frequency Inverse Document Frequency IDF for term Tj 應用TFIDF 觀念於自動摘要實作評估嘗試以文句中重要關鍵詞出現的頻率及其與逆向文件的關係，推估句子的重要性，採TFIDF 觀念用以計算句子權重，並擷取權重值排行在前的句子用以組合成摘要。擷取網路的超文件以聯合新聞網、中央日報網和台灣新生報網三個網站的文件為擷取對象。其中聯合新聞網的文章篇數計擷取18758 筆、中央日報的新聞11864 篇，台灣新聞報則是摘取近三年來的社論資料544 筆。總計類別包括了社論、經貿、政治、科技、藝文專欄、國際新聞、休閒等七類。關鍵詞萃取作業英文：對於英文的處理，我們透過多重判斷處理包括半形字元、全形字元、全形符號字元及注音符號處理之後，利用停用字詞表去除停用字 Stopword ，再將英文關鍵字載入表格。關鍵詞萃取作業中文: 在字詞處理方面，本研究以詞庫斷詞法進行斷詞作業，為顧及辭彙的有效及新穎性，採中研院八萬詞目，加上最近教育部國語推行委員會所公佈的新詞語料庫，進行關鍵詞的篩選。關鍵詞萃取作業以2 字詞到9 字詞為主，並以長詞為優先選取對象。基於字數越長的詞出現的機率越少，實質代表的意義卻越重要，因此對於字詞長度均以加乘本身字數的方式，進行加權如：〔知識〕出現10 次，轉換後〔10次*2 字詞 20 次〕，〔知識管理〕原出現5次，轉換後〔5 次*4 字詞 20 次〕，藉由加權方式，以提高長詞的詞頻權重。重要句子擷取作業字詞選取原則須符合詞頻要夠、類別集中 conformity 、本類分佈廣 Uniformity 的原則。因此關鍵詞彙的權重多以詞頻與逆向文件頻率的內積 TF * IDF 計算出，句子的權重則包括所有出現在該句子的重要詞彙權重總合。計算公式如下: 1 TFij 代表單字j 在文件I 的出現頻率 2 N：代表所有文件的總數 dfj ：代表單字j 有出現過的文章總數這兩者相乘之後，即代表修正過後的關鍵詞TFij在文件D的加權 weight ，如下式所述：句子中各個詞彙的TF*IDF 值經算出後，進行加總所得出的值，即象徵該句子的權重。例若有一個關鍵詞 ”大學“ 在一篇文章出現10 次,而此篇文章共有100個關鍵詞,所有文件集合共有10000篇文章,而 ”大學”一詞在10000篇文章內,曾出現在5篇文章 TF 10/100 0.1 IDF log 10000/5 ≒11 加權值 0.1*11 1.1 產生自動摘要摘要的目的在於產生一個言簡意垓的文件描述，它應比文件標題更具敘述性，但又短的可讓人一眼就明瞭內文意旨。利用 TFIDF方法用以計算句子權重，並擷取權重值排行在前的句子用以組合成摘要。摘要的評估一般認為是一件困難且主觀的工作，所以以人工評選句子的交集率作為比對依據。文件樣本乃隨機抽取自實驗資料庫中，字數在1000 字以上的文件60 篇,每篇文件由三位受測者進行評選，每位受測者最多評選5 篇。