- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网路中文文件自动摘要.PDF
網路中文文件自動摘要
黃純敏 吳郁瑩
資訊管理系副教授 資訊管理系碩士班研究生
國立雲林科技大學 國立雲林科技大學
斗六/台灣 斗六/台灣
huangcm@.tw wuyy@.tw
摘要 作習慣 ,這使得各式各樣電子型式的資
傳統搜尋引擎自動摘要設計方式 料大量出現 ,網際網路儼然成為前所未
多半截取網頁的前幾十個字元 ,作為輔 有的知識大寶庫 。為協助使用者找尋資
助性說明 。惟觀其所截取的文句 ,多無 料 ,各種搜尋引擎(search engine)也積極
什意義 ,非但無法提供充足的內文判斷 扮演著導路的角色 。然而 ,當使用者下
資訊 ,更甚者 ,或可能誤導了使用者。 達一個搜尋指令時 ,搜尋引擎動輒回報
本研究剖析網路文件標記特性及中文 數百筆 ,甚至數千筆以上的資訊 。五彩
字詞詞性,研發跨主題的自動摘要系 繽紛的網頁內文,原多未附含摘要敘
統 。經使用者實際測試後 ,在網頁內容 述 ,有些搜尋引擎雖然已有自動摘要之
判斷 、摘要可讀性 ,以及選用意願的評 設計 ,惟其設計方式多半截取網頁的前
估項目 ,優於目前一般搜尋引擎的自動 幾十個字元 ,作為輔助性說明 ,由於網
摘要設計 。經交叉比對分析 ,發現年齡 路文件有其特殊的寫法 ,觀其所截取的
在 20 歲(含)以上者 ,以及學歷愈高者 文句 ,多無什意義 ,非但無法提供充足
(研究所以上),有極顯著偏好本研究 的內文判斷資訊 ,更甚者 ,或可能誤導
的自動摘要之傾向。是否透露不同年齡 了使用者。
層與學歷程度對摘要有不同的需求 ,則 文件自動摘要雖已是自然語言處
有賴未來繼續研究。 理(Natural Language Processing, NLP)
的重要標的之一 。然而對於所擷取語句
關鍵詞:自動摘要 、中文斷詞、網路超 的可讀性 、前後文句的連慣性 ,卻一直
文件、資訊檢索、搜尋引擎 難有重大突破 。對於網路文件自動摘要
的研究 ,並未見著墨 。即是目前風行的
搜尋引擎,也僅著重於搜尋機制的改
一、前言
良 ,對於搜尋結果的自動摘要呈現 ,多
傳統上,一般學術性質的期刊, 僅視為可有可無的附屬功能 。使用者對
多半會提供簡短的摘要 ,作為輔助使用 於查詢結果仍需逐筆連結進入各網頁
者瞭解論文大意或判斷是否進一步閱 瀏覽 。在頻寬有限的網路環境裡 ,超連
讀全文的參考 。近年來由於全球資訊網 結使用之頻繁 ,對於網路傳輸之負擔不
(World Wide Web)的普及 ,帶動許多上 蒂雪上加霜 。因此引發我們開發可讀性
網的人口 ,也改變了一般人的閱讀及寫 網路文件摘要系統的動機 ,希藉此配合
搜尋引擎的檢索結果,自動展現足以表 外,其結果應仍不脫『言簡』『意垓』
達網頁內文的簡短摘要,一則節省使用 之效。
者逐筆進入網頁瀏覽的時間花費,更可
減少大量不必要的資訊傳遞,提升網路
文档评论(0)