- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识关键因子特征本章学习目标-mipaper
二、知識關鍵因子特徵
本章學習目標
明瞭知識關鍵因子特徵之相關議題
瞭解知識文件關鍵字之特徵與應用
瞭解知識文件標題之特徵與應用
瞭解知識文件結構之特徵與應用
探討知識關鍵內容之詞彙頻率/濃度特性
探討字節指標、提供者指標於知識分類之影響與應用
瞭解詞性因子對知識關鍵內容之影響
2.1 前言
由於資訊技術之普遍運用,各企業與機構之電子化文件不斷快速累積,如何利用自
動化技術快速、有效地協助人工進行文件分類,以應付大量暴增之分類需求,實為現今
資訊服務與知識管理之重要課題。目前文件自動分類大多採取文件關鍵字作為分類依
據,過去針對關鍵字擷取相關研究大多探討關鍵字擷取方法之改善,然甚少針對關鍵字
特性進行分析研究。有鑑於此,本研究針對關鍵字於文件中之發生頻率、位置等特性進
行探索,期能將分析結果應用於自動化關鍵字擷取,並使擷取之文件關鍵字更具代表性
與合理性;另一方面,若單純利用關鍵字資訊進行文件自動分類,可能因文件內容缺漏
而導致分類結果錯誤。因此,本章說明以文件內容結構與內容提供者為作為文件分類依
據,進而衍生之自動化文件分類分類演算法,以使文件分類結果更具合理性。透過關鍵
字擷取特徵與文件自動分類因子分析,將有利企業達成自動化知識管理之目標。
近年來,由於資訊技術之普遍運用,各企業與機構之電子化文件急速累積;文件數
量龐大以致於各組織難以有效地管理與利用,文件分類之需求亦因應而生。有鑑於此,
如何利用自動化解析技術,快速、有效地協助人工進行文件分類,以應付大量暴增之文
件分類需求,為現今資訊服務與知識管理之重要課題。另一方面,對於個人使用者而言,
30
透過網際網路可取得所需之文件資料或知識,為了讓使用者能於浩瀚無涯的網際網路環
境中快速有效地尋找所需資訊,文件分類為解決方法之一(亦即其能協助使用者以瀏覽
類別的方式搜尋相關文件)。
文件分類主要乃根據文件內容或主題給定對應類別;例如,新聞文件可依據其報導
之內容,指定予「政治」、「外交」、「娛樂」、「運動」等類別。通常,此些類別皆為事先
定義或選定,以符合管理者之需求與期望。而指定類別之工作過去多由人工閱覽文件,
並根據其主題大意給予適當之類別標示。面對大量激增之電子新聞文件,若能擷取文件
中重要資訊,進一步妥善地分析與應用此些資料,將可供後續資訊探勘或追蹤事件相關
報導之用。故文件分類可將非結構化資料轉換為結構化資訊,為資訊組織、主題分析與
知識管理之重要工具。整體而言,文件分類之目的在於針對文件進行分門別類之加值處
理,使文件易於管理與利用。
目前文件自動分類技術大多以擷取文件關鍵字作為分類依據;不僅如此,由於關鍵
字主要乃為呈現文件主題意義之最小單位,因此大部分對非結構化文件之自動處理,如
自動索引、索引典自動建立、自動摘要、自動歸類、相關回饋、自動過濾、事件偵測與
追蹤、知識探勘、資訊視覺化、概念檢索、檢索提示、關聯知識分析、自動化權威控制、
自動化詢答系統等,都必須先進行文件關鍵字擷取,再進行後續之分析處理。此亦即,
關鍵字擷取為所有文件自動處理的基礎與核心技術。關鍵字擷取之方法可大略分為統計
法、詞庫法、規則法或此三種方法合併運用(曾元顯,1997 )。過去相關研究大部分專
注於關鍵字之擷取方法與應用,若能針對關鍵字特性進行分析,將分析結果應用於自動
31
化關鍵字擷取方法,必能使擷取之關鍵字更具合理性與正確性。
文件分類自動化後,可引發更新、更便利之應用,除了提供館藏瀏覽(Collection
Browsing )、主題檢索(Topic-Based Retrieval )、文件管理(歸檔、調閱、分享)外,尚
可應用於網頁過濾、電子郵件過濾、資訊選萃(SDI ,Selected Dissemination of
Information )、資訊配送(Information Filter or Routing )、甚至文字探勘(Text Mining )、
新知發掘(Knowledge Discovery )、知識管理(Knowledge Management )等領域(曾元
顯,2002 )。與文件檢索相似,舉凡涉及非結構化文件之處理課題,皆可發現文件分類
文档评论(0)