- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
從零散中建立脈絡-超鏈結文件的自動建立- 組員:9142035楊慧霞 9142036葉懿慧 9142037郭怡青 9142038黃于真 9142039池燕茹 8811026蘇筱雯 一、背景描述 公司為了達到組織內部知識最大化 的理想,進行一連串的計畫,就在 完成內部文件定義及擷取步驟的時 候,在「整合片段文章成為結構式 完整文章」的階段上遇到了瓶頸。 二、問題原因 公司選擇web作平台,並將所有文件轉成網 路流通的形式。 【優點】網路超文件環環相扣。 【缺點】經整理過的文件數量依舊龐大,在 作文件間的超連結時須依靠大量人 力去逐字比對,相當曠日費時。 三、開發動機 為了解決上述的例子,只能靠人力建立 超連結文件。此外,增進組織內部文件 web化的效率及速度,達成知識文件的 整合,做到知識最大化的目標。 四、應用實例之一 電子書(此指具有專門主題性質之電子書) 《方法一》利用搜尋或索引 (缺點):不方便 《方法二》利用「自動建立超鏈結」 (優點):提高效率並且獲得知 識的完整性 應用實例之二 FAQ( Frequently Asked Question ) 問題??答案 FAQ 但要是在答案中又遇到不懂的詞彙時: ?????? 找到答案中的問題解答 利用自動建立超鏈結 五、概念及解決方案Step1:斷出詞彙 字義的最小單位是詞而不是零散的字,為了系統處理上的方便,在分析文章前,斷詞是最基本的手續。 斷詞的方式大致分為兩種: 1. 詞彙語意的研究。 2. 利用現有的、已經建立的詞庫去 比對。 方法2. 利用現有的、已經建立的詞庫去比對 利用: 研究機構釋出的階段性詞庫。 優點: 減少方法1初期研究所花費的大量 時間與資源。 缺點: (1)會漏掉詞彙庫裡缺少的辭彙。 (2)沒有彈性。 以上兩種方法,我們選擇了第2種,並針對缺點做了兩項補救: 建立〝使用者推薦關鍵字〞的功能詞彙庫,可以不斷擴充有彈性。 另外有〝STOP WORD字庫新增刪除〞功能,可以過濾掉不重要的詞。 【註】STOP WORD--- 在文章裡出現次數頻繁但不重要的字詞 ex:(我們、你們、 的、是……),在下一步驟關鍵字分析時會直接略過。 振作點! 才報告到一半呢! 不要打瞌睡喔! Step2:取出關鍵字 目的:取出有代表性的辭彙作為連結文 件的指標。 方法: 1. TF法 2. TFxIDF法 3. TF與TFxIDF混合法 1. TF法: 按照出現次數多寡選出關鍵字,出現次數 越多越有代表性。 2. TFxIDF法 : 如果某個詞在所有的文章都出現過,重要 性似乎就沒那麼高,這時就可以利用此方 法對這個詞做重要性的刪減。 (F=全部文章數, N=某詞出現過的章數) 3. TF與TFxIDF混合法: (由來):在運用方法二時,若一個詞出現在各 文章的頻率過低,算出來的IDF值會 過高而失真。 (因此) :在算完TFxIDF值後,再以TF作一 次正確性的修正,此為TF與TFxIDF
文档评论(0)