- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
以功能詞及知網為基礎之軟體搜尋系統.doc
以功能詞及知網為基礎之軟體搜尋系統
魏世杰淡江大學資訊管理研究所陳世偉淡江大學資訊管理研究所
摘要
本文提出「功能詞」的概念,並配合中文詞知識庫「知網」[],建置一軟體搜尋系統,讓使用者能以隨意句子搜尋其所需之軟體。根據實驗的結果,「功能詞」概念確實能有效的提升查詢的準確率。關鍵詞:軟體搜尋系統、知網、詞語相似度、功能詞
緒 論
電腦硬體的功能日趨強大,使得無論是上班族、家庭主婦或是學生都可利用電腦軟體輕鬆的完成工作,因此,能正確地找到符合需求的軟體將帶給使用者無比的便利。
綜觀國內幾個大型的軟體下載網站如:CNETTaiwan[1]、PChome toget [2]、軟體王[3]等,目前提供的軟體搜尋包含兩種:一種是事先將各軟體以人工加以分類(如:系統工具、安全防護、檔案傳輸…等等),再由使用者依所需軟體的類別一層一層的尋找;另一種是以關鍵字搜尋軟體相關資訊(如:軟體名稱、軟體公司、軟體說明、檔案名稱…等等)。前者會因為每個人的認知不註:CNETTaiwan, , 2003.註:PChome toget, .tw, 2003.註:軟體王 .tw , 2003.
同,讓不熟悉軟體領域的使用者在其所認知的分類中找不到軟體的窘境;後者則會因為傳統關鍵字搜尋的缺陷,或使用者的用詞,使得搜尋的準確率不高。因此,在本研究中,我們期望藉由提出「功能詞」的概念以及利用中文詞知識庫「知網」(Hownet)來作詞語義比對,建構一基於自然語言技術之軟體搜尋系統,以幫助使用者能有效率地尋找適用的軟體。本論文章節安排如下:第貳章介紹傳統檢索模型、中文詞知識庫「知網」以及詞語義比對之相關研究;第參章對所提出的「功能詞」概念加以說明;第肆章介紹系統架構;第伍章為系統評估;最後,第陸章是結論,並提出未來的研究方向。
2. 文獻探討
2.1 傳統檢索
傳統檢索系統皆以布林模型(Boolean Model)、向量模型(Vector Model)以及機率模型(Probabilistic Model)為基礎[,3,4,5],三種模型皆有一共同的缺陷,即與查詢句相關的某文件會因使用者與文件作者的用詞不同,使得該文件無法被檢索出來。
因此我們認為若能解決同義詞在檢索時所造成的問題,將可進一步提升檢索的準確率。我們以中文詞知識庫「知網」作為基礎知識,直接計算查詢句與文章中句子的相似度,以求得最符合查詢句需求的軟體。然而,文章中有些句子是與軟體功能的描述毫不相干,這樣的雜訊應該透過某種方法先篩選掉。李坤霖[]提出藉由問句的比對來完成自然語言檢索的方式,經由對一個問句的分析,得到關鍵詞部份(keyword segment)以及意圖部分(intention segment),藉由這兩個部份的比對來計算問句的相似度,而內文的部分則仍使用向量空間模型做全文檢索。這樣的作法,能夠先篩選出具有相同意圖的問句來作比較,不過描述軟體的內文多為直述句,並無法輕易取出意圖部分。
2.2 知網
知網(英文名稱為Hownet)是一個以漢語為主的詞語所代表的概念為描述物件,以揭示概念與概念之間以及概念所具有的屬性之間的關係為基本內容的常識知識庫。知網描述的常識知識,包括概念與概念之間種種不同的關係,如上下位關係、近義關係、反義關係、部件與整體間的關係、屬性與宿主之間的關係、材料與成品之間的關係、對逆關係、動態角色關係和概念同現關係[]。知網的樹狀常識定義架構使得中文計算機語言處理更接近語意的層面。
2.3. 詞語義比對
「知網」透過一系列的義原,以其知識描述語言來描述一個概念,而這些義原以上下位關係組成一個樹狀義原層次架構。劉群和李素建[]提出詞語義相似度計算的方法,針對以此種知識描述語言表示的兩個概念進行相似度計算。
(1)
SimW:詞彙相似度SimC:概念相似度W1,W2:詞彙C ij:i 詞彙之第 j 個概念
(2)
C 1,C 2:概念(C 1,C 2 分別為詞彙概念C 1i 與C 2j 的某一概念)βi:βi(1 ≤ i ≤ 4)是可調節的參數,且 β1+β2+β3+β4=1,β1 ≥ β2 ≥ β3 ≥ β4Simj:概念描述中各義原類別的相似度。
義原是以上下位關係組成一個樹狀義原層次架構,在這個架構中,藉由簡單的詞語距離概念可以知道兩個詞語的距離越大,其相似度越低。假設兩個詞語在該樹狀層次架構中的距離是d,義原相似度的計算即如公式()。
(3)
d:p1, p2在義原層次架構[]中之路徑長度(:為一可調節參數,原文[]中(=1.6。
功能詞
由於描述軟體的內文多為直述句,無法輕易取出意圖部分。根據這樣的概念以及我們的觀察發現,一個直述句中動詞與名詞或動詞間的連續組合,常常可以代表該句子對於軟體功能的描述。我們利用中央研究院詞庫小組(CKIP)
您可能关注的文档
最近下载
- 兴边富民工程实施方案(3篇).docx
- 苏科版八年级数学上册压轴题攻略专题03解题技巧专题:判定三角形全等的基本思路压轴题三种模型全攻略(原卷版+解析).docx VIP
- 卡通手绘风班干部竞选自我介绍PPT模板(二零二五学期版).pptx VIP
- 带锯机安全生产操作规程.pptx
- 第3课 古代印度 课件(共34张PPT).pptx VIP
- 公共政策3政策的资料搜集与方法剖析.ppt VIP
- 专题04 解题技巧专题:判定三角形全等的基本思路压轴题三种模型全攻略(解析版).docx VIP
- 2025年健康管理师技能证书全国考试题库(含答案).pdf VIP
- 写景抒情散文阅读.doc VIP
- 中小学班级卫生值日表 模板.docx VIP
文档评论(0)