改良Boyer-Moore搜寻演算法于中文之应用.PPTVIP

改良Boyer-Moore搜寻演算法于中文之应用.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改良Boyer-Moore搜寻演算法于中文之应用

改良Boyer-Moore搜尋演算法於中文之應用 李炯三 國立台北護理學院 資管系教授 專業證照: CCNP / CCDP / CCNA / MOS CCIE Written 95年11月1日 大綱 摘要、前言 相關研究 發展適合中文字特性的字串搜尋方法 中文字的特性 每個中文字出現的頻率都不一樣 Yahoo!奇摩新聞的用字做調查 中文字使用頻率不同的特性 BM演算法 改良的BM演算法 BM演算法與改良方法的效能指標比較 摘要 利用中文字出現頻率不同的特性,來修改比對的順序,使其在中文字串的搜尋上發揮更大的效能。 以先比對搜尋字串中「最不常使用字」的方式,讓比對的次數降低,以增進搜尋的效率。 計算比對字串所需次數與搜尋到字串前跳過字數之比值,本方法效能指標約為BM演算法的一半。 前言 搜尋是一項很重要的議題 網頁搜尋 電子書 如何在大量的文字之中,找到特定的字串(pattern),便是我們所關心的事情 相關研究 暴力搜尋法(brute force searching)是從文字的開頭比對字串,並從字串的最左邊一個字元開始比對 BM演算法(Boyer-Moore algorithm)則是從搜尋字串的最右邊一個字元開始比對,並試圖跳過一些不可能具有該搜尋字串的字元 發展適合中文字特性的字串搜尋方法 改自BM演算法的方法 用來尋找特定中文字串出現在文章中的位置 增加比對不吻合(mismatch)的機率來減少比對的次數 中文字的特性 詞與詞之間並沒有用符號分隔,不像英文單字間會以空白分隔 每個中文字出現的頻率都不一樣 每個中文字出現的頻率都不一樣 在蔡登傳、羅書宜的台灣地區中文新聞常用字彙的調查研究中 統計3,600餘則新聞共260餘萬字後 這些新聞共用到5,235字 95%的中文字是由1,519的最常用字所組成的 其中最常用的字是「的」,佔了3.37%。 Yahoo!奇摩新聞()的用字做調查 統計的期間從2005-11-20到2005-11-26 在分析了這一週內的1,042則新聞共442,601字後 發現總共使用了4,051個中文字 最常使用的字是「的」,佔了文章總字數的2.56% 最常出現的標點符號是「,」,佔了3.02%。 總字數95%的最常用字是由1,449個中文字所組成的。 中文字使用頻率不同的特性 BM演算法 BM演算法試圖跳過一些不可能具有該搜尋字串的字元,並且是從搜尋字串的最右邊一個字元開始比對 如果比對的字元沒有出現在要搜尋的字串中,也就是所謂的比對不吻合(mismatch),則可以直接跳過與字串等長的字元 使用BM演算法搜尋字串「幾個四」 BM效能指標 計算找到搜尋字串所需要的比對次數與在找到字串前跳過的字數之比值 當比對次數越少時,效能指標也越小 在上圖例子的搜尋,BM演算法的效能指標為0.74(=20/27) 改良的BM演算法 讓比對字串的順序不再是從最右邊的字元開始,而是從最不常用字開始比對 可以增加比對不吻合的機率,進而減少比對的次數 實做時,將需要建立一個中文字的出現頻率表,從頻率表中出現次數最少的字 依照「幾」「個」「四」出現在文章中的次數來安排比對的順序,也就是從最少出現的「幾」開始比對,然後是「個」,最後才比對「四」 使用改良的BM演算法搜尋字串「幾個四」 改良的BM演算法之效能指標 共比對15次就找到搜尋的字串。在圖二例子的搜尋,改良的BM演算法之效能指標為0.56(=15/27)。 BM演算法與改良方法的效能指標比較 效能提昇百分比 李炯三 國立台北護理學院 資管系教授 專業證照: CCNP / CCDP / CCNA / MOS CCIE Written 95年11月1日 * * 1449字 1519字 佔總字數95%的最常用字 4051字 5235字 總共所使用的中文字 1 (0.0002%) 1 (0.000038%) 最罕用字出現次數(佔百分比) 11346 (2.56%) 78170 (3.37%) 最常用字出現次數(佔百分比) 4.4*105字 2.61*106字 文章的文字總數 網路新聞 中文報紙[9] 項目 謝謝大家 敬請指教

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档