网站大量收购独家精品文档,联系QQ:2885784924

基于词汇式大字符集二阶预测模型之文本资料压缩.pdf

基于词汇式大字符集二阶预测模型之文本资料压缩.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于词汇式大字符集二阶预测模型之文本资料压缩

基於詞彙式大字符集 、二階預測模型之文本資料壓縮 Text Compression Based on Word-Based Large Alphabet and Order-Two Prediction Model 古鴻炎 溫智旻 Hung-Yan Gu and Chih-Ming Wen 國立台灣科技大學資訊工程系 e-mail: guhy@.tw http://www.csie. .tw 摘要 每次要處理的符號單位的大小 ,將取出的“符號單 位”(token)送到模式組件去估算機率 。 本論文研究基於詞彙式大字符集之 文本資料 對英文文章剖析的相關研究 ,如文獻[13]中 壓縮方法 ,將中、英文檔案 以詞彙為單位剖析出 將大字符集的觀念應用到一些常用的壓縮演算法 token ,再對 token 以二階混合式預測模型或部分匹 上面 ,將英文文章的組成分類成字母、數字字串 配預測模型來估算出現機率 ,接著以算術編碼對該 (alphanumeric string) 與標點符號字串(punctuation 機率編碼 。由於字符集很 大,影響預測模型的處理 string) 兩類,因此一篇文章看成是不等長度之兩類 速度 因此我們也, 研究一些可以加快 處理的方法 。 字串所串成,並且把每個字串當作一個token ,此 將上述想法實作為實際可壓縮 、解壓縮的程 外在他們的研究中也嘗試將英文詞彙分詞性來增, 式後 ,作壓縮率的測試實驗 ,再和 PPMd 、bzip2 、 加預測的準確性 。後來 Moffat 、Neal 、Witten 在 及 GZIP程式作比較 。對於中文檔案 ,我們的平均 1995 年提出的論文中[8] ,對算術編碼作一些配合 壓縮率 ,比PPMd 好 1.12% ,比bzip2 好5.48% , 大字符集處理的修改,他們的剖析處理與文獻 [13] 比GZIP 好 17.02% 。對於英文檔案 ,平均壓縮率 裡的相同 ,並限制每個字串的最大長度為16個字 則 比PPMd 好0.29% ,比bzip2 好2.04% ,比GZIP 元。另外在 2005 年由Gu提出的論文中[10] ,對英 好 12.08% 。所以 ,文本資料壓縮率的改進,相當 文文章採用類似中文文章的剖析方法,依照一些判 不容易 ,而本研究或多或少都得到了一些改進 。 斷規則,一次取一個或兩個byte作為 token 。 在中文文章剖析方面 ,論文 [9]中有提到許多 關鍵詞 :資料壓縮 ,大字符集,算術編碼 過去中文壓縮相關的研究 ,而他們自己的研究,對 中文文章一次取兩個 byte 為token ,實驗結果顯示 1. 前言 壓縮效果比取一個 byte 為 token還好 。在論文[14] 中 ,將大字符集觀念應用在詞典式編碼上,以中文 在此資訊愈來愈發達的時代 ,電腦及網路幾 字元為token ,利用樣式匹配(pattern matching)的方 乎已經成為每個家庭必備的 工具。而資料壓縮最主 式將數個連續的中文字元取成一個中文詞彙放在 要的功用 就是可以節省電腦的儲存空間, ,也可以 詞典中 。此外論文[10

文档评论(0)

yaobanwd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档