基于词汇式大字符集二阶预测模型之文本资料压缩.pdf

下载文档 降价啦

1
0
约5.31万字
约 12页
2015-09-24 发布于重庆
举报
版权申诉
保障服务

基于词汇式大字符集二阶预测模型之文本资料压缩.pdf

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于词汇式大字符集二阶预测模型之文本资料压缩

基於詞彙式大字符集、二階預測模型之文本資料壓縮 Text Compression Based on Word-Based Large Alphabet and Order-Two Prediction Model 古鴻炎溫智旻 Hung-Yan Gu and Chih-Ming Wen 國立台灣科技大學資訊工程系 e-mail: guhy@.tw http://www.csie. .tw 摘要每次要處理的符號單位的大小，將取出的“符號單位”(token)送到模式組件去估算機率。本論文研究基於詞彙式大字符集之文本資料對英文文章剖析的相關研究，如文獻[13]中壓縮方法，將中、英文檔案以詞彙為單位剖析出將大字符集的觀念應用到一些常用的壓縮演算法 token ，再對 token 以二階混合式預測模型或部分匹上面，將英文文章的組成分類成字母、數字字串配預測模型來估算出現機率，接著以算術編碼對該 (alphanumeric string) 與標點符號字串(punctuation 機率編碼。由於字符集很大，影響預測模型的處理 string) 兩類，因此一篇文章看成是不等長度之兩類速度因此我們也，研究一些可以加快處理的方法。字串所串成，並且把每個字串當作一個token ，此將上述想法實作為實際可壓縮、解壓縮的程外在他們的研究中也嘗試將英文詞彙分詞性來增，式後，作壓縮率的測試實驗，再和 PPMd 、bzip2 、加預測的準確性。後來 Moffat 、Neal 、Witten 在及 GZIP程式作比較。對於中文檔案，我們的平均 1995 年提出的論文中[8] ，對算術編碼作一些配合壓縮率，比PPMd 好 1.12% ，比bzip2 好5.48% ，大字符集處理的修改，他們的剖析處理與文獻 [13] 比GZIP 好 17.02% 。對於英文檔案，平均壓縮率裡的相同，並限制每個字串的最大長度為16個字則比PPMd 好0.29% ，比bzip2 好2.04% ，比GZIP 元。另外在 2005 年由Gu提出的論文中[10] ，對英好 12.08% 。所以，文本資料壓縮率的改進，相當文文章採用類似中文文章的剖析方法，依照一些判不容易，而本研究或多或少都得到了一些改進。斷規則，一次取一個或兩個byte作為 token 。在中文文章剖析方面，論文 [9]中有提到許多關鍵詞 :資料壓縮，大字符集，算術編碼過去中文壓縮相關的研究，而他們自己的研究，對中文文章一次取兩個 byte 為token ，實驗結果顯示 1. 前言壓縮效果比取一個 byte 為 token還好。在論文[14] 中，將大字符集觀念應用在詞典式編碼上，以中文在此資訊愈來愈發達的時代，電腦及網路幾字元為token ，利用樣式匹配(pattern matching)的方乎已經成為每個家庭必備的工具。而資料壓縮最主式將數個連續的中文字元取成一個中文詞彙放在要的功用就是可以節省電腦的儲存空間，，也可以詞典中。此外論文[10