- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三届全国信息检索与内容安全学术会议
一种自适应字长的中文词库的构建方法
i居产,詹海生,鼠水生
(西安电子科技大学计算机学院,西安,710001)
摘要: 中文搜索引擎中的词库是提高文本信息存储与查找效率的关键。本文以异或哈希算法
为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字
长的词散列到不同的哈希值区间,从而将哈希值的冲突率降低到0.034%,进一步提高了查找效率。
文中大规模动态词库的建立方法可用于计算机语料库建设和中文输入法等自然语言处理过程。
关键词: 异或算法;哈希函数;中文词库;自适应字长
A Methodof
Word—-lengthAdaptive
Chinese Construction
Dictionary
WangQihu,ZhanHaisheng,ZhouShuisheng
(School
Informationin
Abstract:TheChinese iscriticaltothe andsearchoftext Chinesesearch
dictionary storage
machinecodecombinedwithstrokenumberof
ontheExclusive·OR Chinese
engine.Basing algorithm,the
characterwas tohashthewordswithdifferentintothe ofhashvaluewith
employed length correspondingspace
resultsofaword a collisionrateofhashvalue
tothe statistics presenting.Asresult,the is
accordingprobability
the methodcanbeusedintheconstruction
downtoo.034%andsearch
brought efficiencyis。up.This oflarge-scale
taskofnatural suchastheconstructionofChinese
aswellastheother
dictionary languageprocessing
dynamic
word methodandSOon.
corpus,Chineseinput design
words:Exclusive—OR ofword
Function;ChineseDictionary;Self-Adaptivelength
key Algorithm;Hash
基金资助:国家自然科学基金
作者简介:王启户(1981一),男,陕西,硕士生email:rikyok@126.COm
詹海生(1970-),男,山东,副教授,博士
周水生(1972一),男,陕西,副教授,博士
377
文档评论(0)