异或哈希算法查找中文词组性能评价-中文信息学报
中 文 信 息 学 报
第 卷 第 期
异或哈希算法查找 中文词组性能评价
林亚平
〔 大学 机系
湖南 计算
【 要 】本 汉 内 的 点 , 利 用 或 法 立 文词 和 查 文词
摘 文根据 字机 码 特 异 哈希算 建 中 库 找 中
。
组 根据 不 同规模 的 中文词 库 , 给 出了相应 的改进算法 对 实际 的 中文词 库 测 试表 明 , 此
、 。
哈希算法分布 均 匀 冲突较 少 , 且速度快 , 因此 具有较好 的 实用 性
一 基本 的异或哈希算法
文 献 川根 据 密码 学 中形 成 校 验 码 常用 的异或 运 算 取 代 哈希算 法 中常用 的 除 留余数 法
。
② , 应 用于英文单词 的查 找 由于异或运算具有速度 快和 散列性好 的特点 , 适合于 哈希
。
算法 的一般 需求 测试结果 也表 明性 能较好 , 尤其是对相 类似 的单词处理 时冲突很少 其
基本算法描述如下
·
设输 人单词 ’’ , 算 法 使 用 一 个 长度 为 的辅助 查 表数组 , 其元 素 由
, 的整数 随机排序而成 , 对输人单词 执行 以下 哈希 函数得到对应 的关键字
算法
】
算 法 通 过 异或运 算 和 访 问随机 表 的元 素保证 散 列 性 。 注 意 到 表 元 素与整数集
, 习 在一对一 的映 关系 , 的 也取于 ,
存 射 值
二 、 异或哈希算法查找 中文词库 的性能
。
,
中文 信息处理系 统 中经 常涉及 到 中文词库 的建立和 查找 问题 ‘川
原创力文档

文档评论(0)