- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进的基于PATRICIA树的汉语自动分词词典机制
华南理工大学学报(自然料擘版)
第32卷增刊 JournalofSoulb of
China vol32
UniVersityTechn0109y suppl
2004年11月 science
(NamralEdmon) November2004
一种改进的基于PATⅪcIA树的汉语
自动分词词典机制+
马 哲 姚 敏
(浙旺大学计算机系,浙江杭州310027)
摘要:分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的
重要标准.吏中分析比较了现有的几种典型的词典机制.井在此基础上提出了一种新的词
典机制,即在pATRfc认tree的基础上加入Hash机制,从而在明显提高查找速度的同时,
降低了构造和维护词典的复杂度.
关键词:PATRIcIA树;汉语;自动分词;分词词典机制
中图分类号:TP391 文献标识码:A
汉语的自动分词技术的应用十分广泛,如汉字 …,w。。。(对应全切分分词方法)
的拼音输入、语音识别与合成、汉语分析与理解、中
文句法分析、机器翻泽、中文文献自动标引、中文信 l现有分词机制分析
息检索等等.分词技术的研究已有10多年的历史,
取得了很大的进展.分词方法主要分为基于统计的 1.1基于Hash机制的分词词典机制
机械分词法和基于规则的专家系统分词法.无论哪 (I)首字HaSh+索引表+整词二分机制,首字
种方法,其最终目的都是快速精确地取得分词结果. H“h+索引表+逐字二分机制”1.这龌种机制都是
词典作为许多分词方法的重要工具,它的查询速度 基于首字Hash+索引表.前~种分词机制比较适合
是制约分词速度的决定因素,又因为没有任何一个 确定词条查询,但是对于最长词条和前缀词条查询,
词典所收录的词是完备的,所以词典应该易于进行 其性能却不佳.后一种分词机制是在前一种上的改
添加删除等维护工作.所以~个好的词媳机制应能 进,吸取了基于TRIE的逐字比较的优势,对于最长
提供快速查询,并且便于维护.根据分词系统特点, 和前缀词条查询方式有较大改善.这两种机制的优
分词词典的查询方式大致分为三种. 点是构造和维护简单,占用空间小.
(1)确定词条查询:在分词词典中查找指定词
w。(词在分词词典中的定位).
(2)最长词条查询:根据分词词典,在汉字串s这三种都是基于Hash+键树机制.键树”1,又称数
中查找从某一指定位置f开始的最长词w…。(对应 字查找树,它是一棵度大于或等于2的树,树中的每
最大匹配分词方法). 个节点中不是包含一个或几个关键词.而是只含有
(3)前缀词条查询:根据分词词典,在汉字串s组成关键词的符号.键树有两种存储结构,一种是以
中查找从某一指定位置f开始的所有词w。,w。, 树的孩子兄弟链表来表示键树,应用于词典中即为
语词树;另一种是以树的多重链表来表示键树,即
TRIE树.这三种机制的好处是查询速度快,但是数
收稿日期:2004—08—24
据结构复杂,浪费空间较大,
·基金项目:国家自然科学基金资助项目
作着简介:马哲(1980一),女,硕士生,主要从事数据挖掘J.2 基于P
原创力文档


文档评论(0)