- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分词技术的研究与应用-
分词技术的研究与应用?
摘要:该文主要论述一种快速分词技术的实现。对于GBK编码格式的原始文献,利用GBK可见汉字,建立内存常驻索引,按照最大匹配法查找外存分词词典库,从而将文章例句进行快速切分。理论上是目前最快的一种分词方法。
中国论文网 /8/view-7163704.htm
关键词:正向分词;逆向分词;GBK;字典索引
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)06-0179-04
4A Quick Word Segmentation Technology Research and Application
WU Hong-zhou
(The China Patent Information Centre, Beijing 100088, China)
Abstract:This paper mainly discusses the realization of a fast segmentation technology.For GBK encoding format of the original literature, the use of visible GBK Chinese characters, establishing resident memory index, according to the maximum matching method to find the external storage word segmentation dictionary library, which will be fast segmentation articles sentences.In theory it is at present a word segmentation method is the fastest.
Key words:positive word segmentation;reverse participles;GBK;the dictionary index
在专利信息技术中,专利文献信息检索、机器翻译、专利辅助自动文摘和CPC/IPC自动分类,都会用到一个基本的技术――分词技术。所谓分词,就是利用已有词库的词,来切分文章中的词的过程。切分的分词,用来确定在文献中的位置;用来统计特征词的频度;聚类、分类运算;相似度计算等。目前有很多应用场景已经使用了已有的技术产品。带来的好处是:引入语义分析、词性分析、语法分析等成熟技术,性能稳定,分词正确率高;加快软件产品开发使用,可移植性强。带来的问题是:受著作版权保护,须缴纳昂贵费用,加大应用软件的制作成本;由于词库数据结构的不公开,使维护变得困难;产品大多面向大众化读物,不能灵活地适应专业技术性强的不同领域对分词的不同要求;词库中分词需要标注词性,词性对于专业技术文献产生的作用并不明显,更新分词,须额外编辑词性,并审校,费时费力,词库的更新周期比较长。为了降低应用成本,迫使我们不得不自主研发一整套适合本领域的包括分词在内的相关基本技术。分词技术属于中国特色的信息处理技术之一。在西方语言中,拼音字母组合构成的单词,单词与单词之间有明显空格分隔,词是自然分隔的,无须分词。对于相形文字(如中日韩语言)来说,字词之间紧密连接,没有明显间隔。因此需要仿照西方语言来预先加工分词,使之明显分割。只有具备了分词分割字词的基础,才能够像西文那样轻松地建立数学模型,利用数学方法,来对文献进行分析利用。因此本文将讨论如何实现一种实用的快速分词方法。
1 分词技术的现状
分词技术目前已经非常成熟。常见的有三种方法:
1) 字符串匹配的分词方法;
2) 词义分词法;
3) 统计分词法。
1.1 字符串匹配的分词方法
这是一种常用的分词法,它主要利用已有词库中的词匹配文章句子中的词,来切分句子。常见的方法又有四种方法:
1) 正向最大匹配法;
2) 逆向最大匹配法;
3) 最短路径分词法;
4) 双向最大匹配法。
1.2 词义分词方法
一种机器语音判断的分词方法。在进行句法、语义分析时,利用句法信息和语义信息来处理歧义现象从而得到分词,这种分词方法,现在还不成熟,处在实验阶段。
引入词性协助分析词性在语法位置上的可能性,对词进行合理切分,目前国内产品出现的比较多。如中国科学院计算所的ICTCLAS产品。
1.3 统计分词法
根据词组的统计,就会发现两个相邻字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符来分词。
2 分词技术的实现
本文讨论的是属于字符串匹配的分
您可能关注的文档
最近下载
- 《中国共产党纪律处分条例》六大纪律内容提纲(二).pdf VIP
- 电梯安全管理培训感想课件.pptx VIP
- 大载荷无人机应急救援系统技术要求.docx VIP
- 高考语文阅读专题散文阅读练习-(精品·课件).ppt VIP
- sap hanna studio自总结_hana创建用户.pdf VIP
- 系统性红斑狼疮疾病活动度评分表(SLEDAI-2000).docx VIP
- 豪恩汽电首次覆盖报告:智驾感知层国产龙头,新能源与出海打开成长空间.pdf
- 《机井井管标准》SL154-2013.pdf VIP
- 高考语文阅读专题:散文阅读.doc VIP
- 新教科版一年级上册科学《我们知道的植物》ppt教学课件.pptx VIP
文档评论(0)