电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析.doc

电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析 摘 要:本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,并设计出一个电子商务行业搜索引擎整体结构;此外,讨论了几种搜索引擎的中文分词算法,结合电子商务行业的特点对分词算法进行了改进,提出一种适用于电子商务行业搜索应用的全新分词系统。最后,结合整体结构与分词系统并利用已有的网络开源项目,实现了一个电子商务行业搜索引擎。 关键词:搜索引擎;中文分词;电子商务 0引言 随着互联网的迅速发展,电子商务让消费方式变得更为快捷,更多的人涌向网上商店,网络市场前景巨大,拥有更为广阔的发展空间。面对海量的网络信息资源,人们可以通过传统的搜索引擎,如Google、百度、中搜等,方便快捷地获取所需商业信息。尽管通用搜索引擎的功能非常强大,但是对于检索某一特定行业的信息时,通用型搜索引擎对信息的挖掘深度不够。查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想。因此,建立面向特定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。本文就是在深入研究通用搜索引擎的基础上,设计开发出适合电子商务行业的搜索引擎。 1技术挑战中文自动分词是中文信息处理的一项重要的基础性工作,以中文作为信息的载体的语言文字信息处理已经成为我国信息化建设的“瓶颈”。许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是按句连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题。词的正确切分是进行中文文本处理的必要条件。在电子商务需求的强大动力推动下,自动分词已经成为中文信息处理的一个前沿课题。中文分词技术的优劣直接关系到搜索引擎的效率,建立电子商务行业搜索引擎需要解决好其中的中文分词模块,选择适合行业特点的中文分词技术来构建中文分词模块是一项极其重要的基础性工作。如何面向大规模开发应用是中文分词研究亟待解决的主要问题。目前看来,在处理大规模开发文本时,中文分词系统还将面临以下困难:1)如何识别未登录词。由于不存在绝对完备的词典,尽管一般的词典都能覆盖大多数的词语,但是有相当一部份的词语不可能穷尽地收录到系统词典中,这些词语称为未登录词或新词;2)如何廉价高效地获取分词规则是中文分词系统设计中不可忽视的问题之一;3)词语边界歧义。对于一个指定的中文句子或汉字串,有多种词语边界划分形式。 2分词系统的原理及设计迫于中文信息处理的重要性,来自语言学界、人工智能领域和情报检索界的专家学者们,在汉语自动分词与自动标引的研究与实践上进行了大量的研究,找到了许多解决汉语分词的方法。现有的分词算法可分为三大类[1]:1)基于字符串匹配的分词方法;2)基于理解的分词方法;3)基于统计的分词方法。目前国内一些大学及科研组织已经开发的每一个分词系统都有各自的分词词表,词表之间的差别也是较大的。对于分词的歧义处理,已经进行了比较深入的研究,人们通过统计和规则相结合的方法,使得歧义字段的正确切分达到了较高的水平,同时也认识到歧义的解决需要细致的、个性化的知识积累;另一方面,无论词表规模多么大,未登录词语的存在是必然的。因此,与分词的歧义处理相比较,未登录词语的处理成为影响分词正确率的最主要、最直接的因素,这也是当前的一个研究热点。53的任务是找出输入字串中所有在词典中出现的词并把每个词添加到切分词图中。接下来是时间数词识别,它的输入是原子序列,利用自动机的方法找出输入字串中出现的数词和时间词并添加到切分词图中。然后根据以上几个阶段建立的切分词图生成N条最优的分词序列,以此作为接下来的人名识别和地名识别的输入。人名识别和地名识别对每一条分词序列进行角色标注,从角色标注结果序列中找出所有可能的人名和地名并添加到切分词图中。至此,整个切分词图建立完毕,根据这个切分词图,寻找出一条最优的路径作为最后的分词结果序列。最后,将分词结果作为最后的分词系统的输出结果[4]。 下面给出ZS算法的伪代码:ZSEGMENT(A[1..n])1 Word Lattice Segment(A[1..n])//调用词网格分词2 Add all every atom to SegmentGraph1//添加原子到切分词图3 Complete Segment([atom1..atomm])//调用全切分函数4 for i=1 to m5 if find(Dictionary,atomi)=TRUE6 then add atomi into SegmentGraph27//时间数词识别8 Automata([atom1..atomm])9

文档评论(0)

小教资源库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档