搜索引擎关键技术-文本处理.pptVIP

下载本文档

0
0
约8.45千字
约 30页
2025-04-11 发布于四川
举报
版权申诉

搜索引擎关键技术-文本处理.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

对于文本中的标点符号，一般说来在词法分析过程中将被全部去除。但是，对于那些成为单词中一部分的标点符号来说，又要慎重考虑是否删除标点。另外一种特殊情况是程序片段出现在文本中，这时就要区分变量x.id与xid了。这种情况下，标点符号应该保留。标点符号字母的大小写字母的大小写对于区分索引词条来说一般不是很重要，因此可以将文本中的所有词条都转换成大写或者小写。但是也存在特殊情况，例如对于描写UNIX命令的文档，由于大小写都是约定俗成的，因此用户并不希望改变文档中的大小写。对于此种情况，就要特殊处理。01中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。02与英文相比，中文词与词之间没有分界符，需要人为切分，而且汉语中存在大量歧义现象，对几个字分词可能有好多种结果，因此将中文分词技术专门提出来做详细总结。2.中文分词技术按照中文一个字、一个字地进行分词。以这种方式切分出来的词再进入索引，称为字索引。缺点：随着索引的增大，相应索引条目的内容会不断增大，严重影响效率。单字切分中文分词方式二分法是指每两个字进行一次切分。该方法完全不考虑语义、语境，机械地对语句进行处理，不是很好的分词方式。该方法是用一个已经建立好的词的集合（按某种算法）去匹配目标，当遇上集合中已经存在的词时，就将其切分出来，是一种较理想的中文分词方式。二分法词库分词基于字符串匹配的分词方法01该方法又叫做机械分词方法，基本思想是：截取一个字符串，把它与词典中的词条进行匹配，若在词典中找到对应的词，该字符串就被识别为一个词。02按照扫描方向的不同，可分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可分为最大匹配和最小匹配；按照是否与词性标注过程相结合，可分为单纯分词方法和分词与标注相结合的一体化方法。03中文分词算法主要思想：选取包含6~8个汉字的符号串作为最大符号串，把最大符号串与词典中的单词条目相匹配，如果不能匹配，就削掉最右边一个汉字继续匹配，直到在词典中找到相应的单词为止。正向是指匹配方式从左向右。例：“计算机科学和工程”正向最大匹配法FMM（ForwardMaximumMatchingmethod）逆向最大匹配法BMM（BackwardMaximumMatchingmethod）其分词过程与正向最大匹配法相同，不同的是每次是从待处理语料的末尾开始处理，每次匹配不成功时去掉的是前面一个汉字，即匹配方向是从右到左。FMM方法的错误切分率为1/169，BMM方法的精度要高一些，其错误切分率为1/245。双向匹配法BM（Bi-directionMatchingmethod）01基本原理：分别用FMM法和BMM法进行正向和逆向的扫描和切分，通过比较两者的切分结果来决定正确的切分，而且可以识别出分词中的交叉歧义。但是对于正、逆向的扫描结果一致但实际切分不正确的字段（如“结合成分子时”）仍不能正确处理。缺点：时间复杂度增加，而且词库结构比一般的分词词库要复杂很多。02该算法实现的分词结果中含词数最少。最少匹配算法FWM（FewestWordsMatchingmethod）该算法的思想是：优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串，然后用FMM或BMM法进行细分。例：“这种设计方法学的理论，不可能有用”设立切分标识法这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。该分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。基于理解的分词方法**网络机器人（Webrobot）又叫做网络爬虫（Webcrawler）、网页蜘蛛（Webspider），它是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成部分。爬虫的作用是为搜索引擎抓取大量的数据，抓取的对象是整个互联网上的网页。网络爬虫在搜索引擎中占有重要位置，对搜索引擎的查全、查准都有影响，决定了搜索引擎数据容量的大小，而且网络爬虫的好坏直接影响搜索结果页中的死链接的个数。*1.关键词能够代表网页源文件内容的一些特征，其提取是预处理阶段的一个基本任务