- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
sphinx全文索引
Sphinx全文检索 1、什么是全文检索 2、什么是sphinx 3、MMSEG 4、coreseek安装 5、影视库列表页检索 什么是全文据检索 1、全文数据:指没有固定格式或不定长的数据,如影片简介 2、索引:把非结构化的数据中的内容提取出来一部分重新组织,让它变的有结构化,这部分我们提取出来的数据就叫做索引. 全文检索大体分两个过程: 索引创建(Indexer)和 搜索索引(Search)。 索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。 搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。 一、索引创建过程 1、准备创建索引的文档 1)、迅雷看看,网络高清影院。 2)、迅雷云播,看黄片你懂的。 2、将文档传给分词工具(MMSEG) 分词工具将全文文档分成一个一个的词元 最后可能得到 迅雷 看看 网络 高清影院 云播 看 黄片 你懂的 3、MMSEG 检测同义词/复合分词 “迅雷” 有两个近义词:“下载” 和 “黄片” 4、将得到的词传给索引组件 1)、Indexer利用得到的词创建一个字典。 分词 文档id 迅雷 1 下载 1 黄片 1 网络 1 高清影院 1 迅雷 2 下载 2 黄片 2 云播 2 看 2 黄片 2 你懂的 2 2)、合并相同的词成为文档链表 分词 文档数 迅雷 2 下载 2 黄片 2 网络 1 高清影院 1 下载 1 云播 1 看 1 你懂的 1 文档id 词频 1 1 文档id 词频 2 1 1 1 2 1 1 … 2 … 2 1 2 1 1 1 2 2 二、如何对索引进行搜索 第一步:用户输入查询语句. 第二步:对查询语句进行分词 第三步:搜索索引,得到符合语法树的文档. 第四步:根据得到的文档和查询语句的相关性,对结果进行排序. Sphinx是什么 俄罗斯人Andrew Aksyonoff 开发的高性能全文搜索软件包,它可以提供比数据库本身更专业的搜索功能 Sphinx 全文检索引擎 Coreseek 支持中文的全文检索引擎 MMSEG MMSEG :一个基于最大匹配算法的两种变体的中文单词识别系统 算法原文:/mmseg/ 网友译文:/sunlylorn/article/details/7652746 MMSEG算法说明 理解3个概念: 一、Chunk Chunk中包含依据上下文和语料库分出的一组词和相关的属性,包括长度(Length)、平均长度(Average Length)、标准差的平方(Variance)和自由语素度(Degree Of Morphemic Freedom)。Chunk中的4个属性只有在需要该属性的值时才进行计算。 属性 含义 长度(Length) chuck中各个词的长度之和 平均长度(Average Length) 长度(Length)/词数 方差(Variance) 各词长度与平均长度之差的平方的和的平均数 自由语素度(Degree Of Morphemic Freedom) 各单字词词频的对数之和 2、规则(RULE) 规则其实就是一个过滤器,过滤掉不符合要求的chunk。 规则1:取最大匹配的chunk (Rule 1: Maximum matching) 规则2:取平均词长最大的chunk (Rule 2: Largest average word length) 规则3:取词长标准差最小的chunk (Rule 3: Smallest variance of word lengths) 规则4:取单字词自由语素度之和最大的chunk (Rule 4: Largest sum of degree of morphemic freedom of one-character words) 匹配方式复杂最大匹配 先使用规则1来过滤chunks,如果过滤后的结果多于或等于2,则使用规则2继续过滤,否则终止过滤过程。 如果使用规则2得到的过滤结果多于或等于2,则使用规则3继续过滤,否则终止过滤过程。 如果使用规则3得到的过滤结果多于或等于2,则使用规则4继续过滤,否则终止过滤过程。 如果使用规则 4得到的过滤结果多于或等于2,则抛出一个表示歧义的异常,否则终止过滤过程。 实例: 句子 “迅雷不及掩耳盗铃” Mmseg分词算法得到4个chunks,如下 # chunk 长度 1 迅雷_不及_掩耳 6 2 迅雷_不及_掩耳_盗铃 8 3 迅雷_不及_掩耳盗铃 8 4 迅雷不及掩耳_盗_铃 8 使用规则1得到3个chunk,然后使用规则2计算平均长度 # chunk 长度 平均长度 2 迅雷_不及_掩耳_盗铃 8 2
您可能关注的文档
最近下载
- 21塑造地表形态的力量(课件)-高二地理学与练(人教版2019选择性必修1).pptx
- gamma软件介绍课件.ppt VIP
- T_FSBMEA 0003—2025(牙科综合治疗机技术规范).pdf
- 宜搭低代码开发师(中级)部分考题.docx VIP
- 英语主谓宾定状补讲解[整理].pdf VIP
- GB50060-2008 3~110kV高压配电装置设计规范.pdf VIP
- 2025中水北方勘测设计研究有限责任公司校园招聘笔试参考题库附带答案详解.docx
- 社区工作人员真题含完整答案详解(全优).docx VIP
- 15.4 电流的测量 课件(共30张PPT)2025-2026学年人教版(2024)九年级全册.pptx VIP
- 公司日常行为规范及管理制度.docx VIP
文档评论(0)