网站大量收购独家精品文档,联系QQ:2885784924

搜索引擎开发实践.pptxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

搜索引擎开发实践

第一讲搜索引擎简介主讲人:罗刚

概述前导知识搜索引擎的查询语法搜索引擎的总体架构用户界面布局网站搜索的常用功能

前导知识CoreJava《Java技术手册》HashMapFileBitSet编译原理《ModerncompilerimplementationinJava》词法分析,有限状态机语法分析概率论《应用随机过程:概率模型导论》马尔可夫模型贝叶斯公式数据结构《Java程序设计:一种跨学科的方法》动态规划第3页

1JDK1.6增加虚拟内存到800M-Xmx800m2Eclipse支持中文的语言包3Lucene4Resinhttp:///download准备开发环境

TortoiseSVNhttp://01Anthttp://02Maven03LinuxCentOS()SecureCRT登录04准备开发环境(续)

词法分析(Lexicalanalysis)TokenNBAAND比赛TypeTERMANDTERMLucene中采用JavaCC实现词法分析。JavaCC有个Eclipse插件(/)例如分析输入的用户查询串,输出该字符串中出现的所有的合法的单词(Token)。例如对查询串“NBAAND比赛”的词法分析:

词法分析的原理TokensScannergeneratorNFA正则表达式JavascannerprogramStringstreamDFA最小化DFA模拟DFA

词法分析器如何工作?生成代码模拟DFA0403把NFA转换成DFA把用户输入定义的Token转换成为正规文法等价的形式0102把正规文法转换成NFA生成词法分析器

语法分析+DisNeyWOrld文本解析BooleanQueryModifierQNREQFieldQN(content,WOrld)FieldQN(content,DisNey)缺省列:content

StandardSyntaxParser.java…05JavaCC06Token.java03StandardSyntaxParserConstants.java04JavaCC(JavaCompilerCompiler)可以同时完成对文本的词法分析和语法分析的工作。01StandardSyntaxParser.jj02词法分析-JavaCC

一个JavaCC文件由三部分组成:jj文件的结构一个JavaCC文件由三部分组成:Options类的声明词法分析的声明(tokens),和语法分析的声明options{STATIC=false;…}PARSER_BEGIN(StandardSyntaxParser)…PARSER_END(StandardSyntaxParser)/*TokenDefinitions*/

如果是真,在生成出的解析器和token管理器中,所有的方法和类变量都声明成静态的。这样仅仅允许一个解析对象存在,但是查询分析器应该有很多个,所以这个值应该设成假。STATIC是一个布尔选项,缺省值是真。选项(options)

lucene-3.0.0\contrib\queryparser\src\java\org\apache\lucene\queryParser\standard\parser\StandardSyntaxParser.jjparse方法定义了对用户查询串的词法分析功能,并完成初步的语法分析publicQueryNodeparse(CharSequencequery,CharSequencefield)QueryNode对象包含了分析出来的语法树词法分析-JavaCC

概率一本词典,从词典翻页看到的词是一个动词的概率?如何计算:全部的词=对词典中所有的词计数#得到一个动词的方法:是动词的单词数量如果一个词典有50,000项,10,000是动词,则P(V)=10000/50000=1/5=0.2

如何计算联合概率:P(“the”,”other”,”day”,”I”,”was”,”walking”,”along”,”and”,”saw”,”a”,”lizard”)构想:根据概率的链规则计算P(W)

概率的链规则根据条件概率的定义重写:更通用的公式P(A,B,C,D)=P(A)P(B|A)P(C|A,B)P(D|A,B,C)一般化P(x1,x2,x3,…xn)=P(x1)P(x2|x1)P(x3|x1,x2)…P(xn|x1…xn-1)

链规则应用到句子中的单词的联合

文档评论(0)

SYWL2019 + 关注
官方认证
文档贡献者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档