- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
搜索引擎开发实践
第一讲搜索引擎简介主讲人:罗刚
概述前导知识搜索引擎的查询语法搜索引擎的总体架构用户界面布局网站搜索的常用功能
前导知识CoreJava《Java技术手册》HashMapFileBitSet编译原理《ModerncompilerimplementationinJava》词法分析,有限状态机语法分析概率论《应用随机过程:概率模型导论》马尔可夫模型贝叶斯公式数据结构《Java程序设计:一种跨学科的方法》动态规划第3页
1JDK1.6增加虚拟内存到800M-Xmx800m2Eclipse支持中文的语言包3Lucene4Resinhttp:///download准备开发环境
TortoiseSVNhttp://01Anthttp://02Maven03LinuxCentOS()SecureCRT登录04准备开发环境(续)
词法分析(Lexicalanalysis)TokenNBAAND比赛TypeTERMANDTERMLucene中采用JavaCC实现词法分析。JavaCC有个Eclipse插件(/)例如分析输入的用户查询串,输出该字符串中出现的所有的合法的单词(Token)。例如对查询串“NBAAND比赛”的词法分析:
词法分析的原理TokensScannergeneratorNFA正则表达式JavascannerprogramStringstreamDFA最小化DFA模拟DFA
词法分析器如何工作?生成代码模拟DFA0403把NFA转换成DFA把用户输入定义的Token转换成为正规文法等价的形式0102把正规文法转换成NFA生成词法分析器
语法分析+DisNeyWOrld文本解析BooleanQueryModifierQNREQFieldQN(content,WOrld)FieldQN(content,DisNey)缺省列:content
StandardSyntaxParser.java…05JavaCC06Token.java03StandardSyntaxParserConstants.java04JavaCC(JavaCompilerCompiler)可以同时完成对文本的词法分析和语法分析的工作。01StandardSyntaxParser.jj02词法分析-JavaCC
一个JavaCC文件由三部分组成:jj文件的结构一个JavaCC文件由三部分组成:Options类的声明词法分析的声明(tokens),和语法分析的声明options{STATIC=false;…}PARSER_BEGIN(StandardSyntaxParser)…PARSER_END(StandardSyntaxParser)/*TokenDefinitions*/
如果是真,在生成出的解析器和token管理器中,所有的方法和类变量都声明成静态的。这样仅仅允许一个解析对象存在,但是查询分析器应该有很多个,所以这个值应该设成假。STATIC是一个布尔选项,缺省值是真。选项(options)
lucene-3.0.0\contrib\queryparser\src\java\org\apache\lucene\queryParser\standard\parser\StandardSyntaxParser.jjparse方法定义了对用户查询串的词法分析功能,并完成初步的语法分析publicQueryNodeparse(CharSequencequery,CharSequencefield)QueryNode对象包含了分析出来的语法树词法分析-JavaCC
概率一本词典,从词典翻页看到的词是一个动词的概率?如何计算:全部的词=对词典中所有的词计数#得到一个动词的方法:是动词的单词数量如果一个词典有50,000项,10,000是动词,则P(V)=10000/50000=1/5=0.2
如何计算联合概率:P(“the”,”other”,”day”,”I”,”was”,”walking”,”along”,”and”,”saw”,”a”,”lizard”)构想:根据概率的链规则计算P(W)
概率的链规则根据条件概率的定义重写:更通用的公式P(A,B,C,D)=P(A)P(B|A)P(C|A,B)P(D|A,B,C)一般化P(x1,x2,x3,…xn)=P(x1)P(x2|x1)P(x3|x1,x2)…P(xn|x1…xn-1)
链规则应用到句子中的单词的联合
您可能关注的文档
- 态度与品德的形成.pptx
- 小学美术简笔画.pptx
- 学生干部的语言艺术.pptx
- 数学建模与系统仿真.pptx
- 感动中国模板背景素材.pptx
- 整理与复习比和比例.pptx
- 建筑工程合同管理.pptx
- 小学儿童心理发展.pptx
- 大学生青年志愿者协会.pptx
- 学校辅导原理实务.pptx
- 福莱特玻璃集团股份有限公司海外监管公告 - 福莱特玻璃集团股份有限公司2024年度环境、社会及管治报告.pdf
- 广哈通信:2024年度环境、社会及治理(ESG)报告.pdf
- 招商证券股份有限公司招商证券2024年度环境、社会及管治报告.pdf
- 宏信建设发展有限公司2024 可持续发展暨环境、社会及管治(ESG)报告.pdf
- 品创控股有限公司环境、社会及管治报告 2024.pdf
- 中信建投证券股份有限公司2024可持续发展暨环境、社会及管治报告.pdf
- 洛阳栾川钼业集团股份有限公司环境、社会及管治报告.pdf
- 361度国际有限公司二零二四年环境、社会及管治报告.pdf
- 中国神华能源股份有限公司2024年度环境、社会及管治报告.pdf
- 广西能源:2024年环境、社会及治理(ESG)报告.pdf
文档评论(0)