静态发布与全文检索培训.ppt

静态发布与全文检索培训.ppt

采购网前台静态发布和全文检索 技术培训 ebnew网站架构 什么是静态发布 ebnew静态发布系统的功能 采用http方式访问动态网站生成相应的静态网页,支持多线程快速生成静态页面 静态网页的生成支持定时更新、触发更新和手动更新等多种方式 提供对静态网页生成的监控界面,并记录错误日志 静态发布框架与网站业务无关,可以很方便的应用到其他动态网站上 静态发布架构 发布队列表(sp_pub_queue) 静态链接表(sp_link_table) 静态发布进程 静态发布代码 什么是全文检索 一般对非结构化数据也称为全文数据,比如邮件、word文档、文本 对非结构化数据有两种搜索方法 顺序扫描,比如grep,sql中的Like操作 先建立索引(倒排索引),在进行检索,也就是全文检索 全文检索原理(反向索引 Inverted index) 第一篇文章: 我在广州生活 第二篇文章: 他曾经在上海生活过 全文检索原理(查询) 全文检索总体架构 索引过程 查询过程 查询语句语法树 相关性 计算每个词的权重 计算每个词的权重 计算文档之间的相关性 通过向量空间模型(vector space model),判断Term之间的关系从而得到文档相关性的过程 把文档看作一系列词(Term),每一个词(Term)都有一个权重(Term weight),则: (1)文档可以表示为一个向量: Document

文档评论(0)

1亿VIP精品文档

相关文档