充电网全文检索数据索引.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
充电网全文检索数据索引.doc

充电网-全文检索解决方案 2015-08-03 目录  TOC \o 1-3 \h \z \u  HYPERLINK \l _Toc426380691 一. 全文检索数据来源  PAGEREF _Toc426380691 \h 3  HYPERLINK \l _Toc426380692 二. 数据抓取规则  PAGEREF _Toc426380692 \h 4  HYPERLINK \l _Toc426380693 三. 中文分词-庖丁中文分词库  PAGEREF _Toc426380693 \h 4  HYPERLINK \l _Toc426380694 四. 全文搜索服务器Solr  PAGEREF _Toc426380694 \h 5  HYPERLINK \l _Toc426380695 五. 全文搜索UI页面  PAGEREF _Toc426380695 \h 6  全文检索数据来源 课程数据: 所需检索字段:id(唯一标识索引)、课程名称、课程简介、授课教师、所属教师(机构)、课程类型、发布时间、购买量、点击量、收藏量; 点播课程:课件名称、课程有效期; 直播面授课程:报名开始时间、结束时间、开课日期; 面授课程:面授地址 排序字段:发布时间、综合评价; 课程数据分词查询字段:课程名称、课程简介、授课教师、发布时间; 项目数据: 需要检索字段:id(唯一标识索引)、项目名称、项目简介、项目类型、所属机构、项目类型、项目包含课程、报名开始时间、结束时间、发布时间、购买量、点击量、收藏量; 项目数据排序字段:发布时间、综合评价 ; 项目数据分词查询字段:项目名称、简介、所包含课程 教师数据: 需要检索字段:id(唯一标识索引)、教师名称、教师简介、教师地址、教师评分,入住时间、包含课程名称 教师排序:教师评分,最后登陆时间; 教师分词查询字段:教师名称、教师简介、教师地址、包含课程; 机构数据: 所需检索字段:id(唯一标识索引)、机构名称、机构简介、机构地址、机构评分、入住时间; 机构偏序字段:机构评分、入住时间; 机构分词查询字段:机构名称、简介、机构地址、包含项目(课程)、 注:四中数据同时出现排序优先级 项目课程机构教师 机构排序:最后登陆时间,综合评价 数据抓取规则 1、增量抓取,每间隔1小时做一次4类数据的数据抓取。 2、全量更新,每间隔6个月做一次4类数据的全量更新。 中文分词-庖丁中文分词库 中文分词使用“庖丁中文分词库”,基于Apache开源协议。 庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了 国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。 Paodings Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。 能够对未知的词汇进行合理解析 全文搜索服务器Solr Apache Solr (读音: SOLer) 是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性,默认情况下这个属性的名字是 id,在 Schema 配置文件中使用:id进行描述。 Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。 全文搜索UI页面 搜索结果页面UI效果图如下图所示:

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档