- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
充电网全文检索数据索引.doc
充电网-全文检索解决方案
2015-08-03
目录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc426380691 一. 全文检索数据来源 PAGEREF _Toc426380691 \h 3
HYPERLINK \l _Toc426380692 二. 数据抓取规则 PAGEREF _Toc426380692 \h 4
HYPERLINK \l _Toc426380693 三. 中文分词-庖丁中文分词库 PAGEREF _Toc426380693 \h 4
HYPERLINK \l _Toc426380694 四. 全文搜索服务器Solr PAGEREF _Toc426380694 \h 5
HYPERLINK \l _Toc426380695 五. 全文搜索UI页面 PAGEREF _Toc426380695 \h 6
全文检索数据来源
课程数据:
所需检索字段:id(唯一标识索引)、课程名称、课程简介、授课教师、所属教师(机构)、课程类型、发布时间、购买量、点击量、收藏量;
点播课程:课件名称、课程有效期;
直播面授课程:报名开始时间、结束时间、开课日期;
面授课程:面授地址
排序字段:发布时间、综合评价;
课程数据分词查询字段:课程名称、课程简介、授课教师、发布时间;
项目数据:
需要检索字段:id(唯一标识索引)、项目名称、项目简介、项目类型、所属机构、项目类型、项目包含课程、报名开始时间、结束时间、发布时间、购买量、点击量、收藏量;
项目数据排序字段:发布时间、综合评价 ;
项目数据分词查询字段:项目名称、简介、所包含课程
教师数据:
需要检索字段:id(唯一标识索引)、教师名称、教师简介、教师地址、教师评分,入住时间、包含课程名称
教师排序:教师评分,最后登陆时间;
教师分词查询字段:教师名称、教师简介、教师地址、包含课程;
机构数据:
所需检索字段:id(唯一标识索引)、机构名称、机构简介、机构地址、机构评分、入住时间;
机构偏序字段:机构评分、入住时间;
机构分词查询字段:机构名称、简介、机构地址、包含项目(课程)、
注:四中数据同时出现排序优先级
项目课程机构教师
机构排序:最后登陆时间,综合评价
数据抓取规则
1、增量抓取,每间隔1小时做一次4类数据的数据抓取。
2、全量更新,每间隔6个月做一次4类数据的全量更新。
中文分词-庖丁中文分词库
中文分词使用“庖丁中文分词库”,基于Apache开源协议。
庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了 国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
Paodings Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析
全文搜索服务器Solr
Apache Solr (读音: SOLer) 是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性,默认情况下这个属性的名字是 id,在 Schema 配置文件中使用:id进行描述。
Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
全文搜索UI页面
搜索结果页面UI效果图如下图所示:
您可能关注的文档
最近下载
- 平狄克-微观经济学-第七版--课件.ppt VIP
- 电线电缆质量手册范本.doc VIP
- 中职英语高教版(2025)基础模块1Unit 1 Personal and Family Life 单词课件(共20张ppt)(含音频+视频).pptx VIP
- 2025年高考语文一轮复习考点通关【语言文字运用】考点38 正确使用词语(含答案).docx VIP
- 猜谜语-动物(十六).docx VIP
- 2025年高考语文一轮复习考点通关【语言文字运用】考点41 辨析与鉴赏修辞手法(含答案).docx VIP
- 沃森(VicRuns)VD120A-GS系列变频器说明书用户手册.doc
- 2025年10月离任审计述职报告范文模板.docx VIP
- 2024年《社区JW工作规范(试行)》题库.docx
- 跨境电商客户服务课件:学习情境四 跨境电子商务售中沟通与服务.pptx VIP
文档评论(0)