- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数控解释器的三字符模块的设计与实现
基于Hadoop框架的电网业务深度搜索引擎的设计与实现
—— 研究生论文中期汇报
导师:吕立
学生:徐明子
报告提纲
1、课题的背景与意义
2、课题论文进展情况
3、已取得的阶段性成果
4、存在的问题
5、下一步工作计划和内容
6、已取得的科研成果
7、参考文献
一、课题的背景与意义
电力行业在进行信息化建设的同时面临着挑战。
集中式搜索引擎遇到瓶颈,同时综合搜索引擎在处理面向主题领域的搜索需求时,暴漏一些问题,如搜索效率低,信息覆盖不全。
课题的背景与意义(续)
国家电网公司“SG186工程”:为智能电网建设和以“云计算”为特征的电网企业IT架构技术整体支撑能力的提高,奠定了良好的治理平台与建设基础。
国家电网科技项目“云计算在大并发、复杂计算特征下的电网业务场景应用技术研究 ”第3子课题——云环境下的电力业务深度搜索引擎原型系统的研究与开发。
二、课题论文进展情况
(1)研究分析和归纳电力业务跨系统数据如实时数据、运行数据、状态数据等的深度搜索需求。
(2)针对电力系统特点,研究具备电网特色的爬虫技术、结果排名算法、搜索结果综合可视化技术等。
(3)基于已有电力业务数据模型,研究云计算搜索引擎数据索引技术(快速索引构建、高效索引存储等)。
课题论文进展情况(续)
(4)研究电力业务数据智能化搜索技术,包括基于语义的搜索、信息聚合、信息推送、个性化搜索技术等。
(5)研究深度搜索引擎应用的分级权限控制技术。
论文开展至今已完成前三部分的大部分工作。
三、已取得的阶段性成果
完成了电力业务跨系统数据的深度搜索需求分析。
电网数据广域分布、种类众多,包括实时数据、历史数据、文本数据、多媒体数据等结构化和非结构化数据,数据查询处理的频度和性能要求也不同。
已取得的阶段性成果(续)
完成对云计算搜索引擎数据索引技术的研究
a 完成索引的创建
已取得的阶段性成果(续)
b 对索引性能进行改进
索引压缩技术
内存缓存策略
Lucene的类IndexWriter还提供了对缓冲区进行控制的参数
已取得的阶段性成果(续)
测试结果
合并因子 最小合并文档数 最大合并文档数 索引时间(秒)
10 10 Integer.MAX_VALUE 386
100 10 Integer.MAX_VALUE 245
100 100 Integer.MAX_VALUE 179
100 100 1000 184
1000 1000 Integer.MAX_VALUE 153
四、存在的问题
1、测试的数据量还远远不够
2、有些模块的算法可以改进
3、Hadoop和Lucene的结合问题。
五、下一步工作计划和内容
1)研究电力业务数据智能化搜索技术
2)研究深度搜索引擎应用的分级权限控制技术
3)对系统进行测试
4)2012年2月-3月准备论文答辩
六、已取得的科研成果
徐明子,吕立,李喜旺.“面向电网业务全文搜索引擎的索引技术研究”.已被《计算机系统应用》接收,审稿中。
七、参考文献
[1] 蒋建洪.主要分布式搜索引擎技术的研究.科学技术与工程.2007.5.
[2] 庄毅,黎浩宏.搜索引擎技术现状及发展动向.计算机时代.2002.8:1-3.
[3] 陈观林,陈明明.基于Lucene的FTP搜索引擎的设计与实现.
[4] 胡,封俊.Hadoop下的分布式搜索引擎计算机系统应用.2010.
[5] 潘涛,梁正友.Nutch中网页排序效果的改进方法.软件技术与数据库.2010.7.
[6] 程苗,陈华平.基于Hadoop的Web日志挖掘.计算机工程.2011.6.
[7] 赵海波,黄勇理,陈胜,向隆刚,郑楚光.基于电厂运行数据库的专业智能搜索引擎.电力自动设备.2003.8.
[8] 马睿,黄穗.基于补偿的Nutch搜索引擎的设计与实现.科学技术与工程.2011.12.
[9] 王兆宇,乐嘉锦.基于Lucene的个性化站内搜索引擎的研究.计算机应用软件.2011.12.
[10] 吴宝贵.基于Map/Reduce的分布式搜索引擎研究.现在图书馆情报技术.2007.
[11] Cailan Zhou,Bin Feng,Zhihao Li.Research and Implementation of the Small-scale Search Engine Based on Lucene.International Conference on Compu
您可能关注的文档
最近下载
- 本田裂行维修手册全一本_本田SDH125T-31摩托车维修手册.pdf VIP
- 新22G04 钢筋混凝土过梁.docx VIP
- 【培训PPT】水肥一体化技术及应用.pptx
- 附录一、卫生部颁《医院信息系统基本功能规范》(草案).pdf VIP
- (完整版)仁爱英语八年级上册第二单元测试.doc VIP
- 2025年部编人教版(统编版新教材)八年级初二上册道德与法治教学计划及进度表.docx
- 植物基因技术(中国药科大学生物工程所有课件).ppt VIP
- 电子商务基础(第2版)全套PPT课件.pptx
- 《感染性休克》ppt课件.pptx VIP
- 2019版南方区域AGC发电单元调频指标计算规范.docx VIP
文档评论(0)