- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息管理方案与信息系统专业毕业生求职信
信息管理方案与信息系统专业毕业生求职信
PAGE / NUMPAGES
信息管理方案与信息系统专业毕业生求职信
信息管理与信息系统专业毕业生求职信
一种全文检索的思路和实现
刘盈凯
经济与管理学院 2014 级信管一班
大纲:在最初进行设计的时候我是依照找寻引擎来设计的,在做爬行页面
的过程中发现了很多问题, 都是很难战胜的瓶颈。 因此放弃了这种方案, 采用了
单纯找寻当地文件的全文检索策略,全文检索方面有赫赫出名的 lucene ,之所
以没有增加 lucene 进来,是由于 lucene 封装了成立索引和盘问索引的过程, 作为毕业论文, 我想用自己思路来实现这个过程, 我实现了, 尽管很笨拙而且看似错杂。信息检索不是一个人的智力能完成的工作。 本文所议论的是信息检索领域的全文检索技术, 切词采用正向最大模式切词, 成立索引的时候采用的是流行的倒排索引技术,排序是使用 tf-idf 的统计方法,达到的目的就是简单,迅速,正确的找到我们所需要的信息, 而不需要对知识进行分类。 本文几乎没有在技术
上的创新,旨在讲清思路。让找寻不再奇怪。本检索程序采用 java 做为实现语言,采用找寻框的方式进行信息检索, 合用于各种实现静态化的网站系统和文本形式的文件系统。 重点词:全文检索 倒排索引
1、序言:第三次科技革命令人类由工业社会进入信息社会, 信息社会到来的时代称为“知识经济时代”。随着互联网的普及和数字信息量的爆炸式增加,能够让我们足不出户的能够接触到海量的信息。 现在,已经有一些优秀的信息检索产品,其中最常用的应该是智能找寻引擎了。 智能找寻引擎是在整个互联网上找寻信息,更多的企业中型网站系统,政府部门,都希望有自己的检索系统,能
够迅速正确的盘问到本系统中的信息。目前关于找寻的议论都集中
lucene
上,
lucene
诚然供应了便利,可是他在很大程度上影响了中国程序员在数据检索方
面的自主思虑。我也是用
lucene
进行过信息检索。本索引程序明显没有
lucene
优秀,在文中不再议论
lucene
的相关技术。本文的索引策略参照了很多资料,
其中也包括
lucene 。正如《 lucene in action
》中作者所说,找寻将成为编程
领域的热门话题。
传统数据库检索存在的问题:众所周知,
sql
语句能够经过
like
等重点字
进行般配,可是我们需要的是进行全文检索, 全文检索是一种将文件中全部文本
与检索项般配的文字资料检索方法。 sql 语句的检索只能是特定项,而且大多数
数据库都不支持大文本的模糊盘问。
2、核心算法实现
2.1 词库
2.2 停止词
2.3 切词
2.4 成立索引
2.5 排序
3、索引数据结构和索引数据积蓄算法
3.1 索引数据表结构及表之间关系关系
3.2 索引数据插入策略
3.3 索引数据更新策略
3.4 索引数据删除策略
4、索引模式实现方法
4.1 圆满索引模式实现
4.2 增量索引模式实现
5、关于准时任务的试一试
5.1 任务创办和执行的过程
5.2 索引删除同步实现
6、检索方法实现
6.1 带有任务表记的检索方法
6.2 重点词高亮实现策略
7、查全率和查确率
7.1 查全率剖析
7.2 查确率剖析
结束语:本文介绍了本检索程序的各个重要部分,本系统具备了高效全文
检索的特色,比方倒排索引,正向的最大般配。在效率上本系统抛弃了 hibernate
等基层数据库操作的封装,直接使用 jdbc 来进行数据库的操作。在一些重点部
分采用了批量办理的方式。 由于技术和智力水平有限, 在切词的正确性方面难做
到很精准。
本文并未直接的索引数据库,索引数据库使用本系统核心架构能够达到更
加精准的检索, 可是关于数据库的差异性办理自己知识存在短缺。 第三篇:信息管理与信息系统专业毕业生的就业远景剖析
2014 年以来,高校计算机专业初次就业率连年下滑,成为大学生就业市场上一大热门,碰到社会各方面的宽泛关注。 计算机专业人才是短缺仍是节余?计算机专业毕业生是“无业可就”仍是“有业不就”?本文就计算机专业大学生
供需现状和就业形势略作剖析。
一、 it 人才短缺
世界 it 人才短缺,需求理性调整
2014 年“网络泡沫”破灭后,全球 it 人才需求缩水,这是产业发展中的正常调整。尽管一些 it 企业大幅度减员, 但 it 人才供不应求仍是世界范围的现象,很多发达国家的人才缺口达到 20%。美国从 2014 年初开始, it 人才需求稳
步上升, 2014 年从业人员比 2014 年提升了 4.2%,至 2014 年计算机专业人才缺口将达到 67 万人。欧洲
原创力文档


文档评论(0)