- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
企业内基于数据库搜索引擎的可行性研究
前言
面对越来越多的数据报告冲击,繁杂的数据,获得数据的不便以及定制数据
的繁琐,用户(特别是高阶用户)感觉到无法适。简单访问,就如同自然语言
检索一样,完成最快的获得需要的数据,而现状就是,用户可以通过文档级检索,
很快的获得相关情报资料(虽然存在着查全和查准的矛盾),而基于数据库的简单
检索,还没有真正的实现,其相关症结所在,就是用户的输入条件的不确定性和
数据库的相对刚性这个冲突,用户很难按照数据的要求完成自己需要数据的描
述,而数据库也很难根据用户的自然语言进行判读,所以通常的解决方法就就是
高阶的用户将向关想法描述给专业人士,然后专业人士从数据库中获得再提交给
高阶用户,这种状况非常不能满足越来越多的快速数据要求
提出了基于数据库搜索引擎的方案,其目的就是有限度解决此中状况,因为
在世界范围内,自然语言的解析还处于研究状态,所以这里讲的是用户在一定范
围内采用自然语言关键字的方法,而搜索引擎对用户的输入进行解释,提交数据
库,从而完成比较适合用户需要的解决方法
第一章功能流程描述
在以上系统中,搜索引擎起到一个枢纽的作用,是整个系统实现成败与否的
关键,其主要完成以下功能:
一)要有一个初步的词汇表,从而定义出数据库当前数据项的所有描述性短
语,结合数据归类等方法分别整理存放
二)对描述性短语结合自然语言和用户习惯,增加语义解释层,组织出相应
用户命中区域,提高用户的搜索有效性
三)引擎要有学习功能,就是能够对用户的输入进行跟踪统计,并修正引擎
的搜索命中规则,从而提高用户的搜索正确和有效性
四)根据用户的搜索正确次数以及使用频率,对一些常用数据进行固化,提
高系统的相应能力
五)根据搜索引擎的用户搜索成功次数统计,结合系统权限管理办法,整理
出用户的搜索偏好,进一步提高用户的搜索输入速度
六)最终结合显示的需要,建立显示支撑系统,对不同的数据的展示方式进
行定义,用户可以结合文字、图形等方式获得数据,接口定义
第二章技术点分析
2.1纠错容错
中文分词问题的研究已有二十多年历史,其间已提出了多种分词算法.总的
来说,这些算法可分为三类:第一类为基于词典的机械分词算法;第二类为基于统
计的分词算法;第三类为基于知识的分词专家系统。鉴于本系统的词汇范围有限,
所以采用第一类为主,第三类为辅的方法来进行分词。
纠错容错是要有一定前提的,即用户的输入要接受一定规则的约束,比如语
言种类的约定(中文??英文?)、分隔符的约定、短语之间的逻辑关系表达约
定(“and”“or”“not”)等方面,因为在目前技术情况下,尚未有针对任
何自然语言的机器判读研究的成功,所以要进行一定的约束,主要体现在可以控
制的范围内进行用户的表达分析,主要能够考虑到的范围如下表所示:
范围解决方法
日期对各种日期表达方式进行定义,然后采用优化的算法
进行判断
文字对同音同码等文字和专业词汇表以及地域词汇表等
进行比对
特有词汇对相应领域内的专业术语,即不同叫法是指同一事务
的方法进行容错如:SPCP服务提供商内容提供商
等
缺条件短语系统对缺少的条件可以设置不同情况,不同人员的缺
省值
顺序容错即能够按照约定完成指定语言逻辑关系的判读,如“9
月10月用户数收入”和“9月用户数10月收入”
其实是两种意思
特殊领域如完成法定假日的定义和判别,如“2005年假日收
入工作日收入”“今年国庆”等词汇的判读
2.2业务规则判读
您可能关注的文档
- 某年工程造价案例解析练习题.pdf
- 中医医院护理个人工作计划.pdf
- 《模拟电子技术》试题(-)(-).pdf
- 药师试题药物分析练习题二.pdf
- 再升科技:再升科技2023年一季度报告.pdf
- 《模拟电子技术》实验指导书---------.pdf
- 典故大全之人物——官吏教学设计.pdf
- 手术室护士自我鉴定.pdf
- 金蝶K3标准财务练习题.pdf
- 建设工程施工管理练习题-.pdf
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
最近下载
- 22J403-1 楼梯 栏杆 栏板一 (1).docx VIP
- 越野汽车强制锁止式差速器的设计.docx
- 2025年二建《市政公用工程管理与实务》案例300问.pdf VIP
- 华为鸿蒙介绍:于鸿蒙之中万物静默生长,开源生态繁花似锦竞相绽放(29页).pptx
- 优质课一等奖高中语文必修四《永遇乐·京口北固亭怀古》 (2).doc VIP
- 中式面点制作工艺章节测试答案.pdf VIP
- 2024年信息系统项目管理师(综合知识、案例分析、论文)合卷软件资格考试(高级)试题与参考答案.pdf VIP
- 体育概论(第二版)全套教学课件汇总.pptx
- 虚拟数字人全景深度解析.docx
- 《立体车库的PLC设计》.doc
文档评论(0)