- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文智能搜索引擎技术研宄
引言
随着互联网的快速发展,网络信息量不断增加。面对 数量庞大,种类多样的信息,一般搜索引擎无法为用户提供 准确的检索结果,开发新的搜索引擎势在必行。智能搜索引 擎不仅要提高信息检索准确性和全面性,还要满足用户个性 等搜索信息需求。搜索引擎与智能代理相结合的智能化搜索 引擎技术能够比较好的实现这一目标。
1搜索引擎
搜索引擎基本原理
搜索引擎由信息搜集系统、文件处理系统、索引系统 和检索系统组成。
信息搜集系统通过网页抓取程序在网络中顺着网页的 超链接抓取网页,搜集文档的基本信息并下载至搜索引擎本 地,然后将文档和其基本信息分开,并保存到原始文档数据 库和文档信息数据库中。
文件处理系统负责将需要索引的文件转换成具有统一 编码格式的文本文件。信息搜集系统从网络上下载文件,保 存到本地供索引器索引。文件文本格式种类繁多,如纯文本 文件、html格式文件、word文件、pdf文档等,文本格式相 同的文件,字符编码方式也不尽相同。文件的异构性要求文 件处理系统将各种不同格式的类文本文件转换成纯文本文 件。
索引系统将程序收集到的文件进行处理,建立索引库 和索引。相关处理还包括去除重复网页、分词、判断网页类 型、分析超链接,计算网页的重要度、丰富度等。
检索系统通过用户输入的关键词从索引数据库中找到 与关键词匹配的网页,并按照文档得分的高低依次显示在用 户浏览器中。
1.传统搜索引擎的局限性
面对浩如烟海的网络信息,用户想要通过一般搜索引 擎获取准确和全面的信息较困难。其局限性表现在:
信息检索方式单一。搜索引擎一般提供网站分类查询 和关键词全文检索两种方式,这两种方法均容易造成信息丢 失,不能全面检索用户需要的信息;不能对用户输入的关键 词进行词意分析和词意扩展。如今信息的多样化要求搜索引 擎不仅要检索出文档,还要检索需要的图片、视频、音频等。
不能个性化制定。传统搜索引擎提供相同的界面和检 索策略,不能提供用户信息定制,不同用户输入相同的查询 条件返回的结果相同。不同领域的用户对同一个关键词的搜 索返回的检索结果应该不一样,智能搜索引擎能根据用户专 业背景和网页浏览历史检索出用户需求的信息。
对信息的标引深度不够。搜索引擎检索的结果往往只 提供线形的网址和包括关键词的网页信息,或者返回过多的 无用信息,特别是对特定文献数据库的检索更显得无能为力
[1]。
信息更新能力低。搜索引擎信息收集和查询是两个分 离的过程,缺少有机结合。网络信息资源呈分布式、动态、 快速增长,搜索引擎的集中化架构不能跟上文档的扩张速 度,也就不能有规律地及时更新数据库,用户检索到的结果 可能不是最新信息。
智能搜索引擎
智能搜索引擎应摆脱传统搜索引擎的局限性,更加智 能化,更具主动性,提供多元化的检索方式,为用户提供个 性化制定,检索出满足用户个性需求。
智能搜索引擎主联盟要特征
智能性。智能化搜索引擎网络蜘蛛通过自主启发式学 习选择最有效的搜索策略和最佳时机,在特定站点或者整个 因特网搜集和整理信息。智能化搜索引擎可以将多个引擎的 搜索结果进行整合,作为一个整体存放到数据库中。
个性化。智能化搜索引擎提供个性化制定服务,用户 注册基本信息,如年龄、专业背景、工作方向等,通过分析 用户基本信息及平时浏览网页的记录制定出用户兴趣模块, 检索出来的信息和用户兴趣相关,不同兴趣的用户输入同一 个关键词返回的结果可能不同。
多元化。智能化搜索引擎有多元化的检索方式,提供 基于大众的搜索分析,基于自然语言、关键词、概念和上下 文,通过相关反馈技术检索可选择查询路径。对关键词进行 词意扩展和词意派生,实现准确的分词,从而更加准确地把 握用户的搜索需求。
协作性。智能化搜索引擎能通过各种通信协议和其它 智能代理进行信息交流,并可以相互协调共同完成复杂任 务[2]。
2.智能搜索引擎技术
要实现智能化搜索引擎,当前要特别加强对汉语分词 技术、短语识别技术、同义词处理技术、知识库与推理机应 有技术和人机对话智能技术的研究。
智能化搜索引擎对语义的理解主要体现在以下两个方 面:一是对用户输入的关键词的理解;二是对网页信息内容 的理解。传统搜索引擎对关键字的识别是较机械的匹配方 式,容易造成信息不准确和丢失。智能化搜索引擎可对用户 输入的关键词进行语义理解,并返回用户想要的信息。自然 语言语义理解的技术主要有4种:①汉语分词技术。中国文 化博大精深,语句是由各种词语按照一定的语序组成的。汉 语对词语的划分相对英文来说复杂得多,汉语词语可以是由 一个字或者多个字组成。汉语分词技术主要有基于字典、词 库匹配的分词、基于词频度和基于知识理解的分词,通过这 些方法准确把握用户输入关键词的含义;②短语识别技术。 短语是由词语所构成的,是句子中基本的识别单位,在汉
您可能关注的文档
最近下载
- (高清版)DB62∕T 3175-2019 强夯法处理黄土地基技术规程.pdf VIP
- 最新苏教版三年级数学上册单元测试题及答案全册21套(最全).doc VIP
- 2025年《中国卒中中心建设指南》要点 .pdf VIP
- TCEPCA《构网型静止无功发生器现场系统调试技术规范》.docx VIP
- DB14T3520-2025水土保持梯田工程技术规范.pdf VIP
- GB50607-2010:高炉喷吹煤粉工程设计规范.pdf VIP
- AQ 2003-2018 轧钢安全规程(正式版).docx VIP
- SMT工艺能力单元6--掌握贴片设备和贴片工艺.pptx VIP
- 15D502 等电位联结安装.pdf VIP
- 就业社会政策..ppt VIP
原创力文档


文档评论(0)