- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
褓参阗读
智能搜索引擎技术初探
吴妮真
(百色职业学院,广西 百色 533300)
[摘 要]随着网络技术的不断发展,搜索引擎的智能化需求也与日俱增。本文分析传统搜索引擎的不足,阐述几种智能搜索引擎的
开发设计方案及现有技术。
[关键词]搜索引擎 缺陷 智能搜索引擎 设计方案
20世纪后期以来,全世界已处在网络信息风暴当中,人们在网 用户个人兴趣特征的权值算法计算信息在用户兴趣中的权重。经多
络上获取信息的依赖性已不容置疑。而如何更快速、更快捷、更准 次检索后,如果计算机结果符合算法中的判断公式,则可定义此信
确地在网络中搜索真正需要的网络信息也成为人们关注的焦点。上 息为用户个人举特征。
世纪开发的搜索引擎已成为人们获取网络信息的重要工具。随着网 用户兴趣特征模型是实现智能搜索引擎个性服务的关键 ,经
络信息量的不断增加,网络使用率的逐年攀升,传统搜索引擎已无 测试表明搜索引擎使用兴趣特征比未使用兴趣特征的搜索结果更
法满足人们的需求。因此,研究新一代搜索引擎也成为计算机技术 为精确。
的热门领域。搜索引擎是指根据一定的策略、运用特定的计算机程 2.增加语~.WEB搜索技术
序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供 语义WEB搜索由语义信息抽取模块 、语义信息存储索引模
检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎主 块、人机交互智能接 口模块及语义资源查询模块构成,其工作流
要包括目录搜索引擎、全文搜索引擎、元搜索引擎等。 程如下 :
一 、 传统搜索引擎的缺陷 (1)人机交互智能接 口模块负责搜索请求的输入和输出。
1.缺乏个性服务 (2)语义信息抽取模块负责网页信息的抽取。
对于用户的搜索请求只是简单的关键字匹配,如果不同用户以 (3)语义信息存储索引模块负责接收由语义信息抽取模块抽
相同的关键字进行搜索,则返回结果是相同的,没有结合用户的兴 取的信息,然后利用 自身的语义资源生成潜在的语义信息,并存人
趣、知识层面、搜索习惯等个人特点进行搜索;另外,返回的结果 知识库中。
没有能依照用户的需求性从大到小进行排序。 (4)语义资源查询模块负责接收人机交互智能接 口模块的形
2.无法充分理解关键字的语义 式化语义查询语句、翻译查询请求或推理算法函数、执行查询推理
由于搜索引擎对同义词、近义词等不能进行识别,那么将会造 操作,最后将结果返回给人机交互智能接 口模块。
成大量信息的丢失。例如用户 以关键字 “爸爸”一词进行搜索, (5)人机交互智能接 口模块将处理后的结果返回给用户。
当网页中不包含 “爸爸”而包含 “父亲”、 “爹爹”、 “爹”、 语义WEB搜索技术研究的 目的是使计算机更好地理解WEB信
“father”等词时,这些网页将无法做为结果返回给用户。 息。我国率先完成了第一个基于web语义的中文搜索系统原型,满
3.中文分词技术不完善 足对WEB并构资源的抽取和整合。为用户提供了友好智能的人机交
搜索引擎无法完全以人类的思想去理解关键字的含意,所 以可 互接口。
能会出现分词错误。由于英文是以单词为一个单位,一个单词亦可 3.增设学科门户智能搜索引擎
以单独表达一个完整的意思,一个语句中单词之间是以空格隔开, 学科门户智能搜索引擎由网页采集、网页智能加工、检索及用
搜索引擎很容易进行分词。而中文是以字为一个单位,至少需要 户接口4个模块组成。
两个字即一个词语才能表达一个完整的意思,但词与词之间并无任 (1)由网页采集模块下载网络中的某一学科的相关网页。
何符号隔开,因此需要搜索引擎对语句进行分词。这样,搜索引擎 (2)由加工模块首先对下载的网页进行标引及分类,然后按
对中文语句的分词就有可能造成误解。例如英文语句 “dev
您可能关注的文档
最近下载
- 怎样选购冰箱.doc VIP
- 2025年新生儿窒息复苏考试试题(附答案).docx VIP
- 系统性红斑狼疮护理查房.ppt VIP
- 魏晋玄学课件.ppt VIP
- 2020安徽芜湖一中高一自主招生考试语文试卷真题(含答案详解).pdf VIP
- 小学科学苏教版四年级上册第三单元《常见的力》教案(共4课)(2020新版).pdf
- 2024年包头市九原区社区工作者招聘真题 .pdf VIP
- 2021年安徽芜湖一中高一自主招生考试语文试卷真题(含答案详解).pdf VIP
- 二年级数学上册 作业本提优-第三单元提优测试卷 (含答案)(苏教版).docx VIP
- 工作票签发人负责人许可人上岗资格考试题B卷答案.docx VIP
文档评论(0)