- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于WEB的智能搜索应用技术探讨的论文.doc
基于WEB的智能搜索应用技术探讨的论文
摘要:伴随着inter的日益发展和壮大,如何在浩瀚的网络信息海洋中快速、高效地寻找特定的主题内容,成为困扰信息服务提供者的主要问题。针对该问题,基于当要查找一个容易引起多意理解的概念如:“病毒、神经网络”等,用户可能就会深入多个目录树型结构中去。二是如果用户查找的信息没有对应的分类项,则无法进行搜索。
第二代搜索引擎是基于用户输入的查询关键词检索型的搜索引擎,以google和baidu 、altavista为代表,通过使用网络机器人(ail 和网上寻呼等服务。近期许多搜索引擎已开始提供个性化的服务,例如 yahoo 的“my yahoo”、infoseek 的“personalized start page”等,它们允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在该页面上。除了简单的 and、or 和 not 逻辑外,不少搜索引擎还支持相似查询,例如 altavista、northern light、lycos 等支持短语查询,altavista 的高级搜索功能支持 near 逻辑等;在消除内容重复的网页方面,一个比较成熟的方法就是对重复信息的链接进行合并, 即将页面信息重复的链接不一一呈现在结果页面中, 用一外部链接来单独显示这些重复的链接地址。在 google推出的学术搜索引擎 (http: //scholar. google. /) 中已经有这样的优化实现了, 它会将同一文献的不同链接地址放在一条结果信息中, 这样用户就可以在前三页中看到更多的页面链接, 从而提高了工作效率。
再者,在搜索引擎的智能化研究方面,通过前端抓取网页时采用多个craamma 以及国内的万纬搜索等,而离线式桌面搜索引擎 =
该计算公式求得的近似度值sim能同时兼顾向量夹角和长度两个因素,当两个网页内容迥异时,向量值为1。同理,当两个网页内容相同时,值为0,内容部分相关的两个网页sim值∈ (1,0)[5] 综上所述,sim值可以成为判断两个网页是否为内容雷同或为不相关的标准。
四、全文索引系统的建立
笔者认为,应用java jdk开发智能ent、分析以及建立索引四部分。lucene的逻辑结构如图所示:
在整个检索过程中,语言分析器,查询分析器,甚至搜索器都提供了抽象的接口,都可以根据需要进行定制。但是,lucene的提供的分析器analyzer对中文语句的支持度不够理想,因此,有必要选择一个良好的中文自然语言、语句分析(切词)工具。和lucene整合。来达成对中文查询语句的理解。
由于对中文信息语句进行分析处理,要远比英文复杂(英文单词之间的空格,成为天然的分词依据),而中文查询语句的科学分析(切分词语)、关键词语提取又是构建智能)系统。
(ictclas系统工作示意图)
该系统具有中文分词、词性标注、未登录词语识别等功能,经专家组评侧,该系统词性标注处理速度接近32kb/s,分词正确率高达97.58%,中国人名字的识别召回率接近98%[4]。同时,中科院也公布了该系统的基于c++语言的开发接口。使得中文搜索引擎的开发获得了非常有效的中文语句分解工具。
研究智能检索技术的目的是为了解决丰富的信息资源和低效的信息获取手段之间的矛盾,目标是从关键词的智能化选择、检索范围的确定到检索结果的精炼逐一求精,尽可能提高 support for saclabel and fault tolerant inter
service.distributed systems engineering [m] 2001.7
[4] 杨德仁.顾君忠 一种知识型网络爬虫的设计与实现[j].华东师范大学学报 2006,(3):93~94
[5] 彭曙蓉.王耀南 针对小文本的].2006.4
文档评论(0)