网站大量收购独家精品文档,联系QQ:2885784924

使用C#开发搜索引擎快速入门.docVIP

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
使用C#开发搜索引擎快速入门

使用C#开发搜索引擎快速入门 搜索引擎经过最近几十年的快速发展,已经改变了人们的记忆方式。有研究表明,人们会忘记自己能在网络上找到的信息,而记住自己认为无法在网络上找到的信息。研究也发现,人们更容易记住在互联网的何处能找到这些信息,而不是记住信息内容本身。从某种意义上讲,由于有了搜索引擎,我们才可以把一些记忆任务交给机器来完成。 很多网站需要开发搜索功能。不仅如此,学会自己开发搜索引擎还将会为解决很多问题提供一种新方法。本书介绍使用流行的.NET(C#)编程语言开发搜索引擎。一件事情有更多人参与,就更容易做好。为了更好的协作,本章介绍的搜索引擎大部分采用开源软件实现。读者可以与猎兔搜索专业的技术开发人员一起改进相关实现。制作过程中所用的程序在所赠光盘中都能找到。 本章首先介绍搜索引擎的应用现状,然后介绍搜索引擎整体结构,并深入展开分析搜索的基本技术,最后复习下C#编程基础。 1.1 各种搜索引擎 搜索引擎有运行在大规模云计算的通用搜索引擎,也有一些行业搜索以及网站搜索。通用搜索引擎是大颚,每一只都有自己独立的领地。行业搜索是领头雁,是各行业的旗帜。而网站搜索则像一只只小麻雀,麻雀虽小,五脏俱全。 1.1.1 通用搜索 目前通用搜索引擎的组织方式主要有网络综合搜索引擎和网络主题资源搜索引擎两种。其中网络综合搜索引擎能够广泛地采集各个互联网站点资源,并对其进行页面搜索,将索引结果存入索引数据库,供网络用户检索,提供互联网网络资源地导航功能的工具,如Google、百度等。 这样的公司需要大量的服务器和专业开发人员,运营开销大。解决经济上可行性就是一个问题。通用搜索引擎的主要收入是在搜索结果页中展示与用户输入的关键词相关的广告。条幅广告更早出现。按点击付费的关键词广告比条幅广告的收费额度更低。点击一次广告可能只收几分钱,而条幅广告的计价单位至少在几百块(人民币)以上。那些曾经被忽视的中小企业,一度被认为是游离在广告市场之外的客户,突然成了时代的宠儿。地球上最大的动物鲸鱼吃的是小鱼小虾,只有这样才能摄入足够的食物。 通用搜索引擎企业是资本密集型企业,这样的公司往往前期有风险投资,有一定盈利后成为上市公司。 1.1.2 垂直搜索 垂直搜索是针对某一个行业的专业搜索引擎,例如搜房(/),生活信息搜索(),职位搜索(),39健康网上的搜索。垂直搜索是搜索引擎的细分和延伸,是对网页库中的某类专门的重要数据进行处理后,再对信息进行一次整合,定向分字段抽取出需种形式返回给用户。 垂直搜索需要从茫茫的互联网中获取行业信息,信息按行业过滤和分类是必不可少的。垂直搜索引擎和普通的网页搜索引擎的另一个最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,比如网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行深一步的加工处理,如去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。 整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。 垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。 垂直搜索引擎大体上需要以下技术: (1)定向的网络爬虫; (2)网页结构化信息抽取技术或元数据采集技术; (3)中文分词、全文检索; (4)其他信息处理技术。 垂直搜索引擎的技术评估应从以下几点来判断: (1)全面性:应该能从众多的来源采集信息。 (2)更新性:用户最好可以在几秒钟或几分钟内看到最新发布的信息。 (3)准确性:数据分类准确,不能包含重复冗余信息。 (4)功能性:功能完善,可以同时搜索文字信息,图片,视频,地理信息等。 垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但它们却没有技术优势,绝对不要想象着招几个人就可以搞定垂直搜索的全部技术。作为一个需要持续改进可运营的产品而不是一个项目,对技术的把握控制程度又是垂直搜索成功的重要因素之一。与专业的搜索技术提供商合作共赢是一种现实的解决方法。其中猎兔搜索是专业提供基于Lucene和自然语言处理商业支持的企业搜索公司。 1.1.3 站内搜索 站内搜索有三种流行的实现方式: 基于数据库的搜索 比如SQL Server或者MySQL内部都有对全文检索列的支持。 基于爬虫抓取的站内搜索 Google通过从外部抓取网页的方式提供免费的站内搜索。 站内搜索软件系统 通过和数据库的同步利用Lucene建立独立的全文索引的站内搜索系统。

文档评论(0)

dlmus + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档