- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垂直搜索引擎在房產信息领域的开发和应用
垂直搜索引擎在房产信息领域的开发和应用
作者:赖祥芳
E-mail:elxf99@
QQ版权声明:本文为赖祥芳原创,如要引用本文,需保留作者姓名、MAIL、QQ。
摘要:垂直搜索就是将网页信息进行结构化抽取,把非结构化数据转化成统一格式的信息数据库并提供给用户使用。本文从数据采集、数据抽取、数据加工和验证三个方面讨论垂直搜索引擎在房产信息领域的开发和应用。垂直搜索引擎是我们公司切入互联网领域的一个很好切入点,建议公司考虑这方面的计划。
关键字:垂直搜索;垂直搜索引擎;结构化抽取;搜索;负载均衡;关联信息;排重;数据加工;分词
垂直搜索的定义
要理解垂直搜索,下面的两个概念需要分清楚:
垂直搜索:垂直搜索是针对某一行业或某一领域范围内的数据检索。垂直搜索的主要工作就是将网页信息进行结构化抽取,把非结构化数据转化成统一格式的信息数据库。垂直搜索是相对百度、谷歌这类通用搜索引擎提出的概念。百度、谷歌的讲究的是搜索的广度,具体的来说就是搜索引擎搜索到的页面数量,搜索到的内容涵盖互联网的范围,要求的是广和全。垂直搜索也要求广和全,但是这个广和全是在行业范围内的,它更关注的是专和精,要求行业深度。从这个角度出发,其实垂直搜索也可以叫做行业搜索。
垂直搜索引擎:垂直搜索引擎是垂直搜索一个具体实现实例。垂直搜索引擎对网络数据采集具有明确的目的性,它只搜索并采集行业内数据。垂直搜索引擎对采集到的数据要进行分析、整理,最后通过一定表现形式把数据提供给用户使用。最常见的表现形式是通过WEB页面提供一个查询的界面,后台应用根据用户输入的关键字进行检索,并把检索结果通过WEB页面展现给用户。
垂直搜索包含三个搜索的概念在里面。用户对数据的检索这是一个搜索概念;搜索引擎搜索行业网站是一个搜索概念;搜索引擎对行业网站内的行业数据搜索又是一个搜索的概念。要做好一个垂直搜索引擎,需要对这三个搜索的概念以及它们之间的关系进行深入的理解。在整个垂直搜索系统中,它们分别占据了不同环节的关键位置,侧重点各不相同,需要区别对待,但是从系统的角度看,又是需要它们相互协作才能完成整体的工作,这又要求把这三个搜索有机的结合起来。
用户搜索,用户搜索直接关系到用户体验。用户体验是改进搜索引擎重要参考指标,同时也是检验搜索引擎成功失败的标志。用户搜索的重点在于考虑提供给用户的搜索的方式是否简单快捷,搜索引擎对用户搜索的内容响应速度快慢,返回的搜索结果是否精确。但是,这些的前提需要搜索引擎对行业网站的行业数据抓取全面来支撑。
搜索行业网站。行业网站是垂直搜索引擎数据来源的主要对象,只有尽量多的搜索行业范围内的网站,才能获得更多的行业数据支撑用户搜索,让用户有更好的体验。
行业数据搜索。只有充分、全面的行业数据,垂直搜索引擎才能体现出它的价值,才能更好的提供服务。
垂直搜索引擎在房产信息领域的开发应用
系统目标
快速构建一个房产行业的垂直搜索引擎,能够以较强的时效性对房产类的信息进行提取、分类,需要对采集到的数据进行格式转换。用户可以在WEB前台通过文字或者在地图上指定一定范围搜索房源信息,房源信息查询结果可以通过文字、地图的形式展现。
垂直搜索引擎的选型
考虑研发成本和软件研发进度,采用模板方式实现网页数据抽取。使用VS.NET 2005作为软件开发工具。MS SQLSERVER 2000作为数据库服务器。Lucene.Net.作为检索的索引工具。使用51的地图接口实现地图功能。
系统架构
搜索引擎工作的时候IO吞吐量大,处理数据的时候有大量的字符串操作,对CPU和内存的要求高。如果索引数据库和搜索引擎采集系统都在一个服务器上,搜索引擎采集、抽取数据时,势必会影响索引数据库的工作效率,特别是会影响终端用户检索房源的效率,带来不好的用户体验。用分布式的结构能够较好的解决这个问题,把系统的各个模块按照功能的不同分别发布在不同的应用服务器上,均衡系统负载。系统结构如图:
系统结构图
其中WEB前台和索引模块发布在同一台服务器,采集模块和数据库系统发布在同一台服务器。采集模块和索引模块通过数据库系统完成数据交互,采集系统把抽取完成的数据保存到数据库中,索引模块从数据库中提取关键字段建立索引数据库。用户通过WEB前台进行数据检索的时候首先通过索引模块在索引数据库中搜索,当用户需要详细信息的时候再从数据库提取具体数据。
数据采集
使用C# 的HttpWebRequest、HttpWebResponse类,可以方便的实现WEB页面的采集,同时可以使用多线程技术提高采集效率。数据采集需要注意以下问题:
公共数据的访问控制
数据采集需要注意多线程之间公共数据互斥访问,特别是对于要进行数据采集的URL,如果没有控制好线程间的URL列表读取,造成多个线程处理相同URL的情况,即增加了
您可能关注的文档
最近下载
- JSA作业安全分析表格.docx VIP
- 汽车维修-SSP343_新AudiA4‘05.pdf VIP
- 2001款一汽大众奥迪A4结构和功能技术自学手册.PDF VIP
- 新课标统编版四年级上册《麻雀》汪伟名师公开课教案.docx VIP
- 2025-2026学年北京市中国人民大学附属中学高一上学期第一次月考数学试卷含详解.docx VIP
- 室外给水排水管道及设施安装-08SS523 建筑小区塑料排水检查井.pdf VIP
- ihi trx寿力离心空压机操作手册使用说明书.pdf
- 2024全新婴幼儿喂养ppt课件.pptx VIP
- 开幕式活动方案.docx VIP
- 冠脉介入治疗术后并发症护理及预防.doc VIP
文档评论(0)