实现一个垂直育儿搜索引擎系统探索.docVIP

下载本文档

7
0
约7.69千字
约 17页
2018-06-23 发布于福建
举报
版权申诉

实现一个垂直育儿搜索引擎系统探索.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实现一个垂直育儿搜索引擎系统探索

实现一个垂直育儿搜索引擎系统探索　　【摘要】随着计算机技术和互联网技术的飞速发展，并逐步向社会各个领域渗透，各行各业都开始使用网络来获取和发送信息。育儿领域也是如此，越来越多的育儿信息用户选择利用网络来获得育儿信息支持。面对丰富而繁杂的网络育儿资源，育儿用户惊喜和无奈并存，惊喜的是网络育儿资源丰富而全面，无奈的是查找总是很麻烦。如何有效地整合这部分资源，为广大育儿信息用户提供方便？搜索引擎技术发展了十几年，已经渐趋成熟和完善，垂直搜索技术业已开始深入到各行各业，并取得成功的应用；育儿领域至今还没有出现任何类型的专业搜索引擎，广大的用户群体都在期待着能有一个专业而实用的垂直搜索引擎帮助他们获取所需要的信息。本文作者采用成熟的技术和一些开源代码构建了一个垂直育儿搜索引擎模型，希望抛砖能够引玉，引起广大同行的注意。　　【关键词】搜索引擎；垂直搜索引擎　　1.垂直育儿搜索引擎开发工具组件　　本搜索引擎系统主要由搜集子系统、检索子系统和查询子系统三大部分构成，运用.NET平台和SQLServer2008大型数据库、开源Lucene.Net软件、开源盘古中文分词等技术实现，具备垂直搜索引擎的完整结构和功能。其内核部分包括：抓取程序、分词程序、索引程序、检索程序等。　　本系统开发的硬件和软件环境如下：　　硬件环境：CPU类型P4，内存1GB。　　操作系统：Windows SP2 　　Web服务器：IIS 6.0 　　数据库系统：SQL Server 2008 　　开发工具：visual studio 2008 　　本系统中有些模块是参考了开源代码以后，在此基础上进行改造的，具体包括：　　本文的抓取程序Crawl参照My Downloader运用.Net平台C#语言开发　　本文的分词程序PanGu.Lucene.Analyzer运用PanGu分词组件和Lucene.Net分词技术开发。　　本文的索引、检索程序采用Lucene.Net的框架，利用C#语言开发。　　2.垂直育儿搜索引擎的资源抓取　　2.1 育儿资源发现　　这是为垂直育儿搜索引擎提供数据来源的保证，寻找符合育儿主题的资源网站和网页地址，能有效提高垂直育儿搜索引擎的数据收录情况。要完成育儿资源的定题搜索和下载，有两种途径：一是???定URL，人工控制下载；二是通过给定育儿类关键词，对锚文本进行判断，判断它是否是此类网站，然后进行下载。本文用第一种途径，历经2年的时间，手动完成国内育儿类网址的遍历，基本上保证了所收集的育儿类网站都是专业和稳定的。　　本文的初始育儿资源发现策略有：　　利用网址导航。　　网址导航能较集中地提供部分育儿类网址，把每个网址导航里的育儿网址记录下，综合后去重，得到部分育儿URL列表。　　利用通用搜索引擎。　　用育儿、宝宝、0-3岁、0-6岁等作为关键词在多个通用搜索引擎上搜索，集中抽取育儿URL，得到部分育儿URL列表。　　利用web2.0育儿社区、育儿博客。　　有些网友总结出来的“育儿网址大全”，也都很好，分析之后，得到部分育儿URL列表。　　通过权威育儿网站的超链接。　　权威的专业育儿网站页面上的网址列表，都是比较稳定的育儿类网站的URL。　　2.2 育儿专题信息抓取　　本抓取程序Crawl是参照My Downloader 　　在.Net平台上运用C#语言开发的[1]。My Downloader是由由巴西人Guiherme Labiqalini编写的C#语言类下载程序，可支持多线程、可控制、可分段下载。My Downloader的主要特点入下：　　它可以给定站点下载。即通过界面，你可以手动输入一个网站地址，让它整站地下载这一网站内的所有资源。　　它可以批量导入站点地址下载。通过本地文本文件或者HTML格式的文件，可以批量导入一些网址，供它一个网站一个网站地下载。　　它可指定媒体类型下载。可完整下载整个网页的内容也可只下载单独媒体形式的内容，比如只下载图片，只下载mp3，只下载视频，只下载文本等。　　网络育儿资源蜘蛛程序的抓取过程截如图1所示。　　下载的资源以文件的形式存放在指定的文件夹下如下图2所示，这些文件是生成检索返回记录：摘要、网页快照、超链网址的基础资料。如果抓取器跟索引器链接起来以后，是一边下载一边索引的，我们便看不到这些文件了。　　3.育儿网页内容的分析　　我们主要抽取4部分信息：head、title、body、href。其中head中的内容是决定title中关键词权值的。title起着概括全篇的作用，有研究表明97.8%网页，其title中的关键词就是本网页内容的关键词[2]。body里面是网页的基本内容，其