深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.docVIP

深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究 【中文摘要】随着网络技术和数据库技术的飞速发展,互联网已成为海量信息的载体,如何从海量信息中准确、快速地抽取出有价值的信息已成为人们迫切需要解决的一大难题。电子商务网站具有动态Web页面、页面结构化程度高以及信息数量巨大且内容丰富等特点。实际上,电子商务网站属于Deep Web,Deep Web指的是存储在数据库中、不能通过静态超链接访问而需要通过动态网页技术访问的信息,用户需要向特定的查询接口提交查询请求后才能访问数据库中的数据。深度搜索就是针对Deep Web进行搜索。Deep Web不仅信息量大,而且具有面向某一领域、结构化程度较高且可以公开访问等特点。本文选择电子商务网站作为深度搜索的对象,研究商品信息的抽取。电子商务网站的站内搜索引擎为研究人员对网站进行深度搜索提供了便利,它可以根据用户输入的关键词,将与之相关的数据库内容以网页的形式动态呈现出来。我们可以利用这类查询接口进行深度搜索,通过模拟关键词的填充和提交,来获取我们需要的页面。通过深度搜索所获得的页面内含有大量商品信息,我们以此为信息源进行信息抽取。信息抽取研究中最关键的技术在于如何生成抽取规则,生成的方法有很多,但从生成的手段来说可以分为两种,一种是自动生成抽取规则,另一种是人工编写抽取规则,两种方法各有优缺点,有着各自的适用范围。自动生成的方法有利于针对不同结构的网站,但准确率较低;而人工编写的方法虽然需要人工参与,但抽取结果较为精确。本文针对电子商务网站进行信息抽取,抽取商品的各种信息,主要包括商品名称、价格、运费、商品相关信息等内容。由于同一网站下的子页面结构大体相同,因此,为了获得更为精确的抽取结果,我们采用了人工编写抽取规则的方法。本文的主要内容及创新点如下:1、设计一个关键词库接口,使得系统可以接受关键词库文件(文本文件,关键词之间以回车符隔开),将关键词库文件内的关键词一一导入至系统中,用于表单的自动填充和提交。另外,考虑到了效率问题,让系统在导入新关键词库文件时与旧关键词库进行对比,判断出新关键词,最后只接受更新的那一部分关键词,即达到关键词增量更新的。2、提取电子商务网站的HTML源码,通过对HTML源码进行分析,提取出网站中包含查询表单的那部分HTML源码。根据这部分HTML源码,利用WebBrowser控件方法对这些查询表单自动模拟关键词的填充和提交,用以获得每一个关键词所对应的初始页面。3、选择性的提取链接,只提取初始页面中的商品信息链接,而不提取广告和友情链接。另外,由于商品信息链接有多页,因此还需要通过获取“下一页”链接来得到更全的商品信息链接。本文介绍了多种获取“下一页”链接的方法,并提出了一个通用性较好的方法。4、通过正则表达式来定义抽取规则,根据不同的页面结构编写相应的正则表达式,从而进行信息抽取。抽取的结果以文本文件的格式保存,便于对关键词库文件进行更新。 【英文摘要】With the rapid development of network and database technology, Internet has become a carrier of a great deal of information, how to extract the meaningful information accurately and rapidly from the mass of web information has become an urgent problem which people want to solve. There is a lot of web information in the E-commerce websites, these websites抴eb pages are dynamic, and have high degree of structures. Actually, the E-commerce websites belongs to Deep Web, Deep Web is the information which can not access with hyperlinks and needs the dynamic web technology to access, users need to submit queries on the specific interface(the query interface) to access the data in the database. Deep search is the kind of search which aim at Deep Web. Deep Web ha

文档评论(0)

ww90055 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档