基于B2B垂直搜索的网页信息抽取系统研究.pdfVIP

基于B2B垂直搜索的网页信息抽取系统研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第23卷  第2期 计算机技术与发展 Vol.23  No.2 2013年2月                     COMPUTERTECHNOLOGYANDDEVELOPMENT                    Feb.  2013 基于B2B垂直搜索的网页信息抽取系统研究 1 2 刘  丹 ,崔  阳 (1.南海舰队司令部,广东湛江 524001; 2. 中国劳动关系学院,北京 100048) 摘  要:为了解决从网页中准确抽取产品信息这一B2B垂直搜索引擎的关键问题,以站点树为模型,首先分析了企业网站 的结构特征,在此基础上构建了一个面向B2B垂直搜索引擎的网页信息抽取系统。 该系统利用站点树在企业站点大量网 页中识别出产品页,并进行去噪处理,然后使用基于规则的方法抽取产品页中包含的产品描述信息和参数信息。 通过该 系统抽取到的各类产品信息较为准确,且效率得到明显提高,适用于B2B垂直搜索引擎中对产品的描述、分类及搜索。 关键词:B2B垂直搜索;网页信息抽取;企业站点树;去噪 中图分类号:TP393.09            文献标识码:A            文章编号:1673-629X(2013)02-0153-04 doi:10.3969/j.jssn. 1673-2013.02.041 ResearchonSystemofWebInformationExtractionBased onB2BVerticalSearchEngine 1 2 LIUDan ,CUIYang (1.HeadquartersoftheSouthChinaSeaFleet,Zhanjiang524001,China; 2.ChinaInstituteofIndustrialRelations,Beijing 100048,China) Abstract:Tosolvetheproblemofinformationextractiononwebpages,whichisoneofthekeytechnologiesofB2Bverticalsearchen- gine,takingwebsiteasmodel,structureofthecorporationwebsiteisanalyzedfirstly,basedonwhichasystemofwebinformationextrac- tionforB2Bverticalsearchengineisconstructed.Thewebsitetreeisusedinthesystemforidentificationandnoiseeliminationofthe productpages,andthendescriptionandparameterinformationoftheproductscontainedinproductpagesareextractedaccordingtothe rules.Allkindsofinformationextractedaccuratelyandefficientlybythesystemcanbeusedfordescription,classificationandsearchingof theproductsinB2Bverticalsearchengine. Keywords:B2Bverticalsearchengine;webinformationextraction;corporationwebsitetree;noiseelimination 0  引  言

文档评论(0)

蓝色天空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档