【论文】一种基于可信度分析的Web页面新属性发现方法.pdfVIP

  • 5
  • 0
  • 约1.36万字
  • 约 5页
  • 2015-08-05 发布于四川
  • 举报

【论文】一种基于可信度分析的Web页面新属性发现方法.pdf

计算机技术与发展 V01.19.No.1 第21090舞9黏期年1月 TECHNOIf-3GYANDDEVE[JDPMENT Jan.2009 COMPLrFER 一种基于可信度分析的Web页面新属性发现方法 胡国晴,李建华 (中南大学信息科学与工程学院,湖南长沙410075) 摘要:分装器已经越来越多地应用到Web信息抽取中,但是当、Ⅳeb页面出现新的待抽取属性并且页面结构发生变化 时。目前并没有一个完善的分装器能根据这种情况而做出相应调整从而抽取出新的属性信息。文中根据待抽取属性自身 结构和内容的特点,通过定义一系列规则和证据,提出了一种基于可信度分析发现Web页面新属性的方法,并建立了该方 法的模型。通过在实际网站中选取网页对本方法进行了实验分析,取得了较好的效果,具有现实可行性。 关键词:可信度;分装器;信息抽取;新属性发现 中图分类号:仰39 文献标识码:A 文章编号:1673—629X(2009)01—0056一04 A MethodtoDiscover CredibilityAnalysis。_。Based NewAttributesWeb Pages HU Jian-hua Guo-qing.LI ofInformationScienceand South (School Engineering,CentralUniversity,Changska410075,China) ● is toWebinfornxationextractionmuch newattributesandthestl-uctureofWeb wrapperapplied r/lole,when appear Ahaxact:Althengh strut· is isno toexLractthenewattributesinformation Ontheattribute’own pagesebanged。thereperf瞅wrapper corresponding.Based new tureandfeatures asetofrulesand methodtOdiscovefthe attributesof ofcontents,through evidence,acredibilityanalysis—based is this establishedanxxtdofthis thismetlDdtOactual Website,it Webpsgea paper.and method.Adopted psge∞the phys prop酬in andhas good practicalfeasibility.

文档评论(0)

1亿VIP精品文档

相关文档