- 5
- 0
- 约1.36万字
- 约 5页
- 2015-08-05 发布于四川
- 举报
计算机技术与发展 V01.19.No.1
第21090舞9黏期年1月 TECHNOIf-3GYANDDEVE[JDPMENT Jan.2009
COMPLrFER
一种基于可信度分析的Web页面新属性发现方法
胡国晴,李建华
(中南大学信息科学与工程学院,湖南长沙410075)
摘要:分装器已经越来越多地应用到Web信息抽取中,但是当、Ⅳeb页面出现新的待抽取属性并且页面结构发生变化
时。目前并没有一个完善的分装器能根据这种情况而做出相应调整从而抽取出新的属性信息。文中根据待抽取属性自身
结构和内容的特点,通过定义一系列规则和证据,提出了一种基于可信度分析发现Web页面新属性的方法,并建立了该方
法的模型。通过在实际网站中选取网页对本方法进行了实验分析,取得了较好的效果,具有现实可行性。
关键词:可信度;分装器;信息抽取;新属性发现
中图分类号:仰39 文献标识码:A 文章编号:1673—629X(2009)01—0056一04
A MethodtoDiscover
CredibilityAnalysis。_。Based
NewAttributesWeb
Pages
HU Jian-hua
Guo-qing.LI
ofInformationScienceand South
(School Engineering,CentralUniversity,Changska410075,China)
●
is toWebinfornxationextractionmuch newattributesandthestl-uctureofWeb
wrapperapplied r/lole,when appear
Ahaxact:Althengh
strut·
is isno toexLractthenewattributesinformation Ontheattribute’own
pagesebanged。thereperf瞅wrapper corresponding.Based
new
tureandfeatures asetofrulesand methodtOdiscovefthe attributesof
ofcontents,through evidence,acredibilityanalysis—based
is this establishedanxxtdofthis thismetlDdtOactual Website,it
Webpsgea paper.and method.Adopted psge∞the phys
prop酬in
andhas
good practicalfeasibility.
原创力文档

文档评论(0)