面向期刊网站的网页结构挖掘和元数据抽取-计算机应用专业毕业论文.docxVIP

  • 1
  • 0
  • 约3.65万字
  • 约 47页
  • 2019-05-14 发布于上海
  • 举报

面向期刊网站的网页结构挖掘和元数据抽取-计算机应用专业毕业论文.docx

AbslractABSTRACT Abslract ABSTRACT With the mpid growth ofIntemet,Web has become the la唱est infb啪ation resource.Pe叩le usuaIly need to find info瑚atjon e疵ctively from the web aIId ignore the huge unrelated data,fof this reason,the web info珊ation extraction technology becomes more and more imponant. Science joumal web sjtes are Very imponant online rcsources of Intemet.Based on the study of cu丌cnt appmaches to web info咖ation extraction,this papcr pmposes a series of approaches to extracting info邢ation effectively fmm joumal web pages. Tb discoVer usefuI jnfo邢ation arcas from a百Ven journal web page,we proVide an algorithm based on hierarchy st兀lcture trce,which can locate the information 觚eaS more efficiently than that based on HTML stmcturc trce. Tb discover rccord boundary f如m the useful infomation area,we introduce two impmved independent beuristicS and combined them to discover the re(=ord bounda哆1rhe experimental results show that the combined a190rithm perfb咖s effectiVely for boundary discoVer in muItiple records enVironment,and pmVide a good fbundation fbr next step. 1’o extracl metadata f而m a sin百e fecord,we put fonVard a HMM-based algorithm.Tlle algorithm makes use Of htmI tags and punctuations to cut the info咖ation intO seVeml metadata fields,柚d implements semantic identification using hidden MarkoV model which based on charactef features and html layout features.The experimental results show that the improved aIgorithm is more effectiVely th柚the traditional a190rithm in both precision and recall. Key WOrds:Wcb lnfb彻ation Extraction;Record Boundary DiscoVery;Hidden Markov Model(HMM) 11 学位论文版权使用授权书本人完全了解北京机械工业学院关于收集、保存、使用学位沦文 学位论文版权使用授权书 本人完全了解北京机械工业学院关于收集、保存、使用学位沦文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子舨;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名:伯』卜 斫年了月,7日 (注:非保密论文无需签字) 经指导教师同意,本学位论文属于保密,在 年解密后适用 本授权书。 指导教师签名: 学位论文作者签名: 年 月 日 年 月 日 硕士学位论文原创性声明本人

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档