基于网页分块的正文信息提取方法.pdfVIP

下载本文档

8
0
约1.2万字
约 3页
2017-10-27 发布于北京
举报
版权申诉

基于网页分块的正文信息提取方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于网页分块的正文信息提取方法.pdf

第28卷计算机应用 V01．28 2008年12月 ComputerApplications Dec．2008 文章编号：l001—908I(2008)S2一0326一03 基于网页分块的正文信息提取方法黄玲，陈龙 (重庆邮电大学计算机科学与技术研究所，重庆400065) (8h8Illu316@126．com) 摘要：网页主题信息通常湮没在大量的无关文字和H’rML标记中，给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块，然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明，该方法能够准确地提取网页正文信息，且通用性较强，易于实现。关键词：Web信息抽取；主题内容块；网页正文信息中图分类号：TP39l文献标志码．^ extractionbased0nvisualblock Webinf|0rmation segmentation HUANG Ling，CHENLong (加f妇卯D，Cb唧l肋‘＆切wn以‰矗M如辨吼∞鲫增踟溉妙矿JP缸拈。蒯7砍∞，，l，rl∽如讲洳，c^on卵f昭400065，傩洳) numbersof wordsand Abstl麓ct：Web contain irrelev蛐t HTML fori血姗ative pagesalways la置ge tagsexcept enh锄ce8thedi街c11ltiesof inf0珊ativeiIlfb硼ation缸粕Web methodof info肌撕on．This ex哦Icting pagesquiclcly．A extract basedonuser，sinterestis I-esults thatthis is info册ativeinfo册ation experimental method pmposed．The pmve gDod soour is torealize． canobtaininfo册ative accurately’ 删versality鲫d message approache髂y content textofWeb words：Webinfo册ationex昀ction；info册atiVeblock；main Key page HTML标记，因此实现简单且具有一定通用性。 O 引言 1 正文信息抽取方法 Intemet及其应用技术的迅猛发展，产