使用特征文本密度的网页正文提取.pdf

下载文档

41
0
约1.05万字
约 3页
2017-06-01 发布于河南
举报
版权申诉
保障服务

使用特征文本密度的网页正文提取.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

使用特征文本密度的网页正文提取

Computer Engineering and Applications 计算机工程与应用 2010 ，46 （20 ） 1 ⦾博士论坛⦾ 使用特征文本密度的网页正文提取 1，2 1 1 王少康，董科军，阎保平 1，2 1 1 WANG Shao-kang ，DONG Ke-jun ，YAN Bao-ping 1.中国科学院计算机网络信息中心，北京 100190 2.中国科学院研究生院，北京 100049 1.Computer Network Information Center ，Chinese Academy of Sciences ，Beijing 100190，China 2.Graduate School of Chinese Academy of Sciences ，Beijing 100049，China E-mail ：skwang@ WANG Shao-kang ，DONG Ke-jun ，YAN Bao-ping.Web content information extraction using density of feature text.Com- puter Engineering and Applications ，2010 ，46 （20 ）：1-3. Abstract ：The current web pages are getting more and more diverse ，complex and non-standardized which makes the infor- mation extraction more difficult ，the paper proposes a web content information extraction method based on density of feature text ，which classifies the page text according to its usage and features ，and constructs mathematical models to analyze the text proportion and density ，thus identifies the content information accurately.The method has rather low time and space com- plexity.Experiments show that it can extract content information effectively from complex and multi-topic web pages and has a wide applicability. Key words ：text density ；text feature ；information extraction ；web page 摘要：针对当前互联网网页越来越多样化、复杂化、非规范化的特点，提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类，并构建数学模型进行比例密度分析，从而精确地识别出主题文本。该方法的时间和空间复杂度均较低。实验显示，它能有效地抽取复杂网页以及多主题段网页的正文信息，具有很好的通用性。关键词：文本密度；文本特征；信息抽取；网页 DOI ：10.3778/j.issn. 1002-8331.2010.20.001 文章编号：1002-8331（2010 ）20-0001-03 文献标识码：Ａ中图分类号：TP393 1 引言 2 相关工作随着时代的发展，万维网（World Wide Web ，WWW ）已经目前，关于网页正文提取方面的研究很多，国内外的研究成为人们获取信息的一个重要来源。用户通常使用浏览器直者从不同的角度提出了自己的解决思路。从大方向来说，主接查看网页，此外，还有许多基于互联网的信息处理工作（如要可分为两类，即基于包装器（wrapper