- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
使用特征文本密度的网页正文提取
Computer Engineering and Applications 计算机工程与应用 2010 ,46 (20 ) 1
⦾博士论坛⦾
使用特征文本密度的网页正文提取
1,2 1 1
王少康 ,董科军 ,阎保平
1,2 1 1
WANG Shao-kang ,DONG Ke-jun ,YAN Bao-ping
1.中国科学院 计算机网络信息中心,北京 100190
2.中国科学院 研究生院,北京 100049
1.Computer Network Information Center ,Chinese Academy of Sciences ,Beijing 100190,China
2.Graduate School of Chinese Academy of Sciences ,Beijing 100049,China
E-mail :skwang@
WANG Shao-kang ,DONG Ke-jun ,YAN Bao-ping.Web content information extraction using density of feature text.Com-
puter Engineering and Applications ,2010 ,46 (20 ):1-3.
Abstract :The current web pages are getting more and more diverse ,complex and non-standardized which makes the infor-
mation extraction more difficult ,the paper proposes a web content information extraction method based on density of feature
text ,which classifies the page text according to its usage and features ,and constructs mathematical models to analyze the
text proportion and density ,thus identifies the content information accurately.The method has rather low time and space com-
plexity.Experiments show that it can extract content information effectively from complex and multi-topic web pages and has
a wide applicability.
Key words :text density ;text feature ;information extraction ;web page
摘 要:针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法
将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间
和空间复杂度均较低。实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性。
关键词:文本密度;文本特征;信息抽取;网页
DOI :10.3778/j.issn. 1002-8331.2010.20.001 文章编号:1002-8331(2010 )20-0001-03 文献标识码:A 中图分类号:TP393
1 引言 2 相关工作
随着时代的发展,万维网(World Wide Web ,WWW )已经 目前,关于网页正文提取方面的研究很多,国内外的研究
成为人们获取信息的一个重要来源。用户通常使用浏览器直 者从不同的角度提出了自己的解决思路。从大方向来说,主
接查看网页,此外,还有许多基于互联网的信息处理工作(如 要可分为两类,即基于包装器(wrapper
您可能关注的文档
- 金融业行业点评.pdf
- 心宜新浪博客-评论部分.pdf
- OK335xD-硬件手册 V1.0.pdf
- 印度影视舞蹈.ppt
- 饮鸩止渴的微信“点赞”营销!.pdf
- 白垩纪温室气候和海洋.pdf
- 海上生明月(№22 )(选择题强化6 棠湖中学期中测试)(师用).pdf
- SKR-KR新资料.pdf
- 宁大选修课选课评价.pdf
- 平行四边形的边和角的性质(第2课时).docx
- 美股系列报告(六):美国大选结果出炉,后续资产将如何演绎?-241106-浦银国际-14页.pdf
- 如何应对财政扩张对于债券市场的潜在冲击-241105-信达证券-26页.pdf
- 两轮供给侧改革的回顾-241106-华创证券-18页.pdf
- 2024年中国游戏产业IP发展报告.pdf
- 流动性周度观察-241104-国新证券-12页.pdf
- 商业贸易行业:新质生产力%2b服务消费,开辟更多增量空间-241106-华西证券-39页.pdf
- 寒武纪-U(688256)国产算力核心,时代的主角-241105-国盛证券-20页.pdf
- 建筑材料行业:地产交易再创新高,关注产业链底部反转-241103-华西证券-22页.pdf
- 煤炭开采行业研究简报:6月以来美国化石能源发电量占比超过中国-241103-国盛证券-11页.pdf
- 量化分析报告:2024年三季报行业个股超预期扫描-241105-民生证券-19页.pdf
文档评论(0)