- 12
- 0
- 约 4页
- 2015-08-11 发布于河南
- 举报
基于HTML 语义分析的网页正文提取.doc
基于HTML语义分析的网页正文提取
朱征宇 任翔 苑昆峰 徐静秋 田云艳
(重庆大学计算机学院 重庆 400044)
摘要: 随着网络的迅猛发展,web服务已经成为研究的热点之一。本文介绍了一种常用的文件类型网页文件的文本信息预处理技术。该方法能够解析网页文件的组成结构,并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值。
关键词: HTML; 网页正文; web服务
中图法分类号:TP391 文献标识码: A 文章编号Research on Main Text Extraction for Chinese Web Pages
Based on Semantic Analysis of HTML
ZHU Zheng-yu,REN Xiang,YUAN Kun-feng,XU Jing-qiu,TIAN Yun-yan
(College of Computer, Chongqing University , Chongqing 400044 China)
Abstract: With the increasing of Internet, web Service has
您可能关注的文档
最近下载
- 2026年中考语文:文学类文本阅读备考建议 课件.pptx VIP
- 公路工程现场文明施工管理标准化探讨.docx VIP
- 2026届广东汕头市潮阳区汕头市潮阳实验学校高三一模生物试题(文字版,含答案).docx VIP
- 05S502阀门井图集完整版.pdf VIP
- 车位租赁合同协议书电子版(六篇).pdf VIP
- 2026届广东佛山顺德高三下学期二模生物试题(文字版,含答案).docx VIP
- AP2000.Microeconomics.选择题.pdf
- 铝镁锰保温夹芯板泄爆墙施工工法.doc
- 国标图集05s502图集阀门井-国家建筑标准设计图集电子版下载 1.docx VIP
- 4821D4020D4818S安装.ppt VIP
原创力文档

文档评论(0)