- 3
- 0
- 约1.11万字
- 约 5页
- 2018-01-12 发布于广东
- 举报
2007 江苏省自动化学会学术年会论文集
基于结构调整的 Web 页分块
李雄,金立左
(东南大学,南京 210096)
摘要:根据结构和主题将 Web 页分成多个信息块是 Web 信息处理的重要任务。本文针对分块
算法对 Web 页的适应能力不强的问题,分析总结了影响分块算法效果的两个主要因素:复杂
的页面布局方式和标签冗余。在此基础上,提出了 Web 页结构调整算法。首先将 Web 页的标
签树转化为行列树,然后修剪行列树中的冗余结点。本文最后用路径熵方法和内容距离方法
对结构调整前后的页面进行了对比分块实验。实验数据表明,结构调整有效地改善了分块算
法的分块效果。
关键词:信息抽取;网页分块;页面布局;冗余结点
0 引 言
从各种类型的 Web 页中抽取有效信息,是当前互联网信息处理中的重要课题。Web 信息
抽取可用于信息检索、移动终端自适应网页浏览和事件监控等领域。页面分块是这些应用中
的基础技术,例如
您可能关注的文档
- 基于继电保护现场测试的实用新型模拟断路器研制研究.pdf
- 基于网络环境的科研项目信息化管理对策研究.pdf
- 基于网络环境的模块化计算机基础教学模式的实践研究.pdf
- 基于网络环境的实时企业财务信息整合研究.pdf
- 基于网络环境的通用题库系统设计与实现研究.pdf
- 基于网络环境的研究性学习的应用研讨.pdf
- 基于网络环境的自主协作学习模式的试验研讨.pdf
- 基于绩效技术的中小学教师教育技术能力培训系统可操作模型的构建研究.pdf
- 基于绩效角度的信息化课堂教学评价研讨.pdf
- 基于结构表达的机构概念设计过程研讨.pdf
- 示范引领,活动激趣-关于“起始年级语文学习习惯培养”的做法举隅-初中-语文-论文.docx
- 盛唐气象的原因-初中-体育与健康-说课稿.docx
- 巧用数形结合-画出核心素养-初中-数学-论文.docx
- 如何培养中学生的抗挫折能力-初中-语文-论文.docx
- 陕西传统体育文化发展研究-初中-体育与健康-论文.docx
- 诗经·氓-初中-语文-教案.docx
- 如何建立建设节能环保型的初中校园-初中-生物-论文.docx
- 人工智能时代初中信息科技理论课教学模式的创新与实践-初中-信息-论文.docx
- 如何利用信息技术优化语文课堂教学-初中-语文-论文.docx
- 试论刘知几的史学思想-初中-历史-论文.docx
原创力文档

文档评论(0)