基于内容相似度的网页正文提取.pdfVIP

  • 3
  • 0
  • 约1.28万字
  • 约 3页
  • 2017-08-31 发布于湖北
  • 举报
基于内容相似度的网页正文提取.pdf

第36卷 第6期 计 算 机 工 程 2010年3月 Vo1.36 No.6 ComputerEngineering M arch2O1O · 软件技术与数据库 · 文章编号:100o_-3428(2010)o6--0102—03 文献标识码:A OIm~$$qlTP393 基于内容相似度的网页正文提取 王 爿6盯,刘宗田 ,王燕华 ,廖 涛 (1.上海大学计算机科学与工程学院,上海 200072;2.上海海洋大学信息学院,上海 201306) 曩 要:提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于 DOM树,无须用 HTMLparser 包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页 清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。 关

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档