基于图模型的web表格中视觉并列关系的研究-d1spartancom.pdfVIP

  • 10
  • 0
  • 约1.99万字
  • 约 6页
  • 2017-11-24 发布于天津
  • 举报

基于图模型的web表格中视觉并列关系的研究-d1spartancom.pdf

基于图模型的web表格中视觉并列关系的研究-d1spartancom

1568 小 型 微 型 计 算 机 系 统 2014年 乏.因此本文将Web表格的视觉信息挖掘作为研究对象. 3 Web表格图结构表示模型 本文的主要贡献如下: 1)定义了Web表格的图结构表示模型; 真表格 是指包含了二维网格 的文档实体,且二维网格 2)设计了将 Web表格转换成图模型的Table—To—Graph 在传递单元格间的逻辑关系上蕴含着语义.相对地,”假表 算法; 格”是指使用 HTML语言中的table/table标记用作 3)在图模型基础上定义了多个层次的视觉并列关系,并 分栏功能,使得 HTML页面更美观的功能性表格.只有Web 设计Get—Visual-Alignment算法挖掘出Web表格中的视觉并 中的”真表格”包含了语义丰富的信息 ,因此我们研究的对象 列关系; 是这部分”真表格”,下文中的Web表格均指”真表格”,不再 4)实现了原型系统; 特别标明. 5)通过对比实验验证了表格视觉并列关系对于语义分 web表格中的视觉要素信息主要为两类:单元格之间的 析的帮助. 相对位置关系,以及单元格的字体、粗斜体、文字颜色、文字大 本文余下部分组织结构如下:第2节为相关工作.第3节 小、单元格背景颜色等信息.本文中Web表格的视觉要素抽 阐述Web表格图结构模型及将表格转换成图模型的算法.第 取以单元格作为基本单位.通过将每个单元格抽象为图的一 4节定义了Web表格上的视觉并列关系并设计算法从 图模 个结点,以单元格之间的邻接位置关系来表示图中的边,从而 型中抽取该关系.第5节介绍原型系统实现.第6节为实验评 用图结构模型来形式化地描述一个Web表格. 估.最后是第7节文章总结. 定义 1.单元格的结点模型 给定一个表格的单元格 ,可抽象表示为一个结点模型v 2 相关工作 = (W,,’,c ,b,i,g,e,e,e,e),其 中W为单元格的文本 内容,为字体 ,,c为文字颜色, 为文字大小,b为文字是否 从Web表格上抽取信息是近年研究 的活跃领域.Car- 粗体,i为文字是否斜体,g为单元格背景颜色.每个单元格v arella等人 川 提出了Web上的表格包含了高质量的关系型 在表格中的绝对位置可以表示在一个直角坐标系中,以整个 数据,设计并实现了WebTables表格抽取系统,将表格按行抽 表格的左上顶点为原点,水平轴 方向从左往右,竖直轴Y方 取出行头作为属性 ,构建了属性共现概率集合.Dalvi等人 向由上往下 (如图2所示),e e表示 v的上、下边框的垂直 提出了一个WebSets的非监督信息抽取系统,通过逐列检测 坐标,e e为左 、右边框的水平坐标. 表格中具有高共现频率的实体 ,结合Hearst模式设计了聚类 算法从 HTML表格中抽取出概念.实体对.Venefis等人 使 用背景知识库给表格中每列加上标签,注明每列属于哪个类 别 ,并给列与列之间加上二元关系的标注.Sanna等人 标 注每行标签的基础上,定义了表格与表格之间的相关度,并设 计算法检测一个表格的所有相关表格集合.Limaye等人 利 用

文档评论(0)

1亿VIP精品文档

相关文档