基于LCA分塊算法的大学科研人员信息抽取.pptVIP

  • 1
  • 0
  • 约1.95千字
  • 约 11页
  • 2017-04-10 发布于上海
  • 举报

基于LCA分塊算法的大学科研人员信息抽取.ppt

基于LCA分塊算法的大学科研人员信息抽取

基于LCA分块算法的大学科研人员信息抽取 报告人:易晨辉(武汉大学) 研究背景 信息网模型数据库(Information Networking Model DBMS) “天罗地网”科研机构与人员信息搜索引擎 学院网站等公开渠道获取科研人员信息 学院首页-人员页面 人员列表页面及个人主页信息抽取 生成结构化数据放入网站数据库 网页分块 分块结果对齐 网页分块方法 基于DOM树结构的相似性 基于视觉特征 基于标签树路径 模仿人的视觉分析 难以设置统一规则 现有文献证明在Deep Web中测试结果较好 大学人员页面通常不是Deep Web 经典的Mining Data Records(MDR)算法 前提是Data Records之间树结构相似 人员页面中修饰与冗余部分会极大影响相似性 基于上下文语义分析 针对无结构化数据,需要上下文语义 人员页面通常是离散型的半结构化页面 对MDR算法的改进动机 不论自顶向下与自底向上,MDR的主要局限在于修饰与冗余的树节点 跳过无效的修饰与冗余节点 从有效的文本叶子节点向上搜索祖先节点 遇到无效节点继续向上搜索祖先节点 两个有效叶子节点向上搜索到公共祖先 并属于公共祖先的不同子树 这些子树即类似MDR算法中的Data Records LCA概念与语义相关区域 Lowest Common Ancestor(LCA): 对于有根树T的两个结点

文档评论(0)

1亿VIP精品文档

相关文档