- 1
- 0
- 约1.95千字
- 约 11页
- 2017-04-10 发布于上海
- 举报
基于LCA分塊算法的大学科研人员信息抽取
基于LCA分块算法的大学科研人员信息抽取
报告人:易晨辉(武汉大学)
研究背景
信息网模型数据库(Information Networking Model DBMS)
“天罗地网”科研机构与人员信息搜索引擎
学院网站等公开渠道获取科研人员信息
学院首页-人员页面
人员列表页面及个人主页信息抽取
生成结构化数据放入网站数据库
网页分块
分块结果对齐
网页分块方法
基于DOM树结构的相似性
基于视觉特征
基于标签树路径
模仿人的视觉分析
难以设置统一规则
现有文献证明在Deep Web中测试结果较好
大学人员页面通常不是Deep Web
经典的Mining Data Records(MDR)算法
前提是Data Records之间树结构相似
人员页面中修饰与冗余部分会极大影响相似性
基于上下文语义分析
针对无结构化数据,需要上下文语义
人员页面通常是离散型的半结构化页面
对MDR算法的改进动机
不论自顶向下与自底向上,MDR的主要局限在于修饰与冗余的树节点
跳过无效的修饰与冗余节点
从有效的文本叶子节点向上搜索祖先节点
遇到无效节点继续向上搜索祖先节点
两个有效叶子节点向上搜索到公共祖先
并属于公共祖先的不同子树
这些子树即类似MDR算法中的Data Records
LCA概念与语义相关区域
Lowest Common Ancestor(LCA):
对于有根树T的两个结点
您可能关注的文档
- 圓复习(一).ppt
- 圓和圆的位置关系中考复习课.ppt
- 圓和我们以前学过的平面图形有什么区别?.ppt
- 圓明园的毁灭.ppt
- 圓柱与圆锥的复习活动课.ppt
- 圓柱体的表面积.PPT
- 圓柱和圆锥.ppt
- 圓柱体的体积.ppt
- 圓明园的诉说.ppt
- 圓柱表面积的练习.ppt
- 新统编人教版小学语文四年级下册2《乡下人家(第一课时)》教学课件.pptx
- 新统编人教版小学语文四年级下册《乡下人家》教学课件.pptx
- 新人教版小学数学六年级下册总复习《平面图形的周长和面积》教学课件.pptx
- 新人教版小学数学六年级下册第三单元圆柱的认识- (1)》教学课件.pptx
- 新统编人教版小学语文四年级下册27《巨人的花园》教学课件.pptx
- 新人教版小学数学六年级下册《圆柱的认识(2)》教学课件.pptx
- 新统编人教版小学语文四年级下册18文言文二则《铁杵成针》教学课件.pptx
- 新统编人教版小学语文五年级下册《西游记》好书推荐教学课件.pptx
- 新统编人教版小学语文四年级下册《白桦》教学课件.pptx
- 新人教版小学数学六年级下册第三单元圆柱的认识》教学课件.pptx
原创力文档

文档评论(0)