基于LCA分塊算法的大学科研人员信息抽取.pptVIP

下载本文档

1
0
约1.95千字
约 11页
2017-04-10 发布于上海
举报

基于LCA分塊算法的大学科研人员信息抽取.ppt

基于LCA分塊算法的大学科研人员信息抽取

基于LCA分块算法的大学科研人员信息抽取报告人：易晨辉（武汉大学）研究背景信息网模型数据库（Information Networking Model DBMS） “天罗地网”科研机构与人员信息搜索引擎学院网站等公开渠道获取科研人员信息学院首页-人员页面人员列表页面及个人主页信息抽取生成结构化数据放入网站数据库网页分块分块结果对齐网页分块方法基于DOM树结构的相似性基于视觉特征基于标签树路径模仿人的视觉分析难以设置统一规则现有文献证明在Deep Web中测试结果较好大学人员页面通常不是Deep Web 经典的Mining Data Records（MDR）算法前提是Data Records之间树结构相似人员页面中修饰与冗余部分会极大影响相似性基于上下文语义分析针对无结构化数据，需要上下文语义人员页面通常是离散型的半结构化页面对MDR算法的改进动机不论自顶向下与自底向上，MDR的主要局限在于修饰与冗余的树节点跳过无效的修饰与冗余节点从有效的文本叶子节点向上搜索祖先节点遇到无效节点继续向上搜索祖先节点两个有效叶子节点向上搜索到公共祖先并属于公共祖先的不同子树这些子树即类似MDR算法中的Data Records LCA概念与语义相关区域 Lowest Common Ancestor（LCA）：对于有根树T的两个结点

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于LCA分塊算法的大学科研人员信息抽取.pptVIP