- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web数据集成中企业实体踪迹识别关键问题的研究
Web数据集成中企业实体踪迹识别关键问题研究 报告人:徐元子 导 师:李庆忠 教授 主要内容 选题背景 研究现状 研究内容 拟解决方案 研究进度及时间安排 * 选题背景(1) 市场情报分析(MI)的重要性 Web数据集成系统是获取市场情报的重要工具 * 选题背景(2) Web企业实体踪迹适应数据集成发展的需要 Web企业实体踪迹信息提供重要的市场情报 了解企业实体的规模 了解企业实体的行为 如 :国美收购 层次一:了解企业实体收购的所有公司 层次二:了解收购一个特定公司的过程和特点 了解企业实体之间的关系 收购关系 合作关系 竞争关系 * Web企业实体踪迹信息的特点 多数据源 Web企业实体踪迹信息广泛存在于公司主页、新闻、百度百科 等网页中 数据结构复杂 解决方案 企业实体踪迹信息的识别 Web企业实体踪迹的抽取、重复检测和融合 Web企业实体踪迹信息的规格化 选题背景(3) * 目前踪迹研究侧重于事件的抽取和人物的追踪 事件抽取的模式匹配方法和机器识别方法 预先定义事件模板,事件触发词驱动 不适合企业实体踪迹 人物和企业实体有各自的特点 重复检测研究侧重于数据库中的数据 需要对企业实体踪迹信息规格化 研究现状(1) * 事件融合研究侧重于面向话题的融合 话题检测与追踪 (Topic Detection and Tracking,简称TDT)与踪迹 TDT把不同实体参与的围绕同一话题的事件组织在一起 踪迹把同一实体参与的围绕不同话题的事件组织在一起 研究现状(2) * 研究目标 在已获取Web企业实体事件集的基础上,对于不同信息 源提供的企业实体事件经过相关处理得到规格化的事件 信息,对事件重复检测和融合,形成结构化、层次化显 示的Web企业实体踪迹。 研究内容(1) * 研究框架 初始文档集 Web企业实体踪迹 文档识别 事件抽取 事件集合 事件规格化 元素规格化 事件重复检测 互补元素的融合 冗余元素的融合 事件识别 文本预处理 构建重复检测模型 事件融合 结构化 层次化 显示 互斥元素的融合 事件聚类 研究内容(2) * 需要解决的问题 事件规格化 规定事件基本维度 维度内容的分割和识别 拟解决方案 基于“语义格”定义事件基本维度模型,添加活动维度; 基本维度内容的分割;将复杂事件分割成多个单一事件,将包含多个活动的维度内容进行分割,填充共用维度内容; 识别出分割的维度内容对应的维度名称; 方法:基于条件随机场的语义角色标注,分割并识别各维度 内容。 拟解决方案(1) * 需要解决的问题 构建事件重复检测模型 元素规格化处理 拟解决方案 多个维度综合考虑判断事件相似度,根据维度内容特征使用不同的匹配器,采用扩展证据理论模型检测事件相似度,每个维度元素分配不同的权重 将不符合规格定义的元素转化为可能的规格化信息,分为: 命名实体的规格化处理 时间的规格化处理 地点的规格化处理 活动的规格化处理 拟解决方案(2) * 拟解决方案(续) 针对命名实体规格化处理 通过建立基于Web的企业命名实体词典,对指向同一 企业命名实体的全称、简称、英文名称共指消解,并 对词典内容不断扩充; 对词典中出现的企业命名实体,在事件中使用全称, 完成命名实体的规格化。 针对时间规格化处理 生成规则模板,根据时间表述形式用正则表达式的形 式定义绝对时间; 对于相对时间,参考新闻报道时间,经过相对偏移量 处理后对应到时间轴上。 拟解决方案(3) 拟解决方案(续) 针对地点规格化处理 将地点信息隶属的行
您可能关注的文档
- TL494正弦波逆变电源的设计2可编辑.doc
- TL494中文的资料.doc
- TinyOS操作系统开发技术及实践第3章 TinyOS的体系结构.ppt
- TOPSwitch单端反激式开关电源的设计.doc
- TPM计划保全看板悬挂的资料课件.ppt
- TPM管理培训的资料课件.ppt
- TPM管理常用的技巧.ppt
- TOC基本课程的讲义课件.ppt
- TJ系列江苏省的资料表格.doc
- Transition Math Project转变数学的项目.ppt
- WG3 SHORTPreliminary Study of Bends in Rectangular Waveguide在矩形波导弯曲WG3 shortpreliminary的研究.ppt
- What Research Tells Us About Job Accommodations的研究告诉我们关于作业的住宿.ppt
- WI05 塑料制品业的环境管理的体系审核作业指导书.doc
- V讯网车型培训的资料 .ppt
- Windows主机操作系统加固规范V01.doc
- WH公司绩效薪酬的体系的设计的方案.doc
- Wisconsin Focus on Energy Program Update Central States 威斯康星州的重点能源的项目更新中部各州.ppt
- WK地产置业顾问培训的体系.ppt
- WLAN室内分布系统合路的设计.doc
- WONGO月饼市场的的策划书.docx
最近下载
- 2025年首次曝光171页初中语文学霸手写笔记(可打印).docx VIP
- 排水球墨铸铁管道工程技术规程.pdf
- 模板中文软件版Project2010-详细教程.pptx VIP
- 云南曲靖钢铁集团双友钢铁有限公司钢铁转型升级一体化项目项目环境影响报告书.pdf VIP
- 模板中文软件版project2010详细教程x.pdf VIP
- 小学信息技术五年级SCRATCH教案全集.doc VIP
- 2025年上海市汽车园区智能网联汽车测试道路建设可行性研究报告.docx
- 2023年10月自考03291人际关系学试题及答案含评分标准.docx VIP
- 三一EBZ200悬臂式掘进机使用说明书.pdf VIP
- 《 卷烟工厂能源管理绩效评价方法》编制说明.docx VIP
文档评论(0)