信息抽取技术.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3.3 语料的收集、加工 语料的收集:训练语料与词表 中文语料收集(人民日报标注语料库、哈工大信息检索研究室语料等)共125M 中文语料收集 信息抽取技术全文共77页,当前为第63页。 3.3 语料的收集、加工 词表共95张英文词表,74张中文词表(世界城市、公司名称、国家形容词形式、人名等) 制作30万词的中图法词表一张(txt与SQL) 信息抽取技术全文共77页,当前为第64页。 3.3 语料的收集、加工 已收集英文语料 词数 世界城市 1968 公司称谓 401 公司名称 2610 国家 455 国家形容词形式 1505 货币单位 257 节日名称 156 政府机构名称 112 职业名称 1443 已收集英文语料 词数 组织名称 1033 人名 874 女名 5815 男名 4377 省份名称 1211 共95张英文词表 信息抽取技术全文共77页,当前为第65页。 3.3 语料的收集、加工 已收集中文语料 数量 协会名称 110 中国城市名 1309 世界城市名 140 外企公司名称 1241 国企公司名称 288 传媒公司名称 147 国家名称 222 县名称 2189 中国大学名称 1003 已收集中文语料 数量 名胜旅游 331 女名 416 政府机构名 210 男名 654 组织名称关键词 912 此外有约30万词的中图法分类词表、约37万词的中英对照词表共74张中文词表 信息抽取技术全文共77页,当前为第66页。 命名实体识别 GATE系统是基于规则的信息抽取系统,通过JAPE语言的定义。 需要针对中文重新写JAPE规则 信息抽取技术全文共77页,当前为第67页。 英文JAPE规则 信息抽取技术全文共77页,当前为第68页。 中文JAPE规则 信息抽取技术全文共77页,当前为第69页。 最后的效果 信息抽取技术全文共77页,当前为第70页。 搜索引擎中文档聚类研究方法 组长:于铁响 组员:侯朝辉 姚军 李汉波 杨涛 王洋 信息抽取技术全文共77页,当前为第71页。 。搜索引擎 。聚类分析 。聚类分析在搜索引擎上的 应用 信息抽取技术全文共77页,当前为第72页。 搜索引擎简介 分类: 根据采用的技术: 1.目录式搜索引擎——yahoo 2.全文搜索引擎 3.元数据搜索引擎 信息抽取技术全文共77页,当前为第73页。 根据搜索引擎覆盖的领域: 1.通用型搜索引擎——google baidu yahoo 特点:覆盖面大 2.垂直型搜索引擎——搜索火车票、机票信息的引擎 特点:有明显的用户需要、针对性强 信息抽取技术全文共77页,当前为第74页。 搜索引擎结构体系 信息抽取技术全文共77页,当前为第75页。 自动问答结构图 信息抽取技术全文共77页,当前为第76页。 交互式问答系统结构图 信息抽取技术全文共77页,当前为第77页。 Title ? linespacing Images? How insure non-identifiability of images ? change imaging to radiology Animate the white box-summary Remove hyperlinks 1)缺乏对中文分词处理的良好支持。目前的版本并不能实现真正意义上的中文分词。 2)词表不够专业化,当需要在某个实际领域进行信息抽取应用的时候,GATE自身带的中文词表数量不够。 在命名实体识别过程中,JAPE规则对中文不能有效支持。由于目前的JAPE规则都是针对英文命名实体识别的,所以当我们进行中文命名实体识别的时候,相当多的中文命名实体不能被识别。 1)缺乏对中文分词处理的良好支持。目前的版本并不能实现真正意义上的中文分词。 2)词表不够专业化,当需要在某个实际领域进行信息抽取应用的时候,GATE自身带的中文词表数量不够。 在命名实体识别过程中,JAPE规则对中文不能有效支持。由于目前的JAPE规则都是针对英文命名实体识别的,所以当我们进行中文命名实体识别的时候,相当多的中文命名实体不能被识别。 3.1NE The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are rocket, Tuesday, Dr. Head and We Build Rockets 信息抽取技术全文共77页,

文档评论(0)

宋江 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档