基于Internet新词自动检测.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Internet的新词自动检测 计算所 内容提要 背景 基于Internet的新词检测系统 概述 数据库的结构 网页采集,网页内容提取 自动模板生成工具 重复串检测 新词语自动抽取 新词语自动过滤 新词语词性猜测 新词聚类 新词系统目前的效果 基于篇章的新词发现程序 总结 背景 随着经济、社会的飞速发展和对外交流的日渐频繁,自然语言中新词的不断涌现 在汉语这种词与词之间没有明显界限的语言中,新词的识别问题比较严重 背景 从新词的来源来讲,大体可以分为: 命名实体:包括人名、地名、音译名、商品名、公司字号、机构名等; 缩略语:如“非典”、“计生委”等; 方言词:如“靓”、“买单”等; 新造词:如“伊妹儿”、“美眉”等; 专业术语:如“非典型肺炎”、“蓝光光盘”等; 音译词:如“酷”、“秀”、“克隆”等; 外来字母词:如WTO、APEC、SARS等。 以上划分方式大多是按语言学的标准进行的,在机器处理时无法识别(命名实体和字母词除外) 背景 虽然从词语的构成规律上看不出新词的规律,但是从一个整体的角度看,新词具有下述的两个特征: 新词语在文本中重复出现 新词语出现的时间有规律 随着Internet的蓬勃发展以及网页采集技术的成熟,已经可以轻易的从网上采集大规模的新闻网页,同时目前概率词法分析器也达到了比较成熟的阶段,因此这两个条件给我们利用新词语的这两个特征做好了准备。 基本思想 首先大规模处理网页,对于切分后的网页内容,用重复串查找寻找新词,但同时也不可避免的找到了词与词之间常用的搭配。 接着根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合,这个集合里面不仅包括了大部分已有的词,并且还包括了大部分常见的词与词之间的搭配。 然后我们在这个背景词串集合的基础上,通过评价函数对于给定时间以后的词和串进行评价,从中得到新词候选。最后用一套过滤规则库,对新词候选进行过滤,得到最终的新词结果。 此种做法的优点 可以寻找不限长度的新词 可以寻找在某一段时间后出现的新词 在网页处理阶段,将一篇网页中所有出现2次以上的重复串都找了出来,因此可以认为漏掉的新词比较少,因而最终结果的新词召回率很高 内容提要 背景 基于Internet的新词检测系统 概述 数据库的结构 网页采集,网页内容提取 自动模板生成工具 重复串检测 新词语自动抽取 新词语自动过滤 新词语词性猜测 新词聚类 新词系统目前的效果 基于篇章的新词发现程序 总结 基于Internet的新词系统的概述 主要是三个部分组成 指定网站的网页采集(利用一个共享采集软件) 建立原始信息数据库 建立过滤数据库和背景数据库,并且进行新词的查找等 此外还有一些辅助的部分 新词聚类 网页内容抽取模板制作工具 人机互助的新词确定 新词词性的猜测 整个系统框架 内容提要 背景 基于Internet的新词检测系统 概述 数据库的结构 网页采集,网页内容提取 自动模板生成工具 重复串检测 新词语自动抽取 新词语自动过滤 新词语词性猜测 新词聚类 新词系统目前的效果 基于篇章的新词发现程序 总结 数据库的结构 原始信息数据库,过滤数据库和背景数据库 原始信息数据库-记录每份报纸的每张网页的原始信息 每份报纸用两张表来存储 第一张表存储每张网页的网址,日期等等 第二张表存储每张网页的词和串,它们的频率以及对应的第一张表中的网页ID paperindex表存储原始信息数据库中所有的报纸的信息 数据库的结构 过滤数据库和背景数据库: 这两个数据库从原始信息数据库中生成 依据日期信息来建立的。过滤数据库里存放的是大于某个日期的所有词和串以及它们的总的词频和文档频率,背景数据库里存放的是小于某个日期的所有词和串以及它们的总的词频和文档频率 数据库样例-paperindex 数据库样例-paper1textsource 数据库样例-paper1cluster 数据库样例ackup 内容提要 背景 基于Internet的新词检测系统 概述 数据库的结构 网页采集,网页内容提取 自动模板生成工具 重复串检测 新词语自动抽取 新词语自动过滤 新词语词性猜测 新词聚类 新词系统目前的效果 基于篇章的新词发现程序 总结 网页采集软件 采用的是共享软件offline explorer 网页内容提取模块 功能: 将文字等内容以及新闻日期从网页中提取出来 采用两种方法提取网页的内容 利用多模板轮换来提取网页内容 利用网页的特征来提取网页内容 内容提要 背景 基于Internet的新词检测系统 概述 数据库的结构 网页采集,网页内容提取 自动模板生成工具 重复串检测 新词语自动抽取 新词语自动过滤 新词语词性猜测 新词聚类 新词系统目前的效果 基于篇章的新词发现程序 总结

文档评论(0)

0258 + 关注
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档