A Short Cut of New Classified Words Detection.docVIP

下载本文档

0
0
约1.02万字
约 7页
2017-09-03 发布于北京
举报
版权申诉

A Short Cut of New Classified Words Detection.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种快速获取领域新词语的新方法刘华（暨南大学华文学院，广州，510610）摘要：针对新词语识别问题，直接抽取分类网页上人工标引的关键词，按照其网页栏目所属类目存储进各分类词表，快速完成新词语识别和聚类任务，简单快捷。从15类6亿字网页中抽取到229237个词条，新词语175187个，新词率为76.42%，其中游戏类新词率最高，时政_社会类新词率最低。新词语以命名实体为主，结构固定，意义完整性和专指性强，有助于解决歧义切分和未登录词问题，并能提高文本表示如分类和关键词标引的效果。关键词：新词语；识别；聚类中图分类号：TP391 A Short Cut of New Classified Words Detection Liu Hua （College of Chinese Language and Culture of Jinan University，Guangzhou，510610） Abstract：Extracts directly key words labeled by specialist in web pages, and stored them in classified wordlist according to the column of source web page, detects new words and clusters quickly. From 6 hundred million web pages covering 15 kinds, extracted 229237 words, including 175187 new words, the new words ratio is 76.42%. New words are mostly Named Entities, with steady structure and integrated meaning, conducive to ambiguity and unknown words in Chinese word segmentation, would improve text representation, such as text categorization and key words indexing. Keywords：New Words；Detection；Clustering 新词语的识别和领域聚类是自然语言处理、信息检索、信息提取中的一项基础研究。新词语可以丰富人类语言知识，帮助解决一些歧义切分的问题；而且，新词语常常表达更为精确完整的概念，能提高向量空间模型的文本表达能力和文本分类的效果。本文在简要回顾新词语识别和聚类的基础上，介绍了一种简便快捷的新词语发现和聚类的新方法。该方法直接抽取网页上人工标引的“关键词”和其他词语信息，并按照该网页栏目的对应类别将新词语分类，同时达到了新词语识别和领域聚类的目的。最终从15类6亿字的语料中抽取出了约18万条分类新词语，并分析了这些新词语的特点及其在语言信息处理中的应用。 1 新词语识别和聚类简述新词语识别不外乎基于统计的和基于规则的两种方法。统计方法主要基于符号（如字、n串）的内部结合紧密度及其对上下文环境的依赖程度实现。几乎各种算法都已应用过，常见的如隐马尔可夫模型（Bikel et al 1997）、最大熵（Borthwik 1998）、支持向量机（Asahara 2003）、互信息、熵等等（罗盛芬，2003）。基于规则方法的基础是模板特征库和已标注上下文搭配特征的训练库，如专名或术语的前后指界信息、词语构造规则（如知网中文信息结构库）等等。基于统计的方法可移植性强，但难以解决数据稀疏问题，缺乏语言学验证。基于规则的方法则由于语言的灵活性而难以穷尽，并且最大缺点在于资源建设代价高、可移植性差。目前的趋势是二者的融合。以机器学习方法为工具，大规模自动获取新词语，在此基础上通过规则的过滤，控制质量；或者通过机器学习方法获取规则，再施以统计或规则方法。这吸收了统计方法的自动快速和规则方法的可解释性和高质量的优点（金翔字，2002；聂颂，2003；庄明，2004；苏菲，2004；贾自艳，2004；隋岩，2004；杨尔弘，2005）。目前，国外有MUC（Message Understanding Conference）和ACE（Automatic Content Extraction）进行实体识别的评测。在汉语中，由于汉语缺乏形态标记，又与分词任务相互影响，新词识别难度更大。总的说来，新词语识别仍存在如下几个问题：长度限制。由于性能的限制，大部分研究集中2字至4字的n串识别上。领域依赖。新词语识别和领域判定相依赖，领域知识获取代价高，这在基