- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《文本分析与文本挖掘》.科学出版社.2018 特征扩展方法研究 如果知道“教授”是人名识别的有益特征,那么与“教授”相类似的特征,如“老师、助教、讲师”等词,也将有助于判别人名实体。 《文本分析与文本挖掘》.科学出版社.2018 构造词向量空间 《文本分析与文本挖掘》.科学出版社.2018 六个词“电脑”“计算机”“教授”“老师”“面包”“馒头”的相似度矩阵。 《文本分析与文本挖掘》.科学出版社.2018 内容索引 3.1、中文命名实体识别特点与任务描述 3.2、ME 模型及其适用性 3.3、基于ME 模型的中文命名实体识别 3.4、双层混合模型方法研究 3.5、实验结果与分析 本章小结 练习与思考 《文本分析与文本挖掘》.科学出版社.2018 中文命名实体识别任务不仅需要识别实体类型还需要判别实体边界。 这种不确定的实体边界通常会影响实体的识别效果。 ,“对{张/红}说”和“对{孙/桂/平}说”,其中“对[Person]说”是较好的语法规则,但因二者切分不同,不易获得一致特征。如将“孙桂平/等”切分为“孙/桂/平等”,也会影响实体识别。 《文本分析与文本挖掘》.科学出版社.2018 《文本分析与文本挖掘》.科学出版社.2018 HMM 与ME 模型在标注实体时召回率呈现互补关系 《文本分析与文本挖掘》.科学出版社.2018 领域实体扩展方法研究 易于识别错误举例: S1:体育新闻问句“陈忠/CPN 和哪年执教国家队?” S2:体育新闻语句“姚明成/CPN 为了火箭队的唯一得分点。” 《文本分析与文本挖掘》.科学出版社.2018 短句内的信息量有限,可以将知识扩大到文本领域,通过文本内的上下文进行纠正。 在篮球领域易于判别“姚明”是人名,在排球领域易于判别“陈忠和”是人名,因而上述问题可通过领域实体扩展方法正确处理。 《文本分析与文本挖掘》.科学出版社.2018 《文本分析与文本挖掘》.科学出版社.2018 内容索引 3.1、中文命名实体识别特点与任务描述 3.2、ME 模型及其适用性 3.3、基于ME 模型的中文命名实体识别 3.4、双层混合模型方法研究 3.5、实验结果与分析 本章小结 练习与思考 《文本分析与文本挖掘》.科学出版社.2018 《文本分析与文本挖掘》.科学出版社.2018 《文本分析与文本挖掘》.科学出版社.2018 《文本分析与文本挖掘》.科学出版社.2018 《文本分析与文本挖掘》.科学出版社.2018 《文本分析与文本挖掘》.科学出版社.2018 从识别结果来看,语句“姚明成/CPN 为了火箭队的唯一得分点”能被正确纠正,并正确识别出“姚明”,而辅以分词消歧策略后,语句被正确处理为“姚明/CPN 成为了火箭队的唯一得分点。” 《文本分析与文本挖掘》.科学出版社.2018 《文本分析与文本挖掘》.科学出版社.2018 内容索引 3.1、中文命名实体识别特点与任务描述 3.2、ME 模型及其适用性 3.3、基于ME 模型的中文命名实体识别 3.4、双层混合模型方法研究 3.5、实验结果与分析 本章小结 练习与思考 《文本分析与文本挖掘》.科学出版社.2018 中文命名实体识别不仅需要识别实体的类型,还需要判别实体的边界。 命名实体识别可看作是序列标注问题,ME模型可以比HMM模型融入更多的特征。 线索词搜集和建立领域知识词典可以提高识别性能。 引入句法、篇章特征可以进一步提高识别的准确度。 商品名、武器名等命名实体识别也极具价值。 《文本分析与文本挖掘》.科学出版社.2018 内容索引 3.1、中文命名实体识别特点与任务描述 3.2、ME 模型及其适用性 3.3、基于ME 模型的中文命名实体识别 3.4、双层混合模型方法研究 3.5、实验结果与分析 本章小结 练习与思考 《文本分析与文本挖掘》.科学出版社.2018 练习与思考 1、常见的中文命名实体有哪些。 2、日期、时间类的命名实体为什么可以使用第1章的仿词识别技术?当仿词识别仍然存在歧义时,思考,应该如何处理? 3、利用序列化识别方法,如何标记实体? 4、HMM可以进行实体识别的序列标注吗? 5、相比HMM,ME具有哪些特点? 《文本分析与文本挖掘》.科学出版社.2018 6、设计:请设计一个商品名识别系统,可以借助互联网,探索实现一个高性能的商品名识别系统。给出具体设计方案。 7、如果能够准确识别商品名,你能考虑如何利用这些商品名完成一些更高级的任务吗,例如借助关联规则实现推荐系统,还有其他用途吗? 8、使用C++或Java编写一个命名实体识别的程序。 《文本分析与文本挖掘》.科学出版社.2018 9、思考线索词的作用和常见线索词的挖掘方法,除了本章阐述的方法,你能说出还有哪些方法可用吗? 10、思考:进一步改进命名实体识别的思路
文档评论(0)