- 15
- 0
- 约1.28万字
- 约 92页
- 2016-06-08 发布于湖北
- 举报
* * * * 利用前趋字串和后继字串在词法、句法、语义、语用三方面的信息排除歧义 利用词法信息 湖上有几只美丽的白天鹅 加入规则:“如果交段与其后继字串组成名词,则将该歧义词首字单切,否则,确认该歧义词为词” 利用语义信息 例:学生会兴奋得手舞足蹈 学生/会/兴奋/得/手舞足蹈 学生会/兴奋/得/手舞足蹈 加入规则 “如果歧义切分字段后继动词的义项中含有动作发出者为“人”这个义素,则歧义字段的尾字单切,否则该歧义字段成词” 利用语用信息 日本保留和尚使用的古代庙宇已经不多了 乒乓球拍卖完了 美国会通过对台售武法案 3、基于统计的分词方法 :通过对大规模真实文本的统计,让计算机自己判断什么是词,这样就产生了基于统计的分词方法,又称为无词典分词。这类方法分词的依据和主要思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。 但是也有缺陷,如:了解答题的方法、他想出了解答的办法。 (三)、自动分词的问题: 1、歧义字段 (1)交集型歧义字段:汉字串AJB被称作交集型切分歧义,如果满足AJ, JB同时为词(A, J, B分别为汉字串)。此时汉字串J被称作交集串。 〔例〕“结合成” :结合/成,结/合成 让位移等于50厘米(让位移:让位/移、让/位移) 这种歧义字段占全部歧义字段的85%以上。 交集型歧义字段的消解: 伪歧义:虽然有
您可能关注的文档
- 拟南芥脱水素基因详细分解.doc
- 建筑节能分部施工方案详细分解.doc
- 建筑经济与企业管理详细分解.doc
- 你可以查看基于JSP邮件收发系统的设计与实现论文详细分解.doc
- 建筑企业异地施工如何纳税详细分解.doc
- 年产1万吨石头造纸项目可行性研究报告详细分解.doc
- 成都灯饰拓展报告150901.ppt
- 年产4万吨特种糯玉米种植加工扩建项目可研报告(正式版)张柯刚详细分解.doc
- 建筑施工企业质量管理体系及技术安全档案等方面管理制度文件详细分解.doc
- 年产6万吨环己酮车间环己烷精制工段初步设计详细分解.doc
- 2024-2025学年湖南省邵阳市新宁县回龙寺镇人教版一年级下册期中测试数学试卷.docx
- 2024-2025学年山东省德州市平原县王杲铺中小、王凤楼中小、腰站镇中小青岛版一年级下册3月月考数学试卷.docx
- 第四单元 课题3 物质组成的表示-初中化学新教材预习学案(人教版2024九年级上册).docx
- 2024-2025学年山东省济宁市梁山县人教版一年级下册期中测试数学试卷.docx
- 2024-2025学年山东省德州市德州经济技术开发区长河小学等校青岛版一年级下册期中考试数学试卷.docx
- 2026《基于国产开源单片机GD32VF103的输变电设备物联网传感器设计》8300字.docx
- 2024年中考道德与法治真题完全解读(北京卷).docx
- 2026《基于机器视觉识别的工件边缘曲线重构方法分析》9000字.docx
- 课时9.4 物体的浮与沉【一大题型】八年级全一册物理(沪科版2024).docx
- 2024-2025学年广东省江门市开平市人教版一年级下册期中综合素养评价数学试卷.docx
原创力文档

文档评论(0)