- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
7.自然语言处理的若干问题研究王晓龙-中国语言文字网
自然语言处理的若干问题研究 哈尔滨工业大学 王晓龙 电话:0451Email: wangxl@ 主要研究内容 问答系统与问答式检索 多文档自动文摘 智能输入与音字转换 生物信息学 智能化中文信息处理平台 1.问答系统与问答式检索 四个系统 1国内早期的问答系统研究 80年代 针对固定段落 7w 技术路线1 基于理解 技术路线2 基于统计的检索 1.问答系统与问答式检索 2基于问答对的问答系统 问一问:100万句 3专业网站 黑龙江联通网站 4国家863重点项目数字奥运 旅游领域。 国家自然科学基金项目 1.问答系统与问答式检索 国内外研究现状 目前国外开发出的一些相对成熟的问答系统包括: Mit开发的Start系统 AnswerBus系统 国内的研究成果 尤里卡搜索引擎 百度(孙悟空)搜索引擎 问一问搜索引擎 问答式信息检索研究 在每年一度的文本信息检索(TREC)会议上,自动问答(Question Answering Track)是最受关注的主题之一。越未越多的大学和科研机构参与了TREC会议的Question Answering Track。 1.问答系统与问答式检索 问答式信息检索研究 允许用户输入自然语言问句 符合人的习惯 精确刻画信息需求 系统直接返回答案或者蕴含答案的文本片断 提高信息检索的效率 精确度是问答式信息检索的首要指标 问答式信息检索研究 研究目标 研究基于Web的面向大规模真实网络文本的问答系统 目前为受限领域(旅游领域) 研究高鲁棒性的相关语言处理技术,带动它们向实用化方向发展 问答式信息检索研究 技术路线 用户问句与海量网络语言信息的深层次结构化加工处理 海量语言信息的自动结构化技术 海量网络文档自动分类技术 海量网络文档的摘要生成 问答式信息检索研究 海量语言信息的自动结构化技术 自动分词 词性标注 名实体识别 短语划分 句法结构标注 语义标注 自动分词 词网格分词 Bigram模型 词网格技术 Viterbi算法 采用分类算法解决汉语的交叉歧义和组合歧义 这两项指标在2003年的863评测中名列首位 词性标注 同时支持北大标注集和清华北语标注集 隐马尔科夫模型词性标注 北大1998年6月人民日报语料评测词性标注精确率94.5% 基于触发对的最大熵模型词性标注 北大1998年6月人民日报语料评测词性标注精确率96.5% 目前正在研究粗糙集和最大熵融合的模型 有望将词性标注的正确率提高到97~98%左右 名实体识别 人名、地名、机构名、日期、时间、数字、比例等 人名(中外人名)、地名和机构名是识别的重点与难点所在 基于最大熵模型中文名实体识别 基础模型:最大熵模型 基于转移的错误驱动(TBL)机器学习技术进行名实体识别结果修正 采用特征融合技术解决权值偏执问题 采用Boosting技术解决过拟和问题 最近一次的评测结果如下: 98年人民日报语料测试的结果为:人名:正确率:89.2%,召回率:81.6%,F量度:85.22%,地名:正确率:94.3%,召回率:89.9%,F量度:92.1%,机构名:正确率:85.3%,召回率:63.3%,F量度:72.7%。 短语划分 鲁棒性句法分析策略 级联式有限状态句法分析方法 基于词语搭配的有限状态短语划分算法 优点 适于处理网络文档(含有大量未登录词、病构语句) 效率较高 处理101,500篇旅游类网络文档耗时4个小时左右。 精度能够满足问答式信息检索的需要 缺点 与现有的句法分析方法在技术路线上完全不同,因此造成评测的困难 缺乏训练机制 海量网络文档自动分类技术 针对文档分类技术本身,研究文档分类技术中的关键技术的创新与融合 特征提取与重构 基于期望交叉熵的特征提取算法 以OKAPI权值计算公式对文本进行向量化表示 Semi-Discrete Matrix Decomposition (SDD)算法对文档向量进行语义分析 分类器算法融合 KNN分类算法 支持向量机(SVM)算法 2003年文本分类评测取得了第一名的成绩 评测显示:采用K-NN与SVM算法相结合的文本分类技术,在分类精度上有了进一步的提高。 海量网络文档自动分类技术 研究自动文档分类技术在专业领域问答式信息检索中的应用方法 语义类别的确定问题 目前采用人工确定的方法 文本分类应用策略问题 重新排序技术 过滤不相关答案技术 海量网络文档自动分类技术 实验表明,自动文档分类技术在减少候选答案片段的同时可有效提高问答系统的准确率与响应时间,对系
文档评论(0)