构造汉语的统计计算语言模型-中国语言文字网.ppt

下载文档 降价啦

4
0
约5.77千字
约 47页
2017-03-04 发布于天津
举报
版权申诉
保障服务

构造汉语的统计计算语言模型-中国语言文字网.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

构造汉语的统计计算语言模型-中国语言文字网

自然语言处理的若干问题研究哈尔滨工业大学王晓龙电话：0451Email: wangxl@ 主要研究内容问答系统与问答式检索多文档自动文摘智能输入与音字转换生物信息学智能化中文信息处理平台 1.问答系统与问答式检索四个系统 1国内早期的问答系统研究 80年代针对固定段落 7w 技术路线1 基于理解技术路线2 基于统计的检索 1.问答系统与问答式检索 2基于问答对的问答系统问一问：100万句 3专业网站黑龙江联通网站 4国家863重点项目数字奥运旅游领域。国家自然科学基金项目 1.问答系统与问答式检索国内外研究现状目前国外开发出的一些相对成熟的问答系统包括： Mit开发的Start系统 AnswerBus系统国内的研究成果尤里卡搜索引擎百度(孙悟空)搜索引擎问一问搜索引擎问答式信息检索研究在每年一度的文本信息检索（TREC）会议上，自动问答（Question Answering Track）是最受关注的主题之一。越未越多的大学和科研机构参与了TREC会议的Question Answering Track。 1.问答系统与问答式检索问答式信息检索研究允许用户输入自然语言问句符合人的习惯精确刻画信息需求系统直接返回答案或者蕴含答案的文本片断提高信息检索的效率精确度是问答式信息检索的首要指标问答式信息检索研究研究目标研究基于Web的面向大规模真实网络文本的问答系统目前为受限领域（旅游领域）研究高鲁棒性的相关语言处理技术，带动它们向实用化方向发展问答式信息检索研究技术路线用户问句与海量网络语言信息的深层次结构化加工处理海量语言信息的自动结构化技术海量网络文档自动分类技术海量网络文档的摘要生成问答式信息检索研究海量语言信息的自动结构化技术自动分词词性标注名实体识别短语划分句法结构标注语义标注自动分词词网格分词 Bigram模型词网格技术 Viterbi算法采用分类算法解决汉语的交叉歧义和组合歧义这两项指标在2003年的863评测中名列首位词性标注同时支持北大标注集和清华北语标注集隐马尔科夫模型词性标注北大1998年6月人民日报语料评测词性标注精确率94.5% 基于触发对的最大熵模型词性标注北大1998年6月人民日报语料评测词性标注精确率96.5% 目前正在研究粗糙集和最大熵融合的模型有望将词性标注的正确率提高到97~98%左右名实体识别人名、地名、机构名、日期、时间、数字、比例等人名（中外人名）、地名和机构名是识别的重点与难点所在基于最大熵模型中文名实体识别基础模型：最大熵模型基于转移的错误驱动（TBL）机器学习技术进行名实体识别结果修正采用特征融合技术解决权值偏执问题采用Boosting技术解决过拟和问题最近一次的评测结果如下： 98年人民日报语料测试的结果为：人名：正确率：89.2%，召回率：81.6%，F量度：85.22%，地名：正确率：94.3%，召回率：89.9%，F量度：92.1%，机构名：正确率：85.3%，召回率：63.3%，F量度：72.7%。短语划分鲁棒性句法分析策略级联式有限状态句法分析方法基于词语搭配的有限状态短语划分算法优点适于处理网络文档（含有大量未登录词、病构语句）效率较高处理101,500篇旅游类网络文档耗时4个小时左右。精度能够满足问答式信息检索的需要缺点与现有的句法分析方法在技术路线上完全不同，因此造成评测的困难缺乏训练机制海量网络文档自动分类技术针对文档分类技术本身，研究文档分类技术中的关键技术的创新与融合特征提取与重构基于期望交叉熵的特征提取算法以OKAPI权值计算公式对文本进行向量化表示 Semi-Discrete Matrix Decomposition (SDD)算法对文档向量进行语义分析分类器算法融合 KNN分类算法支持向量机（SVM）算法 2003年文本分类评测取得了第一名的成绩评测显示：采用K-NN与SVM算法相结合的文本分类技术，在分类精度上有了进一步的提高。海量网络文档自动分类技术研究自动文档分类技术在专业领域问答式信息检索中的应用方法语义类别的确定问题目前采用人工确定的方法文本分类应用策略问题重新排序技术过滤不相关答案技术海量网络文档自动分类技术实验表明，自动文档分类技术在减少候选答案片段的同时可有效提高问答系统的准确率与响应时间，对系