问答系统—问题分类.pptVIP

下载本文档

116
0
约2.64千字
约 27页
2017-08-08 发布于重庆
举报
版权申诉

问答系统—问题分类.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

问答系统—问题分类.ppt

问答系统—问题分类文勖 2004-6-20 问答系统总体框架问答系统总体框架问答系统的简单流程目前问答的小组成员 1. 张老师总体指导负责 2. 文勖问题分类 3. 王丽娟查询扩展 4. 赵世奇答案抽取 5. 汤云山答案排序和选择具体例子 1. 系统输入：用户输入问题“第一个进入太空的中国人是谁” 2. 问题分类：HUM_PERSON 3. 查询扩展(王丽娟讲解) 4. 文本检索： (1)杨利伟是第一个进入太空的中国人，他于2003年10月15日乘神州五号进入太空，开始了21个小时的太空之行 …… (2)杨利伟是第一个进入太空的中国人，第431位进入太空的地球人。. 当飞船绕地球运行第八圈时 …… 5. 答案抽取(世奇讲解) 6. 答案排序和选择(根据编辑距离进行聚类) 7. 系统输出：杨利伟问题分类我所用的两种算法 SVM算法(用的是.tw/~cjlin/libsvm/所提供的libsvm-2.6程序包 ) 简化贝叶斯算法利用布尔权值的SVM 布尔权重的数学表示：具体操作：类似于文本分类，首先去掉停用词，把同一类型的所有问题实例都作为一个文本 Libsvm的输入格式 label1index1:value1index2:value2 ... …… label2index1:value1index2:value2 ... …… …… labelXindex1:value1index2:value2 ... 输入格式的一个例子 HUM_PERSON 谁/r 发现/v 镭/n HUM_PERSON 谁/r 发现/v 美洲/ns 谁/r (323) 发现/v(4523) 镭/n(23355) 谁/r(323) 发现/v(4523) 美洲/ns(132) Libsvm要求的输入格式为： 1 323:1 4523:1 23355:1 1 323:1 4523:1 132:1 训练和测试假设训练文件为index_file,通过svmtrain.exe 进行训练得到训练模型index_file.model 假设测试文件为test_file,通过svmpredict.exe进行测试得到测试结果存放到result_file 简化贝叶斯分类假设词与词之间是相互无关的对一个问句Q，首先进行分次和词性标注，去掉停用词，得到如下形式：Q1 Q2……Qn。qc为问题类型的变量我们的目标：简化贝叶斯分类(续) 因为分母相同，只需处理我们假设有下式成立简化贝叶斯分类(续) 如何计算权值？ N=65类别总数目表示term和qci的共现频率 Tf-idf权值处理对P(qc,term)进行降低权值的处理，处理理由如下： 1.如果一个词在某个问题类型中出现的次数越多，那么它与该问题主体的关联性越强； 2.如果一个词在集合中很多问题类型中都出现多次，那么它对分类的贡献就小。基于此，我们采用了tf-idf进行权值处理。 Tf-idf公式 Tf-idf公式参数含义：其中N和上面的一样，N=65，M表示term在M种问题类型中出现。 Tf-idf二次处理首先看看不太均匀的语料库 Tf-idf二次处理(续) Tf-idf二次处理(续) 针对我们语料库分布不太均匀和汉语的特点，对某些特定的词项再次降低了权值,DES_OTHER中的什么/r，LOC_OTHER中的什么/r，哪个/r，DES_REASON中的什么/r，OBJ_OTHER中的什么/r，TIME_OTHER中的什么/r，我们再次运用tf-idf。 Tf-idf二次处理(续) 例如在考虑DES_OTHER类型中的“什么/r” counter(DES_OTHER, 什么/r)= counter(DES_OTHER, 什么/r)*log X为语料库中DES_OTHER的问题实例数目，Y为“什么/r”在DES_OTHER出现的次数，即通过这样的降低权值以后，性能有了一定的提高。确定问题类型找到使取最大值的问题类型qc* 例子用户输入(系统输入)：中国哪个地区的气候最好预处理后得到：中国/ns 哪个/r 地区/nz 气候/n 最好/d 假设只有两个问题类型LOC_OTHER(0),DES_OTHER(1) 进行分类具体为：比较和实验结果及分析分类器训练集数目测试集数目分类然而SVM的分类结果却让人非常遗憾，对很多的测试问题都分到训练集中问题实例较多的那5个类。实验结果让人沮丧。以上的测试集是小百科全书的问题集的一部分，问题分布不太均匀。实验结果分析产生分类结果不好