- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
问答系统—问题分类.ppt
问答系统—问题分类 文勖 2004-6-20 问答系统总体框架 问答系统总体框架 问答系统的简单流程 目前问答的小组成员 1. 张老师总体指导负责 2. 文勖问题分类 3. 王丽娟查询扩展 4. 赵世奇答案抽取 5. 汤云山答案排序和选择 具体例子 1. 系统输入:用户输入问题“第一个进入太空的中国人是谁” 2. 问题分类:HUM_PERSON 3. 查询扩展(王丽娟讲解) 4. 文本检索: (1)杨利伟是第一个进入太空的中国人,他于2003年10月15日乘神州五号进入太空,开始了21个小时的太空之行 …… (2)杨利伟是第一个进入太空的中国人,第431位进入太空的地球人。. 当飞船绕地球运行第八圈时 …… 5. 答案抽取(世奇讲解) 6. 答案排序和选择(根据编辑距离进行聚类) 7. 系统输出:杨利伟 问题分类 我所用的两种算法 SVM算法(用的是.tw/~cjlin/libsvm/所提供的libsvm-2.6程序包 ) 简化贝叶斯算法 利用布尔权值的SVM 布尔权重的数学表示: 具体操作: 类似于文本分类,首先去掉停用词,把同一类型的所有问题实例都作为一个文本 Libsvm的输入格式 label1index1:value1index2:value2 ... …… label2index1:value1index2:value2 ... …… …… labelXindex1:value1index2:value2 ... 输入格式的一个例子 HUM_PERSON 谁/r 发现/v 镭/n HUM_PERSON 谁/r 发现/v 美洲/ns 谁/r (323) 发现/v(4523) 镭/n(23355) 谁/r(323) 发现/v(4523) 美洲/ns(132) Libsvm要求的输入格式为: 1 323:1 4523:1 23355:1 1 323:1 4523:1 132:1 训练和测试 假设训练文件为index_file,通过svmtrain.exe 进行训练得到训练模型index_file.model 假设测试文件为test_file,通过svmpredict.exe进行测试得到测试结果存放到result_file 简化贝叶斯分类 假设词与词之间是相互无关的 对一个问句Q,首先进行分次和词性标注,去掉停用词,得到如下形式:Q1 Q2……Qn。qc为问题类型的变量 我们的目标: 简化贝叶斯分类(续) 因为分母相同,只需处理 我们假设有下式成立 简化贝叶斯分类(续) 如何计算权值? N=65类别总数目 表示term和qci的共现频率 Tf-idf权值处理 对P(qc,term)进行降低权值的处理,处理理由如下: 1.如果一个词在某个问题类型中出现的次数越多,那么它与该问题主体的关联性越强; 2.如果一个词在集合中很多问题类型中都出现多次,那么它对分类的贡献就小。 基于此,我们采用了tf-idf进行权值处理。 Tf-idf公式 Tf-idf公式 参数含义: 其中N和上面的一样,N=65,M表示term在M种问题类型中出现。 Tf-idf二次处理 首先看看不太均匀的语料库 Tf-idf二次处理(续) Tf-idf二次处理(续) 针对我们语料库分布不太均匀和汉语的特点,对某些特定的词项再次降低了权值,DES_OTHER中的什么/r,LOC_OTHER中的什么/r,哪个/r,DES_REASON中的什么/r,OBJ_OTHER中的什么/r,TIME_OTHER中的什么/r,我们再次运用tf-idf。 Tf-idf二次处理(续) 例如在考虑DES_OTHER类型中的“什么/r” counter(DES_OTHER, 什么/r)= counter(DES_OTHER, 什么/r)*log X为语料库中DES_OTHER的问题实例数目,Y为“什么/r”在DES_OTHER出现的次数,即通过这样的降低权值以后,性能有了一定的提高。 确定问题类型 找到使 取最大值的问题类型qc* 例子 用户输入(系统输入): 中国哪个地区的气候最好 预处理后得到: 中国/ns 哪个/r 地区/nz 气候/n 最好/d 假设只有两个问题类型LOC_OTHER(0),DES_OTHER(1) 进行分类 具体为: 比较 和 实验结果及分析 分类器训练集数目测试集数目分类 然而SVM的分类结果却让人非常遗憾,对很多的测试问题都分到训练集中问题实例较多的那5个类。实验结果让人沮丧。 以上的测试集是小百科全书的问题集的一部分,问题分布不太均匀。 实验结果分析 产生分类结果不好
文档评论(0)