- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树和马尔可夫链问答对自动提取
基于决策树和马尔可夫链问答对自动提取
(中国科学技术大学 电子工程与信息科学系,安徽 合肥 230027)
摘 要:问答系统能用准确、简洁的答案回答用户用自然语言提出的问题,很明显系统中问答对的规模是影响问答系统最终性能的主要因素。为了提高问答对的规模、充分利用互联网资源,本文提出了一种基于决策树和马尔科夫链的在互联网上自动抽取问答对的算法。先根据网页中的HTML标记把网页表示成一棵DOM树;然后利用树中每个节点的结构和文字信息,抽取相应的特征;最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。试验结果表明准确率达到了90.398%,召回率达到了86.032%。对大量网页抽取的结果表明该分类模型能够适应对各种各样的网页的抽取。
关键词:人工智能;模式识别;信息抽取;DOM树;决策树;马尔可夫链
中图分类号:TP391 文献标识码:A
1 概述
伴随着互联网的迅速发展,理论上人类所需要的大部分知识都可能存在于互联网的某些网页上,但如何快速有效的从庞大的网络中检索出用户所需要的信息,已经成为了互联网应用中一个倍受大家关注的技术难题,自动问答系统、个性化搜索、社区搜索、搜索结果自动归类等相关技术和服务的提出,都是面向这样技术难题开展的卓有成效的研究路线。本文是面向基于问答对库的自动问答系统的需要,开展互联网上问答对的自动抽取研究。
自动问答系统是一种支持用户以自然语言方式给出自己问题(或需要搜索的知识)的答案搜索系统,同时反馈给用户更直接、更精简的答案。例如当用户希望了解“哪个国家是最大的内陆国”时,用户可以直接将上述自然语言的句子输入自动问答系统,则系统将直接给出答案:“哈萨克斯坦”,而不需要再从通用搜索引擎上搜索“内陆国最大”得到的大量网页链接中去找寻真正的答案。基于大规模问答对库的自动问答系统是问答系统中比较简单和有效的技术路线,此种技术对用户输入的问题,从预先保存好的大规模已经回答过的问题中寻找最为合适的,并将其答案部分直接反馈给用户,所以对答案生成和问题理解技术相对来说依赖得比较少。
问答对的规模是影响基于问答对的自动问答系统最终性能的主要因素,因此如何搜集大规模高质量的问答对是一项具有实际意义和研究价值的科研课题。现实中,互联网上已经积累了非常大规模的问答对,这些问答对大多以FAQ页面或者某些类似于BBS的网站上一问多答方式存在,如图1所示的是一个典型的包含多个问答对的FAQ页面。如果能自动收集起来这些问答对,将对基于问答对的自动问答系统提供非常有利的支撑。然而互联网上的问答对只是面向网页浏览用户而设计和书写的,一般仅仅是以HTML甚至简单文本方式存储,书写格式更是没有统一的规范,因此如何从这些不规范的问答对网页中,抽取出格式化的问答对,是一个比较典型的信息抽取问题,也是一个比较有挑战的问题。我们在网上搜集了500个网页(为了得到更多的问答对,这里的网页通过在商用搜索引擎上搜索关键字“FAQ”获得的),经过统计,明显带有表征问题对的关键字(如:“问”、“答”)的问答对只有651对,只占全部2113个问答对的30.81%。本文计划聚焦这一问答对抽取问题,提出一种基于决策树和马尔科夫链的自动抽取算法。实验结果表明,我们的方法效果显著,准确率达到了98.97%。就我们的调研范围,目前还没有此方面的研究成果发表。
2 相关工作
一般来说,在信息抽取领域主要存在两种信息抽取的方法:基于规则的方法和基于机器学习的方法。由于互联网网页的格式不统一,基于规则的方法存在规则不易构造且普适性很难保证等问题,因此目前的研究更多采用基于机器学习方法进行信息抽取[1~4]。在本文中我们也采用了基于机器学习的方法进行问答对的自动抽取研究。
互联网上信息抽取领域前人已经做了很多研究:比如新闻信息的提取[4];文献[5]提出了一种在网页中提取标题的方法,本文在特征选择上部分借鉴了文献[5]的方法;文献[6]给出了一种采用统计方法结合受限自然语言理解技术的模糊关键词集合提取方法。
3 基于决策树的分类模型
本文将采用机器学习和马尔可夫链相结合的方法进行问答对抽取工作。本方法适用于互联网上大多数的网页。主要分为两步来完成:训练和抽取。在训练过程中我们首先把HTML文件转变为DOM树的形式,然后针对DOM树中每一个有内容的叶子节点提取特征,通过C4.5决策树算法建立分类模型。具体各部分工作如下:
3.1建立网页的DOM树
由于HTML的“标记”只是告诉浏览器如何显示所定义的信息,故由HTML语言所表述的Web页面不适合由机器处理。当前主要采用DOM树来进行信息抽取[2,7,8]。
您可能关注的文档
最近下载
- 国家开放大学2024年《资本经营-重庆》形考任务1-4参考答案.docx VIP
- 河北大学2024-2025学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- T CAME 30-2021 复合手术室建设标准.docx VIP
- 控制电缆绝缘测试记录表.docx VIP
- 电化学储能电站并网运行验收全套表格.pdf VIP
- 内地新疆高中班学生转学、休学审核表.pdf VIP
- GBT 18015.1-2017 数字通信用对绞或星绞多芯对称电缆 第1部分:总规范.pdf
- TJAASS 151-2024 水稻碳足迹评价方法.pdf VIP
- 新解读《GB_T 18015.1-2017数字通信用对绞或星绞多芯对称电缆 第1部分:总规范》最新解读.docx VIP
- 2022年苏州大学计算机科学与技术专业《计算机网络》科目期末试卷B(有答案).docx VIP
原创力文档


文档评论(0)