- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习的英汉字典模糊查询研究与设计开发
○
○A基础理论
●B应用研究
○C调查报告
○D其他
本科生毕业设计(论文)
基于机器学习的英汉字典模糊查询
二级学院
:
信息科学与技术学院
专业
:
计算机科学与技术
年级
:
2010级
学号
:
2010344369
作者姓名
:
苏家辉
指导教师
:
蔡广基副教授
完成日期
:
2014年5月24日
基于机器学习的英汉字典模糊查询
专业名称:计算机科学与技术
作者姓名:苏家辉
指导教师:蔡广基
论文答辩小组
组长:蔡广基
成员:王晓晔
关心
论文成绩:
given.Themodelanalysestheuser’sfuzzyquerydataandfindsouttheconnectionsbetweenthedata,recordingtheminingmodels,appliesthemtothefuzzyquerysetduringanon-accuratesearching,andautomaticallyimprovestheminingmodelssetaccordingtothestatisticsatfrequenciesofuser,providingintelligentsolutionsforthefuzzyquery.
Keywords:Machinelearning。dynamicprogrammingalgorithm。fuzzyquery。
1引言
1.1研究背景及其意义
机器学习是现代人工智能研究、发展的重要领域,它通过研究计算机如何模拟或实现人类的学习行为,通过分析、归纳、综合建立人类学习过程的计算模型或认识模型,基于已有数据识别复杂模式,做出智能化的决策,并将其应用于实际问题中,为解决问题提供可行决策和方案支持[1]。自1980年在卡内基梅隆大学召开第一届机器学习研讨会以来,机器学习的研究工作发展迅猛,已成为人工智能领域研究的中心课题之一。随着机器学习的蓬勃发展,人们在工作中累积了大量可供测试算法的数据集或者超大数据集,机器学习工作者在此基础上可以进行更精准的研究。目前机器学习已经广泛应用于智能搜索、数据分析等领域,如许多大型的搜索引擎网站的智能化的用户体验都是基于机器学习等研究成果实现的。在大数据时代,机器学习研究将会得到更大的发展。
1.2研究内容和目标
研究机器学习模型的生成过程,构建机器学习的模型,将其应用到英汉字典模糊查询中。
第2节介绍机器学习和模糊查询中的基本思路和实现方法,第3节具体介绍算法实现的设计和数据的处理,第4节编码实现构想,第5节通过一些测试用例验证、完善算法的基本功能,最后一节对本研究做出总结并提出新展望。
2研究与实现中的关键技术
2.1机器学习的基本原理
机器学习是从已有或动态的数据中提取有用的新知识[2],并将其应用到问题的决策中,其基本过程为:
1.收集学习材料,即获取的数据;
2.分析数据,从中提取有趣的模式;
3.基于数据分析获取有趣的模式,生成知识库,制定决策;
4.通过学习新知识检验知识库数据的有效性,修改、完善知识库。
在步骤1中获取的知识是原始的数据或材料,他们看起来可能是杂乱无章的,因此在步骤2需要对数据进行分析,挖掘复杂的隐藏的模式,使用朴素的贝叶斯分类、噪声处理等方法对数据进行分离、提取,然后在将来的决策(步骤3)中使用这些模式去提供方案。但是提取出来的模式也可能是无效的,这就需要步骤4不断地学习新的知识,判定模式是否有效,修改完善知识库。
2.2有趣模式的提取
如何从原始数据中提取有用的模式,挖掘那些隐藏的有趣知识?分类是数据分析的一种重要的形式,通过它可以提取重要的数据类型。分类首先要基于现有数据建立一个分类模型,然后根据模型对数据进行分类。分类模型有决策树分类器、贝叶斯分类器和基于规则的分类器等[3]。
在英汉字典模糊查询系统,使用的是基于规则的分类器--形如IF-THEN的分类器。规则的IF部分是前提条件,THEN部分是结论。假如用户的某些输入满足特定的条件则可认为是有趣模式。一般情况下,如果用户本次输入的数据在上一次模糊查询的结果集中,则可认为上一次为用户提供的结果集中的对应项是有趣的。如果不满足这一条件则可认为上一次的模糊结果集对用户没有帮助,即为无效数据,丢弃之。英汉字典模糊查询系统的规则分类器实现大体如下:
本次是否为精确查询?
YESNO
上一次是否有模糊结果集?
非有趣模式
YESNO
本次输入在上一次模糊结果集中?非有趣模式
YES
文档评论(0)