- 1、本文档共68页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
软件工程基于WORDNETXML文档语义相似性计算方法
毕业设计(论文)说明书
学 院 软件学院
专 业 软件工程
年 级 2007 级
姓 名
指导教师
2011年 6 月 15 日
毕业设计(论文)任务书
题目:基于WORDNET的XML文档语义相似性计算方法
学生姓名
学院名称 软件学院
专 业 软件工程
学 号
指导教师
职 称 教授 讲师
一、原始依据
1、工作基础:
近年来,随着互联网技术的飞速发展,网络上的信息资源呈不断的扩张趋势,无论在数量还是领域范围上,都爆炸式增长。这在丰富网络资源的同时,使得有效信息、知识的获取变得更加困难,因此,关于结构及语义相似性测量的研究成为数据挖掘、机器学习等领域中的研究热点之一。
事实上,相似性及其度量方法一直是数据挖掘、机器学习等领域中的研究主题之一,也是Web数据挖掘系统所要解决的关键问题之一。从1996年W3C提出XML工作草案,1997年召开第一次XML会议开始,到近年来XML、语义网(Semantic Web)及OWL等相关技术的研究与发展,使得面向内容的数据挖掘等成为可能。在面向内容的智能信息处理中,基于结构(如树、图)表示模式,计算结构化数据的结构相似性并从中挖掘知识,在数据挖掘及相关领域得到了广泛的研究。但数据的结构相似性研究并不能解决语义冲突问题,不能从根本上消除网络环境下的信息孤岛和实现信息资源的互联互通和资源共享。随着语义网和本体(ontology)的发展,这个问题得到了较好的解决,国内外学者从不同的角度(概念相似度、文档相似度、半结构文档相似度)都进行了深入研究,而XML作为一种应用越来越广泛的文档记录方式,对XML语义相似度的研究也受到了普遍的关注和研究。但目前对基于XML半结构语言计算语义相似性的研究没有一套成熟、高效的计算方法,自然语言与计算机语言之间仍然存在一道鸿沟,严重影响了对互联网信息的应用效率。
2、研究条件:
在目前研究成果的基础上,依托于南开大学信息学院数据库与信息系统实验室。近7年来,该室对XML结构相似性计算方法、基于结构相似性计算的Web挖掘方法等进行了深入研究,在此基础上,展开了XML的语义相似性研究。研究平台和应用环境为Windows 7,软件开发工具为Visual Studio 2008。
3、应用环境:
通过本方法,结合适当的领域词典,可对用户需求的信息、知识进行有效匹配,结合南开大学的已有项目,研究成果将应用于Web数据挖掘方法与系统;同时,还可以应用于知识工程、数字图书馆、各专业领域的信息检索、信息过滤、自然语言处理、数据集成及语义Web等许多方面。
4、工作目的:
本课题基于由普林斯顿大学设计的认知语言学词典WordNet,设计并实现一套用于计算XML基本语义相似性的计算方法。并以本课题为基础,为将来在更广阔范围的应用做准备。
二、参考文献
[1]Lin D. An Information-Theoretic Definition of Similarity[C].In: Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. 1998.296-304.
[2]Tversky, A. 1997. Features of similarity. J. Psychological Rev. 84: 327-352.
[3]Boanerges, A. M., Christian, H. W., Satya, S. S., Amit, S. I. and Budak A. 2005. Template based semantic similarity for security applications. Technical Report, LSDIS Lab, Computer Science Department, University of Gerogia, January.
[4]Jiang, J. J., David, W. C. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. Proc. Int. Conf. Research on Computational Linguistics. Taiwan, pp. 1-15.
[5]Peter, F., Martin, K, Erich J. N. 199
文档评论(0)