- 5
- 0
- 约4.49万字
- 约 45页
- 2019-03-30 发布于上海
- 举报
摘
摘 要
语义相似度是中文信息处理的关键技术,在自动分类、自动聚类、机器翻译、
信息检索、信息过滤等领域有着广泛的应用。传统的语义相似度算法难以表达丰 富的语义信息,计算结果与人的主观认识有一定的差距。区间直觉模糊集具有强 大描述模糊信息的能力,它采用区间直觉模糊数揭示语义模糊信息。因此,基于 区间直觉模糊集的语义相似度研究能够更好的表征语义,挖掘语义信息,提高语 义相似度计算的准确性,突破传统语义相似度在语义表达上的瓶颈。
本文首先介绍了语义相似度研究的国内外现状,提出了目前语义相似度的主 要缺点是没有充分体现语义信息。文章引入了区间直觉模糊集表示语义信息,并 详细阐述了如何使用区间直觉模糊集表示层次信息、深度、密度、语义传递信息 等。在此基础上,本文构建了模糊矩阵,把语义相似度的问题转化为模糊矩阵的 问题。结合《知网》中的“词语由义原整合”的思想,实现了基于区间直觉模糊 的词语相似度计算。最后,采用 30 对词语对算法进行了测试,证明了算法的有 效性。
本文的主要研究内容为:
(1) 分析了语义相似度研究的必要性,并对国外研究现状进行了文献调研 和分析。
(2)分析并归类了目前的主要的语义相似度算法,并提出了目前语义相似 度算法的不足之处。
(3)介绍了区间直觉模糊集与区间直觉模糊数、区间直觉模糊关系、语义 传递包的计算以及《知网》等基础知识,为基于区间直觉模糊集的语义相似度计 算奠定了基础。
(4)提出了基于区间直觉模糊集的语义相似度算法思想。综合考虑了层次 结构、深度、密度对语义关系权值的影响,建立模糊矩阵,表征层次结构中的语 义关系。结合《知网》中的单位——义原,把词语表示为义原,计算并整合词语 表示式中所有的义原相似度得到词语的整体相似度。
(5)对算法进行验证和分析。与刘群的测试数据和主观经验对比,以此验 证本文中提出算法的合理性和有效性。
本文对基于区间直觉模糊集的语义相似度研究展开了研究和讨论,提出了语 义相似度算法并进行了有效性验证。继续完善语义相似度的各环节,并把本算法 推广应用到句子相似度、文档相似度中去,是我们今后工作的目标。 关键词:语义相似度;区间直觉模糊集;《知网》;算法;义原
I
Ab
Abstract
II
II
Semantic similarity as a key technology in Chinese information-disposing, has been widely applied in the field of automatic classification, automatic clustering, machine translation, information retrieval, information filtering. To express the rich semantic information is one of the most difficult problems in traditional semantic similarity algorithm. So the calculated results have a certain gap with the persons subjective understanding. Interval-valued intuitionistic fuzzy sets have a powerful ability to describe the fuzzy information and adopt inter-valued intuitionistic fuzzy numbers for semantic fuzzy information. So semantic similarity based on IVIFS describes object in detail and mines implied meaning, which can improve the accuracy of similarity calculation and break through the bottleneck in semantic representation of traditional semantic similarity.
This paper introduces domestic and international situation of semantic similarity at first and raises the main problem that the current semantic similarity not fully reflects the semantic
您可能关注的文档
- 基于神经网络的重庆市物流需求预测研究-企业管理专业论文.docx
- 基于生态服务价值的辽宁省土地利用优化配置分析-土地资源管理专业论文.docx
- 基于通信半径动态调整的无线传感器网络密钥管理方案-计算机科学与技术专业论文.docx
- 基于生态文明的天津市产业结构优化模式研究-管理科学与工程专业论文.docx
- 基于六西格玛计分卡的高校图书馆绩效 评价研究-图书情报专业论文.docx
- 基于文档复制检测技术的研究与实现-计算机软件与理论专业论文.docx
- 基于企业生命周期理论的中小企业技术创新模式研究-企业管理专业论文.docx
- 基于平衡计分卡的V企业供应链绩效管理研究-工商管理专业论文.docx
- 基于三重螺旋视角的产业创新联盟动力机制及决策行为研究-技术经济及管理专业论文.docx
- 基于人工免疫的入侵检测器生成算法研究计算机软件与理论专业论文.docx
最近下载
- (高清版)C-H-T 9012-2011 基础地理信息数字成果数据组织及文件命名规则.pdf VIP
- Unit6 Numbers in life A let's learn(课件) 人教PEP版(2024)英语三年级下册.pptx VIP
- 2026年重庆高考物理考试卷及答案.docx VIP
- 2025年新疆高考语文试卷及答案.docx VIP
- 工程断裂力学课件.ppt
- 部编版六年级语文下册导学案(全册).docx VIP
- 大足石刻宝顶山景区讲解词(完整版).pdf VIP
- 最新2026年时事政治题单招标准卷.docx VIP
- 伟思医疗公司2019年财务分析研究报告.docx
- 外国名家哲理短文40篇重点.doc
原创力文档

文档评论(0)