- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第
第 II 页
词语与词语之间的相似度指的是两个词语在不同的上下文中可以
互相替换使用而不改变文本的句法语义结构的程度。本文利用了基于
《知网》的语义相似度计算方法,对特征向量进行基于语义相似度的加 权。实验研究发现,基于语义相似度的特征向量加权虽然能够提高最终 文本聚类效果,但是其效果并没有基于词语相关度的加权方法这么明 显。本文也尝试着寻找了一些原因和解决的方法。
最后本文对于把几种基于语义的加权方法叠加使用的可行性方法 进行了探讨。实验研究发现,本文提出的这种叠加方案是完全可行的, 比只使用任何一种语义加权方法的效果都要好,大约有 5%的提高。
关键词:向量空间模型,文本聚类,词语相关度,词语相似度
第
第 III 页
RESEARCH OF FEATURE VECTOR VALUE WEIGHTED BASED ON SEMANTIC ANALYSIS IN CHINESE TEXT CLUSTERING
ABSTRACT
With the rapid development of Internet, people find it difficult to find their useful information through Internet. The application of text mining is very broad, while text clustering is an important part of text mining.
Text clustering is an important research branch of clustering method and it is the application of clustering method used in text processing field. But text clustering has some common problems such as high-dimensional text object, a document collection may need hundreds of thousands of words to express; the sparse of text object, a lot of words are rarely used. However the literal meanings of text object and potential semantic relations could hardly be excavated.
First, this paper reviews some concept and methods of Chinese text pre-processing, text representation, text similarity calculation, and document feature vector reduction, clustering algorithms and clustering efficiency evaluation. Then this paper discusses the main problem of text clustering in excavation of literal meaning of text object and semantic relations and presents several methods of feature vector value weighted based on semantic analysis: based on word part of speech, based on the term location, based on term length, based on the term correlation and based on term similarity.
The term correlation means the probability of two terms appearing in a certain language environment. In general we use document co-occurrence frequency, paragraph co-occurrence frequency and sentence co-occurrence frequency to measure term correlation. Study shows that the method of
第
第 PAGE
您可能关注的文档
- 考虑时变特性的分布式电源优化配置研究-电气工程专业毕业论文.docx
- 麋鹿AFLP分子标记系统的建立及其遗传多样性评估-动物学专业毕业论文.docx
- 矩形域上双调和方程边界值问题的小波方法-应用数学专业毕业论文.docx
- 民国时期国学分析与社会运动-考古学专业毕业论文.docx
- 空间调制系统中的天线选择技术研究与仿真-通信与信息系统专业毕业论文.docx
- 绿色建筑的全寿命周期经济评价体系研究-土木工程建造与管理专业毕业论文.docx
- 麦门冬汤对人皮肤成纤维细胞增殖及Ⅰ型胶原合成的影响-中医临床基础专业毕业论文.docx
- 黄藤中黄藤素提取纯化工艺研究-药物化学专业毕业论文.docx
- 面向信息技术的SX公司业务流程再造管理研究-工商管理专业毕业论文.docx
- 慢性丙型肝炎患者外周血中调节性T细胞的特征及临床意义-生物工程专业毕业论文.docx
- 面向并联机构的容错纠错实验研究-机械设计及理论专业毕业论文.docx
- 论逐步实现人民币的全面可兑换-金融学专业毕业论文.docx
- 铝塑复合食品包装材料中有毒有害物质的含量测定与迁移研究-食品加工与安全专业毕业论文.docx
- 民事保全程序要论-民事诉讼法学专业毕业论文.docx
- 绿色建筑评价体系方法-供热、供燃气、通风及空调工程专业毕业论文.docx
- 洛阳石化常减压装置减压深拔技术分析与应用-化学工程专业毕业论文.docx
- 麦长管蚜和禾谷缢管蚜的抗药性研究生物化学与分子生物学专业毕业论文.docx
- 满足用户安全要求的多代理调度系统的利润最大化策略-计算机技术专业毕业论文.docx
- 面向发布订阅机制的动态拓扑策略的研究-计算机应用技术专业毕业论文.docx
- 面向语义关系发现的本体映射技术研究与实现-软件工程专业毕业论文.docx
最近下载
- 电视纪录片创作教程王列纪录片解说词写作.pptx VIP
- 知识产权法专利侵权判定.docx VIP
- 西门子MSDR FLC系统手册.pdf VIP
- 《中级汽车维修工考评教程》配套教学课件.ppt VIP
- 中医健康理念(福建中医药)中国大学MOOC慕课 章节测验期末考试答案.docx VIP
- 嗜酸性肉芽肿性多血管炎诊治多学科专家共识(2025年版).pptx VIP
- 超敏肌钙蛋白I检测与临床意义重点.ppt VIP
- 【高清可复制】皖2015S209混凝土砌块式排水检查井.pdf VIP
- 2018-2019学年度第一学期东城区四年级语文期末试卷.pdf VIP
- 2025-2026学年广州教科版英语华附小升初内部密考卷(含答案) .pdf VIP
原创力文档


文档评论(0)