- 8
- 0
- 约6.43千字
- 约 7页
- 2016-11-28 发布于重庆
- 举报
文本聚類的现状研究
1 文本聚类研究现状
1 文本聚类研究现状
Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示, 70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。近年来,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。
作为一种无监督的机器学习方法,聚类技术可以将大量文本信息组成少数有意义的簇,并提供导航或浏览机制。
文本聚类的主要应用点包括:
(1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统 Newsblaster[1] 。该系统将新闻进行
聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。
(2) 对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。比较典型的系统有 Infonetware Real Term Search 。 Infonetware 具有强大的对搜索结果进行主题分类的功能。另外,由 Carrot Search 开发的基于 Java 的开
您可能关注的文档
最近下载
- CA6140车床进给系统的数控化改造.doc VIP
- 国家开放大学《公司概论》形考作业1-6参考答案(下载可编辑).docx VIP
- 3.2基因工程的基本操作程序(第2-3课时)课件(共42张PPT) 人教版(2019)高中生物学选择性必修3.pptx VIP
- 2025年浙江杭州第二中学自主招生数学试卷真题(含答案详解).pdf VIP
- 缅甸土瓦锡 (1).doc VIP
- (三模)太原市2025年高三模拟考试(三) 地理试卷(含答案解析).docx
- 智慧园区智能化系统规划方案.pdf VIP
- 概率难点大题归纳--2026高考数学含答案.pdf
- 课标40首古诗理解性默写-2025年中考语文一轮复习.doc VIP
- 铝模深化设计要点.docx VIP
原创力文档

文档评论(0)