- 98
- 0
- 约小于1千字
- 约 12页
- 2018-10-25 发布于福建
- 举报
文本挖掘和Web挖掘
文本挖掘与Web挖掘 文本挖掘的基本概念 文本挖掘时从大量数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。它除了从文本中提取关键字外,还要提取事实、作者的意图、期望和主张等。这些知识对许多应用如市场营销、趋势分析等都很有用。 相对于数据挖掘,文本挖掘的对象是半结构化或非结构化的。 文本挖掘的主要任务 短语提取。 概念提取 可视化显示和导航 文本挖掘和数据挖掘的区别 数据挖掘 数字表示的数据 关系数据库 预测以后 决策树、神经网络等 1994年起 文本挖掘 无结构或半结构 开放的文本 提取概念 提取短语,关联分析、聚类、分类 2000年起 文本特征的表示 文本特征的提取 一般特征:人名、组织名 数字特征:日期、时间、货币、数字 文本挖掘 关键字检索 相似检索 词语关联分析 文本聚类和分类 自然语言处理 关联分析 首先对文本进行词根处理,去除非用词等预处理,然后调用关联挖掘算法。在文本数据库中,每一个文本被视为一个事务 ,文本中的关键词组可视为事务中的一组事务项。这样文本数据库中关键词关联挖掘问题就变成事务数据库中事务项的关联挖掘。 文本聚类 层次聚类法 平面划分法 文本分类 用信息检索技术提取关键词和词组 生成关键词和词组的概念层次 关联挖掘用于发现关联词。区分一类文本与另一类文本。 Web挖掘简介 信息庞大 信
您可能关注的文档
- 插接母线安装的方案.doc
- 插头注塑成型培训的资料.doc
- 插画的设计教案.doc
- 插板架施工的方案.doc
- 插槽式脚手架的方案新.doc
- 插入声音视频与动画.ppt
- 提升职业素养塑造阳光心态.ppt
- 插画的设计电子教案.doc
- 插花艺术考试大纲.doc
- 揠苗助长教学的设计+说课稿+课后的反思.doc
- 内蒙古自治区赤峰市松山区2025-2026学年高一上学期1月期末生物试题(含解析).docx
- 内蒙古自治区鄂尔多斯市第一中学2025-2026学年高二下学期开学数学试题(含解析).docx
- 内蒙古自治区赤峰市松山区2025-2026学年七年级上学期期末语文试题(含解析).docx
- 内蒙古自治区鄂尔多斯市第一中学2025-2026学年高三下学期开学数学试题(含解析).docx
- 内蒙古自治区鄂尔多斯市第一中学2025-2026学年高一下学期开学考试数学试题(含解析).docx
- 内蒙古自治区鄂尔多斯市第一中学2025-2026学年高一上学期1月月考物理试题(含解析).docx
- 内蒙古自治区赤峰市松山区2025-2026学年九年级上学期期末语文试题(含解析).docx
- 内蒙古自治区呼伦贝尔市扎兰屯市2025-2026学年八年级上学期期末语文试题(含解析).docx
- 内蒙古自治区呼伦贝尔市扎兰屯市2025-2026学年七年级上学期期末语文试题(含解析).docx
- 宁夏回族自治区石嘴山市第一中学2025-2026学年高一下学期学情自测生物试题(含解析).docx
最近下载
- 2026春小学英语人教精通版(三起)(2024)四年级下册教学计划、每课教案(附目录).docx VIP
- 博林特电梯卓·悦(CHOI)调试手册.pdf VIP
- 立邦刷新服务施工方案.docx
- 应征入伍服兵役高等学校学生国家教育资助申请表Ⅰ(模板).pdf VIP
- 整本书阅读学习任务群公开课教案教学设计课件资料.pptx VIP
- QC活动会议记录表1(1).doc VIP
- 2025年江苏省直及地市、县事业单位招聘考试(法律类)历年参考题库含答案详解.docx VIP
- 三江源国家公园总体规划(2023-2030年).pdf
- 浙江警察学院心理测试题.docx VIP
- FANUC伺服电机选型计算讲述.ppt VIP
原创力文档

文档评论(0)