《大数据分析与挖掘》第6章4大数据挖掘-非结构化.pdfVIP

《大数据分析与挖掘》第6章4大数据挖掘-非结构化.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2022年-2023年最新

大数据技术在企业创新背景下高

校物流人才培养中的转化与应用

08非结构化数据挖掘

主讲:朱明

高级I:程帅、高级技帅、国家经济加

高级国家职业技能鉴定评员

高级技能专业教师

朱明一百度个火主页朱明工作室

知足常乐,历经:兵农

□历经:兵团开车,赤脚医生、教师、地方修车,

□企业管理:技术、运营、物流、安全、保卫,

□职任:客运站长、公司经理,集团技术总监,

总经理及法人代表。

□学历:本科、MBA,

□专业:汽车维修与使用、企业管理、经济管理。

职业资格与职称:高级工程师、高级技师、国家经济师、

高级技能专业教师、高级国家职业资格评员。

管理科学研究院特约讲师、

口管理顾问有限公司高级讲师。

□客座任教:大学、技师学院、国家职业资格培训与评及

企业内部职业培训。

2022年2023年最新

l^arti.

非结构化数据概要

2022年2023年最新

结构化、半结构化和非结构化数据

•定义

•结构化数据,即行数据,存储在数据库里,可以用二维表结构来逻辑表

达实现的数据;

非结构化数据,不方便用数据库二维逻辑表来表现的数据

•存储格式的区别

・关系数据库一结构定义不易改变,数据定长。

非结构化数据库一是指其字段长度可变,并且每个字段的记录又可以由

可重复或不可重复的子字段构成的数据库。

2022年2023年最新

・应用场景

・全球多达80%的大数据是非结构化的,如博客、微博等内容,其次人类

的自然语言语气、语调、隐喻、反语等非常复杂,简单的数据分析模型

无法应对。

•结构化数据的典型场景为:企业ERP、财务系统;医疗HIS数据库;教育

一卡通;政府行政审批;其他核心数据库等

•非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。典

型案例如医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、

文件服务器(PDM/FTP)、媒体资源管理等。

•半结构化数据,包括邮件、HTML、报表、资源库等等,典型场景如邮件

系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。

2022年2023年最新

•非结构化数据处理技术包括:

•Web页面信息内容提取;

•结构化处理含(文文本的词汇切分、词性分析、歧义处理等);

•语义处理含(实体提取、词汇相关度、句子相关度、篇章相关度、句法

分析等)

•文本建含(向量空间型、主题型等)

•隐私保护含(社交网络的连接型数据处理、位置轨迹型数据处理等)

.笺笺

2022年2023年最新

E^art

文本数据挖掘

2022年2023年最新

文本挖掘

•文本挖掘以文本型信息源作为分析的对象,利用定量计算和定性分析的方法,

从中寻找信息结构、模型、模式等各种隐含的新颖知识。

文本挖掘的主要目标是获得文本的主要内容特征,如文本涉及的主题、文本

主题

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档