基于演员信息调查结果数据挖掘.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
商务智能与数据挖掘 数据挖掘技术在电影行业中的应用 —基于演员信息调查结果的研究 目录 1商业理解 1 1.1研究背景与目的 1 1.2研究对象 1 1.3研究方法 1 2 数据理解 1 2.1数据的收集 1 2.2.数据预处理 2 3数据准备 2 3.1数据输入 2 3.2数据编码 3 4.建立模型 5 4.1决策树模型 5 4.2关联规则模型 9 4.3 BRP神经网络模型 12 4.3.1 训练 12 4.3.2 测试 14 5. 总结 15 1商业理解 1.1研究背景与目的 在当今的电影行业中,导演在选取演员时很多都是凭感觉和推荐,很好去挖掘演员信息来确定,在薪酬方面也不合理,有些导演为了提高电影票房,一味的去选取知名度较高的明星及所谓的大腕,付予高报酬,大大地增加了其制作成本。本文通过对演员调查信息的分析,找出与收入有关的因素,并分析其规则。为导演在选取演员和决定所付薪水时提供依据,有效地减少制作成本。 1.2研究对象 本文主要以Movie Survey中所调查的演员为研究对象来对演员的Income进行分析,找出其有关因素。 1.3研究方法 主要采用的是决策树技术、关联规则、神经网络3种数据挖掘方法,对大量的演员信息调查数据进行分析与挖掘,最后形成相关数据模型。 2 数据理解 2.1数据的收集 本文主要是以MovieSurvey.mdb中所调查的演员为研究对象,由于所调查的演员数量较多有3500多条,并且某些演员信息不全,经筛选后这里只取了信息完整的,所在国家为United States的Female演员,一共有310条记录。将前200条记录作为训练集,后面110条数据作为测试集。 2.2.数据预处理 由于准备用于挖掘的演员信息表中的属性个数较多,有22个。为了便于决策树模型的建立,选择其中与Income属性相关性较大的Age ,Education Level, Marital Status, Home Ownership, Num Children, Num Cars, Theater Freq 七个属性作为建立Income分类决策树模型的依据,生成新的演员信息基本数据表。 3数据准备 3.1数据输入在数据窗口,选择菜单“文件→新建→数据窗口”,建立一个新的数据文件。Age属性:20~30用“1”表示,30~40用“2”表示,40~50用“3”表示,50~60用“4”表示 变量Education level属性:master’s degree 用“1”表示,Post-Doc用“2”表示,Bachelor’s degree用“3”表示,some college 用“4”表示,Doctorate 用“5”表示,Associate’s degree用“6”表示,Grade School 用“7”表示,high school 用“8”表示。 变量Home Ownership属性:Own用“1”表示,Rent 用“2”表示 变量Marital Status属性:Married用“1”表示,Never Ma用“2”表示,Separate用“3”表示,Other 用“4”表示 变量Num Children属性:用0、1、2、3表示实际个数 变量Num Cars属性:用0、1、2、3、4表示实际个数 变量Theater Freq属性:Rarely用“1”表示,weekly用“2”表示,Monthly用“3”表示,Never 用“4”表示 编码后结果如下 图3-4 编码后数据表(图中为一部分) 4.建立模型 4.1决策树模型 用决策树方法进行挖掘的步骤和结果如下所示: 1.选择数据挖掘—决策树 图4-1 选择数据源 2.选择决策树方法 图4-2 3.数据源、决策树相关设置 其相关设置如图4-4和图4-5所示。 图4-3数据源设置 图4-4 变量设置 图4-5 决策树设置 4.得出统计信息 (1)决策树描述: 所处理记录个数:200;丢弃的记录个数:2;决策树正确率:100.0%,(分裂时一个分支的最小样本数大于2 ,连续值分叉结点的最大分叉数3;生成树方法为信息熵 ;树剪枝的方法:深度剪枝,最大深度为5) (2)决策树结果见图4-6 图4-6 决策树 (3) 决策树变量分类重要性 决策树变量分类重要性 变量名称 重要性 Education Level 87.22 Home Ownership 55.91 Marital Status 100.00 Theater Freq 58.12 Customer ID 62.26 Age 58.02 Num Children 29.32 Num Cars 58.78 表4-7决策树变量分类

您可能关注的文档

文档评论(0)

nnh91 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档