基于演员信息调查结果数据挖掘.doc

下载文档 降价啦

2
0
约6.47千字
约 17页
2017-08-31 发布于安徽
举报
版权申诉
保障服务

基于演员信息调查结果数据挖掘.doc

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

商务智能与数据挖掘数据挖掘技术在电影行业中的应用 —基于演员信息调查结果的研究目录 1商业理解 1 1.1研究背景与目的 1 1.2研究对象 1 1.3研究方法 1 2 数据理解 1 2.1数据的收集 1 2.2.数据预处理 2 3数据准备 2 3.1数据输入 2 3.2数据编码 3 4.建立模型 5 4.1决策树模型 5 4.2关联规则模型 9 4.3 BRP神经网络模型 12 4.3.1 训练 12 4.3.2 测试 14 5. 总结 15 1商业理解 1.1研究背景与目的在当今的电影行业中，导演在选取演员时很多都是凭感觉和推荐，很好去挖掘演员信息来确定，在薪酬方面也不合理，有些导演为了提高电影票房，一味的去选取知名度较高的明星及所谓的大腕，付予高报酬，大大地增加了其制作成本。本文通过对演员调查信息的分析，找出与收入有关的因素，并分析其规则。为导演在选取演员和决定所付薪水时提供依据，有效地减少制作成本。 1.2研究对象本文主要以Movie Survey中所调查的演员为研究对象来对演员的Income进行分析，找出其有关因素。 1.3研究方法主要采用的是决策树技术、关联规则、神经网络3种数据挖掘方法，对大量的演员信息调查数据进行分析与挖掘，最后形成相关数据模型。 2 数据理解 2.1数据的收集本文主要是以MovieSurvey.mdb中所调查的演员为研究对象，由于所调查的演员数量较多有3500多条，并且某些演员信息不全，经筛选后这里只取了信息完整的，所在国家为United States的Female演员，一共有310条记录。将前200条记录作为训练集，后面110条数据作为测试集。 2.2.数据预处理由于准备用于挖掘的演员信息表中的属性个数较多，有22个。为了便于决策树模型的建立，选择其中与Income属性相关性较大的Age ,Education Level, Marital Status, Home Ownership, Num Children, Num Cars, Theater Freq 七个属性作为建立Income分类决策树模型的依据，生成新的演员信息基本数据表。 3数据准备 3.1数据输入在数据窗口，选择菜单“文件→新建→数据窗口”，建立一个新的数据文件。Age属性：20~30用“1”表示，30~40用“2”表示，40~50用“3”表示，50~60用“4”表示变量Education level属性：master’s degree 用“1”表示，Post-Doc用“2”表示，Bachelor’s degree用“3”表示，some college 用“4”表示，Doctorate 用“5”表示，Associate’s degree用“6”表示，Grade School 用“7”表示，high school 用“8”表示。变量Home Ownership属性：Own用“1”表示，Rent 用“2”表示变量Marital Status属性：Married用“1”表示，Never Ma用“2”表示，Separate用“3”表示，Other 用“4”表示变量Num Children属性：用0、1、2、3表示实际个数变量Num Cars属性：用0、1、2、3、4表示实际个数变量Theater Freq属性：Rarely用“1”表示，weekly用“2”表示，Monthly用“3”表示，Never 用“4”表示编码后结果如下图3-4 编码后数据表（图中为一部分） 4.建立模型 4.1决策树模型用决策树方法进行挖掘的步骤和结果如下所示： 1.选择数据挖掘—决策树图4-1 选择数据源 2.选择决策树方法图4-2 3.数据源、决策树相关设置其相关设置如图4-4和图4-5所示。图4-3数据源设置图4-4 变量设置图4-5 决策树设置 4.得出统计信息 (1)决策树描述: 所处理记录个数:200;丢弃的记录个数:2；决策树正确率:100.0％，(分裂时一个分支的最小样本数大于2 ，连续值分叉结点的最大分叉数3；生成树方法为信息熵；树剪枝的方法：深度剪枝，最大深度为5) (2)决策树结果见图4-6 图4-6 决策树 (3) 决策树变量分类重要性决策树变量分类重要性变量名称重要性 Education Level 87.22 Home Ownership 55.91 Marital Status 100.00 Theater Freq 58.12 Customer ID 62.26 Age 58.02 Num Children 29.32 Num Cars 58.78 表4-7决策树变量分类