网站大量收购闲置独家精品文档,联系QQ:2885784924

网页序列分析系统课程设计.doc

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录 TOC \o 1-5 \h \z HYPERLINK using namespace std; void mainO { COUt?,Z正在处理,请稍等 〃; //void quchu(); int i二0, count二0; char msn[100000] ;//保存字符型数据数组 int msnl [100000];//保存一?行int型数据数组 int msn2[10000];//保存无重复数据数组 fstream out; of stream in;//定义文本输入输岀流 out. open(z,msnbc990928. seq, ios:: in) ;//打开文本数据 in. openCe. txt, ios::trunc) ; //ios::trunc 表示在打开文件前将文件清 空,由于是写入,文件不存在则创建 while(!out? eof ()) { out. getline(msn, 100000, \n,) ;//getline(char *, int, char) 表示该 行字符达到100个或遇到换行就结束 const char * split二“;//将数据变为 int 型 char * p; i=0; p=strtok(msn, split); wh 订 e(p!二 NULL) { msnl[i]=atoi (p) ; //将截取数字转换为整型,赋值给数组 p=strtok(NULL, split); } int ii=i; int a=0; for(i=0;iii;i++) { if(msnl[i]==msnl[i + l]) //判断是否重复,重复则将前一,值赋值为 0 msnl[i]二0; if(msnl[i]0)//将符合条件的赋值给数组 { msn2[a]=msnl[i]; a++; } } int aa=a;//保存一行数字个数 if(aal)//将一行的个数大于1的按要求写入文件 { for (i=0;iaa;i++) in?count+l?,,J ?msn2[i]?,, count++; } } out. close () ;//关闭文件 } 3. 3数据预处理结果 数据处理好之后,形式为三列,分别是用户号,用户点击的网页号,点击网 页的次序号。 取部分处理好的结果如下: TD, CONTENT, TTME 1,3, 1 1,2,2 1.4.3 1.2.4 1.3.5 2,6, 1 7,2 2, 6,3 4 6,1 9,2 3, 4,3 开头是加上的字段名。表达的含义是一号用户第一到第五次分别点击3, 2, 2, 3号网页。这个数据就可以用Clementine进行处理分析了。 第四章 数据模型构建 4. 1数据流的构建 打开Clementine软件,在源选项卡屮选择“可变文件”节点,单击编 辑,进行如下设置:在文件设置屮,导入处理好的数据,勾选“读取文件中的字 段名”,在定“界符中”选项框中勾选“逗号”,“新行”;在类型设置中,将TD 字段设为无类型,CONTENT设为集,TTME设为范围。 设置过程截图如下: 图1导入数据 E:\yangle\ft 业论?b(t ?读取值[清除值I清除所有值 字段类型缺失检杳方向? IDOCONTENT Otime3无类型 字段 类型 缺失 检杳 方向 ? IDOCONTENT Otime 3无类型 员集 /范围 12345,6 …[1.383533] 无无无 @查看当前字段 o查看未使用的字段设置 文件 数据 过滤 类型 注解 确定 取消 应用 重置 图2数据类型设置 再点击选取表节点,连接可变文件,执行,观察数据是否正确导入了。然后 在数学建模选项卡中选择“序列”节点,连接可变文件,点击编辑,进行如下设 $:在字段设置屮,将ID字段设置为ID,勾选“设置吋间字段”,选择TIME,内 容字段中选择CONTENT。在模型设置屮,设置合适的最小规则支持度,最小规则 置信度,最大序列大小,要添加到流的预测。 设置过程截图如下: ? ID 冈 ID字段: 3 ID ▼口 □ ID为连续 3使用时间字段 少 TIME 内容字段: 2 CONTENT 分区: ▼[] 字段複型 专家注解 确定| A执行 取消 应用 重豊 图3序列分析字段设置 图4序列分析模型参数设置 以丄过程设置好后,对“序列”字段点击执行,产牛结果。 数据流的构建过程截图如下: e.txt ID 图5数据流构建 第五章模型结果分析 5.1结果的分析处理 首先在“序列”节点的模型设置小设置好合适的最小支持度,最小置信 度。现在将最小支持度设置为3%,,最小置信度设置为60%,取其结果进行相应 的分析。结果如下: 图6测试模型结果 将最小支持度设置为3%,最小置信度设置

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档