网页序列分析系统课程设计.doc

下载文档 降价啦

0
0
约1.28万字
约 39页
2021-03-10 发布于广东
举报
版权申诉
保障服务

网页序列分析系统课程设计.doc

1、本文档共39页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

目录 TOC \o 1-5 \h \z HYPERLINK using namespace std; void mainO { COUt?，Z正在处理，请稍等〃； //void quchu(); int i二0, count二0; char msn[100000] ;//保存字符型数据数组 int msnl [100000];//保存一?行int型数据数组 int msn2[10000];//保存无重复数据数组 fstream out; of stream in;//定义文本输入输岀流 out. open(z，msnbc990928. seq, ios:: in) ;//打开文本数据 in. openCe. txt, ios::trunc) ; //ios::trunc 表示在打开文件前将文件清空，由于是写入，文件不存在则创建 while(!out? eof ()) { out. getline(msn, 100000, \n，) ;//getline(char *, int, char) 表示该行字符达到100个或遇到换行就结束 const char * split二“；//将数据变为 int 型 char * p; i=0; p=strtok(msn, split); wh 订 e(p!二 NULL) { msnl[i]=atoi (p) ; //将截取数字转换为整型，赋值给数组 p=strtok(NULL, split); } int ii=i; int a=0; for(i=0;iii;i++) { if(msnl[i]==msnl[i + l]) //判断是否重复，重复则将前一，值赋值为 0 msnl[i]二0; if(msnl[i]0)//将符合条件的赋值给数组 { msn2[a]=msnl[i]; a++; } } int aa=a;//保存一行数字个数 if(aal)//将一行的个数大于1的按要求写入文件 { for (i=0;iaa;i++) in?count+l?，,J ?msn2[i]?，, count++; } } out. close () ;//关闭文件 } 3. 3数据预处理结果数据处理好之后，形式为三列，分别是用户号，用户点击的网页号，点击网页的次序号。取部分处理好的结果如下： TD, CONTENT, TTME 1,3, 1 1,2,2 1.4.3 1.2.4 1.3.5 2,6, 1 7,2 2, 6,3 4 6,1 9,2 3, 4,3 开头是加上的字段名。表达的含义是一号用户第一到第五次分别点击3, 2, 2, 3号网页。这个数据就可以用Clementine进行处理分析了。第四章数据模型构建 4. 1数据流的构建打开Clementine软件，在源选项卡屮选择“可变文件”节点，单击编辑，进行如下设置：在文件设置屮，导入处理好的数据，勾选“读取文件中的字段名”，在定“界符中”选项框中勾选“逗号”，“新行”;在类型设置中,将TD 字段设为无类型，CONTENT设为集，TTME设为范围。设置过程截图如下：图1导入数据 E:\yangle\ft 业论?b(t ?读取值［清除值I清除所有值字段类型缺失检杳方向? IDOCONTENT Otime3无类型字段类型缺失检杳方向 ? IDOCONTENT Otime 3无类型员集 /范围 12345,6 …[1.383533] 无无无 @查看当前字段 o查看未使用的字段设置文件数据过滤类型注解确定取消应用重置图2数据类型设置再点击选取表节点，连接可变文件，执行，观察数据是否正确导入了。然后在数学建模选项卡中选择“序列”节点，连接可变文件，点击编辑，进行如下设 $：在字段设置屮，将ID字段设置为ID,勾选“设置吋间字段”，选择TIME,内容字段中选择CONTENT。在模型设置屮，设置合适的最小规则支持度，最小规则置信度，最大序列大小，要添加到流的预测。设置过程截图如下： ? ID 冈 ID字段： 3 ID ▼口 □ ID为连续 3使用时间字段少 TIME 内容字段： 2 CONTENT 分区: ▼[] 字段複型专家注解确定| A执行取消应用重豊图3序列分析字段设置图4序列分析模型参数设置以丄过程设置好后，对“序列”字段点击执行，产牛结果。数据流的构建过程截图如下： e.txt ID 图5数据流构建第五章模型结果分析 5.1结果的分析处理首先在“序列”节点的模型设置小设置好合适的最小支持度，最小置信度。现在将最小支持度设置为3%,,最小置信度设置为60%,取其结果进行相应的分析。结果如下：图6测试模型结果将最小支持度设置为3%,最小置信度设置