- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录
TOC \o 1-5 \h \z HYPERLINK using namespace std;
void mainO
{
COUt?,Z正在处理,请稍等 〃;
//void quchu();
int i二0, count二0;
char msn[100000] ;//保存字符型数据数组
int msnl [100000];//保存一?行int型数据数组
int msn2[10000];//保存无重复数据数组
fstream out;
of stream in;//定义文本输入输岀流
out. open(z,msnbc990928. seq, ios:: in) ;//打开文本数据
in. openCe. txt, ios::trunc) ; //ios::trunc 表示在打开文件前将文件清 空,由于是写入,文件不存在则创建
while(!out? eof ())
{
out. getline(msn, 100000, \n,) ;//getline(char *, int, char) 表示该 行字符达到100个或遇到换行就结束
const char * split二“;//将数据变为 int 型
char * p;
i=0;
p=strtok(msn, split);
wh 订 e(p!二 NULL)
{ msnl[i]=atoi (p) ; //将截取数字转换为整型,赋值给数组 p=strtok(NULL, split);
}
int ii=i;
int a=0;
for(i=0;iii;i++)
{
if(msnl[i]==msnl[i + l]) //判断是否重复,重复则将前一,值赋值为
0
msnl[i]二0;
if(msnl[i]0)//将符合条件的赋值给数组
{
msn2[a]=msnl[i];
a++;
}
}
int aa=a;//保存一行数字个数
if(aal)//将一行的个数大于1的按要求写入文件
{
for (i=0;iaa;i++)
in?count+l?,,J ?msn2[i]?,,
count++;
}
}
out. close () ;//关闭文件
}
3. 3数据预处理结果
数据处理好之后,形式为三列,分别是用户号,用户点击的网页号,点击网 页的次序号。
取部分处理好的结果如下:
TD, CONTENT, TTME
1,3, 1
1,2,2
1.4.3
1.2.4
1.3.5
2,6, 1
7,2
2, 6,3
4
6,1
9,2
3, 4,3
开头是加上的字段名。表达的含义是一号用户第一到第五次分别点击3, 2,
2, 3号网页。这个数据就可以用Clementine进行处理分析了。
第四章 数据模型构建
4. 1数据流的构建
打开Clementine软件,在源选项卡屮选择“可变文件”节点,单击编 辑,进行如下设置:在文件设置屮,导入处理好的数据,勾选“读取文件中的字 段名”,在定“界符中”选项框中勾选“逗号”,“新行”;在类型设置中,将TD 字段设为无类型,CONTENT设为集,TTME设为范围。
设置过程截图如下:
图1导入数据
E:\yangle\ft 业论?b(t
?读取值[清除值I清除所有值
字段类型缺失检杳方向? IDOCONTENT Otime3无类型
字段
类型
缺失
检杳
方向
? IDOCONTENT Otime
3无类型 员集 /范围
12345,6 …[1.383533]
无无无
@查看当前字段 o查看未使用的字段设置
文件 数据 过滤 类型 注解
确定
取消
应用
重置
图2数据类型设置
再点击选取表节点,连接可变文件,执行,观察数据是否正确导入了。然后 在数学建模选项卡中选择“序列”节点,连接可变文件,点击编辑,进行如下设 $:在字段设置屮,将ID字段设置为ID,勾选“设置吋间字段”,选择TIME,内 容字段中选择CONTENT。在模型设置屮,设置合适的最小规则支持度,最小规则 置信度,最大序列大小,要添加到流的预测。
设置过程截图如下:
? ID
冈
ID字段:
3 ID
▼口
□ ID为连续
3使用时间字段
少 TIME
内容字段:
2 CONTENT
分区:
▼[]
字段複型
专家注解
确定| A执行 取消 应用 重豊
图3序列分析字段设置
图4序列分析模型参数设置
以丄过程设置好后,对“序列”字段点击执行,产牛结果。 数据流的构建过程截图如下:
e.txt
ID
图5数据流构建
第五章模型结果分析
5.1结果的分析处理
首先在“序列”节点的模型设置小设置好合适的最小支持度,最小置信 度。现在将最小支持度设置为3%,,最小置信度设置为60%,取其结果进行相应 的分析。结果如下:
图6测试模型结果
将最小支持度设置为3%,最小置信度设置
文档评论(0)