网站大量收购独家精品文档,联系QQ:2885784924

基于数据挖掘的校园网兴趣分布研究.ppt

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于数据挖掘的校园网兴趣分布研究

2010-10-28 台州学院:田京波 项目背景:互联网在高校教学、科研和生活的意义越来越重要 项目目标:无需用户主动参与实现用户兴趣抽取 研究内容:日志记录、WEB下载、正文抽取、中文分词、特征 提取、兴趣抽取 系统结构图 系统流程图 用户定位过程 自已开发的中文分词系统,环境Windows xp; VC++ 6; 算法RMM 中文分词 中科院中文分词系统、天津海量中文分词系统、自已开发的逆向最大匹配分词系统 自已开发的中文分词系统,环境Windows xp; VC++ 6; 算法Info+卡方分布 特征选择:本质是降维,常用的算法是信息熵、卡方分布 信息熵考虑词条所带信息量,卡方假设词条与类别相互独立。实际的作法是先用信息熵将相关性大的词条选择,然后计算剩余词条分类权重 预处理后的格式:向量空间模型(VSM) 一个转换成VSM的训练集,第一列是类别代码,后面每列冒号前是关键词条代码,后面是在该文档中权重值 兴趣抽取:WEB挖掘的进一步发展,假设用户访问的每一个页面代表了用户想查询的信息,即用户兴趣体现构成部分之一,WEB(聚/分类)的结果就是其兴趣。 兴趣抽取:本质就是大规模记录高维稀疏矩阵分类问题。 常用挖掘算法:KNN、SVM及其实验中的比较 93.75 86.96 98.361 84.51 89.55 89.55 1 11 60 60 67 环境 92.53 88.56 88.95 86.78 96.41 90.42 6 3 161 151 167 政治 98.18 92.02 97.59 92.59 98.78 91.46 2 6 81 75 82 艺术 97.78 89.76 98.507 96.61 97.06 83.82 1 2 66 57 68 医药 98.68 97.05 97.386 94.87 100 99.33 4 8 149 148 149 体育 83.75 82.93 87.013 83.95 80.723 81.93 10 3 67 68 83 军事 97.67 91.67 98.131 91.67 97.22 91.67 2 9 105 99 108 经济 95.83 91.16 97.183 90.54 94.52 91.78 2 7 69 67 73 教育 97.84 94.20 100 97.02 95.78 91.55 0 2 68 65 71 交通 96.97 91.47 96.97 93.65 96.97 89.39 2 4 64 59 66 计算机 SVM KNN SVM KNN SVM KNN SVM KNN SVM KNN F 查准率(%) 查全率(%) 查错数 查准数 文档 类别 兴趣表示:层次概念树 某用户兴趣 0.276 2853 招聘 0.042 430 军事 0.213 2201 文化 0.025 254 教育 0.149 1542 体育 0.01 107 健康 0.028 293 汽车 0.055 567 财经 0.055 573 旅游 0.148 1535 IT 比率 页面 类别 比率 页面 类别 校级用户兴趣比例(样本来自2009年4月24日00:00到23:59一个公共机房上机学生) 一、大量访问日志记录如何记录?审记系统实现。相对于在网络出口处部署一个审记系统而言,每栋楼部署一个会更好,当然由于经费问题这是不可能实现的。 二、大量WEB下载如何实现?建立缓存服务器。过滤、抽样减少需要下载的WEB总数量。局域网内符合长尾分布,WEB重复访问很明显 三、大量WEB记录如何实现?分布式数据库。使用RAC作任务调度,将数据分别存入不同数据服务器中,实际检索速度并不慢 四、巨大运算量如何解决?分布式系统,采用动态管理节点的分布式运算系统,充分利用公共机房的运算能力。 五、挖掘算法是否有特殊要求?常见的决策树、KNN、SVM等改进为分治式算法。 系统难点与突破点: 创新点 一 研究工具创新性。动态节点的分布式运算系统。 研究方法的探索性。无需用户主动参与 二 研究范围的广泛性。突破以往部门级MIS系统的限制 三 研究技术先进性。大量使用分布式计算系统。 四 一、系统运行需要太多PC,并且增长很快,看不到终点的样子 二、算法可靠性较低 三、系统实时性不够,离实用还有很大的距离 未解决问题及未来研究的方向: [1] 严华云,Web 挖掘在网络教育中的应用研究[J]. 计算机学报. 2005(9):1483-1496 [2] Ghanem, M. Chortaras, A. Guo, Y. Rowe, A. Ratcliffe, J. A grid infrastructure for mixed bioinformatic

文档评论(0)

htfyzc + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档