面向智能信息检索技术的Web挖掘关键技术的的研究.pdf

面向智能信息检索技术的Web挖掘关键技术的的研究.pdf

摘 要 随着Internet 发展和网络信息量的急剧增长,人们感觉查找到自己所需要的信息 已变得越来越困难,究其原因就是传统的信息检索方式越来越不能适应网上海量增长 的信息,促使人们寻求智能化的信息检索方法,以满足日益增长的信息检索需求。 本文对面向智能信息检索技术的 Web 挖掘的若干关键问题进行了研究,重点是 Web 日志挖掘数据预处理,改进了为Web 用户聚类和Web 页面聚类提供技术支持的聚 类算法。 本文提出了新的会话识别算法,该算法先通过统计方法得到页面访问时间,在根 据页面内容及站点结构确定的压面重要程度对该阈值进行调整。 本课题在对各类常见的聚类方法进行讨论的基础上,改进了K-means 聚类方法和 DBSCAN 聚类方法,针对K-means 聚类方法提出了一种基于数据样本的实际分布情 况确定初始化中心点的方法,另外K-means 算法中K 值是很难估计的,改进算法是 根据准则函数的最小值来自动的生成聚类数目,提高了K-means 算法的聚类准确率; 对于 DBSCAN 算法实现了密度聚类的领域半径 Eps 和领域半径内数据对象的个数 Minpts 两个参数根据数据对象的分布特性自动确定,能够有效的提高DBSCAN 算法 的聚类效果和准确率。 关键词:智能信息检索;Web 挖掘;数据预处理;聚类算法 Study on Key Techniques of Web Mining for Intelligent Information Retrieval Abstract With the rapid development of information on Internet, people find it becomes increasingly difficult to achieve the information that they need, the reason is that more and more traditional information retrieval methods can not meet the massive growth of information online, people even more look forward to the emergence of intelligent information retrieval to satisfy the growing information retrieval request . This dissertation researches some key techniques on Web mining for intelligent information retrieval.It mainly focuses on data preprocessing ,clustering of Web Pages or Web users.We improve some Web mining algorithms for intelligent information retrieval. An access intervals-based improvement was carried out of Session identification in , web usage mining.The statistical result shows the page access time accord with normal

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档