基于语义降维的web日志数据聚类方法研究.pdfVIP

下载本文档

1
0
约 4页
2018-08-19 发布于天津
举报
版权申诉

基于语义降维的web日志数据聚类方法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语义降维的web日志数据聚类方法研究

第３０卷第１期江苏科技大学学报（自然科学版）Ｖｏｌ３０Ｎｏ１　２０１６年２月ＪｏｕｒｎａｌｏｆＪｉａｎｇｓｕＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）　Ｆｅｂ．２０１６　　　　　　ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３－４８０７．２０１６．０１．０１４基于语义降维的Ｗｅｂ日志数据聚类方法研究卢　健，刁雅静，李　锋（江苏科技大学学生工作处，江苏镇江２１２００３）摘　要：Ｗｅｂ日志挖掘通过挖掘网站服务器中的日志记录来分析用户行为，从而优化网站结构，提高用户满意度．随着互联网的不断发展，网站服务器日志内容数量急剧增长，数据分析的效率亟待提高．文中在分析传统Ｗｅｂ日志数据研究方法的基础上，从减少数据维度的角度出发，提出了基于构建语义化日志的聚类方法，并通过计算Ｄａｖｉｅｓ－Ｂｏｕｌｄｉｎ值对该聚类方法的有效性进行了验证．关键词：Ｗｅｂ日志挖掘；语义化；聚类；会话；本体中图分类号：ＴＰ３９１　　　　　文献标志码：Ａ　　　　　文章编号：１６７３－４８０７（２０１６）０１－００８４－０４ＤａｔａｃｌｕｓｔｅｒｉｎｇｏｆｗｅｂｌｏｇｓｂａｓｅｄｏｎｔｈｅｓｅｍａｎｔｉｃｄｉｍｅｎｓｉｏｎｒｅｄｕｃｔｉｏｎＬＵＪｉａｎ，ＤＩＡＯＹａｊｉｎｇ，ＬＩＦｅｎｇ（ＤｅｐａｒｔｍｅｎｔＳｔｕｄｅｎｔ’Ａｆｆａｉｒｓ，ＪｉａｎｇｓｕＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＺｈｅｎｊｉａｎｇＪｉａｎｇｓｕ２１２００３，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｅｂｌｏｇｍｉｎｉｎｇｉｓｕｓｅｄｔｏａｎａｌｙｚｅｕｓｅｒ’ｓｂｅｈａｖｉｏｒｔｈｒｏｕｇｈｍｉｎｉｎｇｔｈｅｌｏｇｒｅｃｏｒｄｓｉｎｗｅｂｓｅｒｖｅｒｓ，ａｎｄｃｏｎｓｅｑｕｅｎｔｌｙｗｅｂｓｉｔｅｓｔｒｕｃｔｕｒｅｉｓｏｐｔｉｍｉｚｅｄ，ｃｕｓｔｏｍｅｒｓａｔｉｓｆａｃｔｉｏｎｂｅｉｎｇｅｎｈａｎｃｅｄ．Ｗｉｔｈｔｈｅｃｏｎｔｉｎｕｏｕｓｄｅｖｅｌｏｐ ｍｅｎｔｏｆｔｈｅｉｎｔｅｒｎｅｔ，ｔｈｅｎｕｍｂｅｒｏｆｗｅｂｓｅｒｖｅｒｌｏｇｃｏｎｔｅｎｔｓｉｓｉｎｃｒｅａｓｉｎｇｒａｐｉｄｌｙ，ａｎｄｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｄａｔａａｎａｌ ｙｓｉｓｎｅｅｄｓｔｏｂｅｉｍｐｒｏｖｅｄ．Ｔｈｅｐａｐｅｒａｎａｌｙｚｅｓｔｈｅｔｒａｄｉｔｉｏｎａｌｒｅｓｅａｒｃｈｍｅｔｈｏｄｓｏｆｗｅｂｌｏｇｄａｔａ，ｐｒｏｐｏｓｅｓ，ｆｒｏｍｔｈｅｐｅｒｓｐｅｃｔｉｖｅｏｆｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎ，ａｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｃｏｎｓｔｒｕｃｔｉｎｇｔｈｅｓｅｍａｎｔｉｃｌｏｇ，ａｎｄｔｅｓｔｓｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅｍｅｔｈｏｄｔｈｒｏｕｇｈｃａｌｃｕｌａｔｉｎｇｔｈｅｖａｌｕｅｏｆＤａｖｉｅｓ－Ｂｏｕｌｄｉｎ．Ｋｅｙｗｏｒｄｓ：Ｗｅｂｌｏｇｍｉｎｉｎｇ；ｓｅｍａｎｔｉｃ；ｃｌｕｓｔｅｒｉｎｇ；ｓｅｓｓｉｏｎ；ｏｎｔｏｌｏｇｙ　　Ｗｅｂ日志数据是记录在服务器上，用以反映挖掘中，使用模糊关系对Ｗｅｂ用户进行聚类；文用户和服务器交互的数据，它记录了用户进入网献［６－７］基于不确定理论研究了Ｗｅｂ浏览模式站的所有行为（包括用户浏览网页、在线交易等的模糊粗糙聚类．随着互联网的飞速发展，网站信息）．这些行为能够反映用户的兴趣模式和属内容更加丰富，站点结构也越来越复杂，每天产性特征．对Ｗｅｂ日志数据的研究一直是国内外学生的日志文件呈几何级数成倍增长，利用现有的者研究的热点，由于日志数据的特殊性，对其研技术和算法对这些日志文件进行分析需要耗费究主要集中在两个方面：日志数据的预处理和用更多的时间和成本．因此，文中从减少日志数据户会话的聚类．文献［１］在１９９６年首次对Ｗｅｂ日量和复杂度的角度出发，首先构建语义化日志，志数据做了相关研究；文献［２］使用关系聚类的减少ＵＲＬ过长造