Web访问模式发现与应用研究软件工程专业论文.docxVIP

下载本文档

1
0
约5.04万字
约 62页
2018-09-06 发布于上海
举报
版权申诉

Web访问模式发现与应用研究软件工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web访问模式发现与应用研究软件工程专业论文

山东科技大学硕士学位论文摘要山东科技大学硕士学位论文摘要 I I PAGE PAGE II 摘要今天，Web 正以惊人的速度发展着，它已成为人们进行信息发布、交互及获取的主要工具，人们上网主要目的也是为了获取信息。根据预测，在未来十几年内，人类的所有信息都能在互联网上得到。网上如此丰富的数据也带来了巨大的挑战：怎样使 Web 变得让人们更容易获取信息。当前，人们从网上获取信息的主要工具还是搜索引擎。今天的搜索引擎存在低精确度、低检索率、不能充分表达用户的需求、没有用户定制功能等诸多问题。网上大部分信息是以 HTML 文档的形式存在的，除了超链外没有明显的结构信息，对文档内容的抽取和分析是相当困难的，因而，完全消除搜索引擎存在的问题是不容易的。本文研究 Web 访问行为的主要目的是获取用户访问 Web 的目标、兴趣和偏爱等行为模式，以此来改进 Web 站点的结构和 Web 提供服务的方式，实现站点的自动化管理和信息个性化服务，从而帮助用户更容易地获取所需信息。本文所做的研究工作主要有： (1) 讨论了 Web 访问行为分析中，数据源预处理时遇到的各种问题及相应的解决办法，给出了用户和事务的识别方法。 (2) 给出了基于后缀树用户浏览频繁路径、页面可达集和可达概率的快速计算方法；基于发现的频繁路径，给出了用户访问事务的聚类算法，该算法解决了向量模型忽略用户浏览 Web 有序、连续、重复的特性及聚类维数过高的缺点；讨论了 Web 页面的模糊聚类。 (3) 建立了把 Weblog 日志数据、Marketing 数据和 Web 元数据集成于数据仓库的逻辑设计模型,不仅可以为站点管理者提供站点的访问信息，还可以为企业管理者提供决策支持信息。 (4) 基于访问行为分析发现的聚类信息和频繁路径，讨论了在个性化服务和站点管理两方面的应用问题。给出了利用页面聚类信息的在线个性化服务方法和利用频繁路径对 Web 站点进行自动组织和彻底重构的方法。关键词: 浏览模式; Web 访问数据; 个性化; 站点管理山东科技大学硕士学位论文摘要 ABSTRACT Today, the World Wide Web is rapidly emerging as an important medium for the dissemination, exchange, and getting of information. According to most predictions, the majority of human information will be available on the Web in ten years. These huge amounts of data raise a grand challenge, namely, how to turn the Web into more useful information utility. At present, the main tools of getting information are still search engines. Todays search engines, however, are plagued by the low precision problem, the low recall problem, A limited query interface that is only based on keyword-oriented search, and have no function of customization to individual users. These problems, in turn, can be attributed to the following characteristics of the Web. First and foremost, the Web is a huge, diverse and dynamic collection of interlinked hypertext documents. Second, except for hyperlinks, the Web is largely unstructured. Finally, most information on the Web is in the form of HTML documents for which analysis and extraction of content is very difficult. Therefore, it is not easy to ov