计算机科学与技术专业预处理和挖掘Web日志数据网站个性化外文文献翻译及原文.docVIP

下载本文档

4
0
约1.5万字
约 10页
2018-12-10 发布于广东
举报
版权申诉

计算机科学与技术专业预处理和挖掘Web日志数据网站个性化外文文献翻译及原文.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

计算机科学与技术专业预处理和挖掘Web日志数据网站个性化外文文献翻译及原文.doc

毕业设计（论文）外文文献翻译文献、资料中文题目：预处理和挖掘Web曰志数据网站个性化文献、资料英文题目：文献、资料来源：文献、资料发表（出版）日期：院（部）：专业：计算机科学与技术班级：姓名：学号：指导教师: 翻译日期: 2017. 02. 14 半血设计（论文）外文资料翻译附件：1.外文资料翻译译文；2.外文原文。指导教师评语：签名：年月曰注：请将该封面与附件装订成册。附件1:外文资料翻译译文预处理和挖掘Web日志数据网站个性化我们描述了 Web使用挖掘活动的一个持续项目要求，我们叫它ClickWorld3, 旨在提取导航行为的一个网站的用户的模型。该模型的推断在访问円志的网络服务器通过数据和Web挖掘技术的功能。提取的知识是部署的个性化和主动提供网络服务给用户。第一，我们描述预处理步骤访问日志必要的步骤，选择并准备数据，知识提取。然后，我们表现出两套实验：第一，一个尝试性预测的用户基础问的网页；第二，试图预测是否用户可能有兴趣参观的一部分网页。关键词：知识发现，Web挖掘，分类。 1、导言 Web挖掘是利用数据挖掘技术在白动化发现和提取信息从网络的文件和服务。一个常见的分类Web挖掘的三个主要的研究项0明确的规定：内容分钟法，结构挖掘和使用挖掘。区分这些类别没有一个明确的界限，而是将经常使用的方法相结合区分出不同的类别。内容涵盖数据挖掘技术提取模型，网络对象的内容，包括纯文字，半结构化文件（例如，或XML语言），结构化文件（数字图书馆），动态的文件，多媒体文件。提取模型被用于分类的网页对象，提取关键字用于信息检索，推断结构的半结构化或非结构化的对象。结构挖掘8在发掘基本的拓扑结构的互连，筹措之间的网络对象。该模型建立可用于分类和排名的网站，并发现了它们之间的相似性。使用挖掘是应用数据挖掘技术发现使用从网络模式的数据。数据通常是收集用户的互动关系在网上，例如网站/代理服务器日志，用户查询，登记数据。使用挖掘工具发现和预测用户行为，以帮助设计师为改善网站，来吸引游客，或给普通用户的个性化和适应性的服务。在本文中，我们描述了 Web使用挖掘活动的一个持续项目要求ClickWorld，旨在提取模型，以用户的行为为目的的个性化网站。我们从屮期全国性大型门户网站vivacity, it收集和预处理访问日志，花费的吋间为5个月。该网站包括了民族地IX如网址为： . vivacity, it的新闻，论坛，笑话等，以及30多个地方，例如， . roma. vivacity, it与城市专用信息，如本地新闻，餐厅地址，戏剧节目，巴士的时间表，ECC等。预处理步骤包括数据选择，清洗和转化和通过验证的用户和用户会话。结果预处理，方法是一个数据集市的网络访问和注册信息。从预处理的数据，Web挖掘的 A的是发现模式调整方法从统计数据，数据挖掘，机器学习和模式识别。其中棊本数据挖掘技术，我们提到的关联规则，发现集团的物体，常常要求用户一起;集群，集团用户提供类似的浏览方式，或集团类似的物体内容或访问的模式;分类，而有利于的用户被分到某一类或类别;和序列模式，即序列请求这是常见的许多用户。在ClickWorld项目，有儿个上述方法，目前被用来提取有用的信息主动提供个性化网页网站。在本文中，我们描述了两套分类实验。第一个，一项R在提取一分类模型能够性别歧视的用户根据设置的网贞访问。第二次试验的目的是提取一分类模型能够歧视这些用户访问的网页奋关例如：提供给典型的实验。 2、预处理的Web个性化我们己经制定了一个数据集市的网页记录特殊的支持网络个人化分析。该数据集市是人口从一个网络日志数据仓库房子，如中所描述的，或更简单地说，从原材料网络/代理服务器口志种来。在这一节屮，我们描述了一些预处理和编码步骤进行数据的选择，理解，清洗和转化。虽然其中一些是一般数据准备步骤，Web使用挖掘，值得注意的是，在许多人的一种领域知识必须一定要包括以清洁，正确和完整的输入数据根据网页的个性化需求。 2.1用户注册数据除了网贞访问日志，我们考虑输入包括个人资料的一个子集的用户，即那些谁注册的vivacity, it网站，备注：注册法不是强制性的。对于注册用户，该系统记录了以下资料：性别，城市，省，婚姻状况，出生日期。此信息是提供由用户在一个网页表单在登记时，作为一个可预计，数据的标准是对用户公平。作为预处理步骤，难以置信的数据检测并删除，如出生数据在未来或在遥远的过去。此外，一些额外的投入没有进口的数据信息，因为几乎所有的值分别为左为默认选择的网贞表单。换言之，领域被认为是不利于区分用户的选择和喜好。为了避免用广位数的登录