- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web挖掘在个性化推荐系统中数据预处理的研究.pdf
维普资讯
2007拉 萍乡高等专科学校学报 2007
第 6期 JournalofPingxiangCollege N0.6
W eb挖 掘 在 个 性 化 推 荐 系 统 中数 据 预 处 理 的研 究
王立平 何 超 黄 斌
(1.萍乡高等专科学校 ,江西 萍乡 337000; 2.南昌理工学院,江西 南昌 330044)
摘 要:个性化推荐系统能够根据用户的兴趣偏好主动推荐他所需的资料。它的出现解决了人们寻找信息难的问题。
数据预处理将凉始的真实数据库转换成适于数据挖掘的挖掘数据库,为提高挖掘算法的效率,改善挖掘结果的效果
打下了良好 的基础 。[
关键词;数据挖掘 1个性化推荐I数据预处理
中图分类号:TP39 文献标识码 :A 文章编号:1OO7—9149(2007)06--OO11一O4
1引 言 发展阶段。随着计算机网络、数据库、人工智能等技术
随着信息科技的进步和互联网的日益普及,如何 的不断发展 ,更新 、更高技术的推荐引擎将不断涌现。
在浩瀚如海的信息空间里,快速查找并获取所需的信 这就是个性化推荐系统的价值所在 。而本文就是对个
息 已成为信息时代最根本的问题之一。网络个性化推 性化推荐系统中的数据预处理模块进行设计和实现。
荐可以帮助人们从数以亿计的网络信息中找到 自己想 2数据预处理模块设计
要的信息,在网络信息资源查找中起到了重要的作用 。 文本预处理操作,一般包括去除文档中的格式标
信息检索技术经历 了三个发展阶段:顺序检索、 记、过滤非法字符、字母大小写转换、去除停用词和稀
顺序与倒排检索相结合、全文检索。全文检索早期的 有词 、词干化处理和中文分词处理等处理步骤。
发展,不能适应 web的发展 ,其原因为:一是源于手 2.1去除文档中的格式标记
工标引已不适应信息增长的需要,二是人们采用 自然 实际应用的文本分类系统 的待处理文档,有很大
语言直接进行检索的原理L2矗]。 一 部分以网页形式存在 。网页文件的存储格式采用的
而 web数据具有分布、异质 、动态、半结构或非 是超文本标记语言 (HyperTextMarkupLanguage:
结构等特征 ,这无疑给 Web上的信息检索提出了挑 HTML),而 HTML文件 中都存在大量表示格式信
战。目前的推荐引擎普遍存在着查全率和查准率不高 息的标记 (TAG)。文本的 自动分类是基于对文档 内
的现象。任何一个简单的查询都至少返回数以万计的 容信息的统计知识 ;文档 中的格式标记,在做分类处
检索结果 ,而其中只有很少一部分与用户真正的检索 理前 ,一般需要滤去。
要求相适应 。另外 ,对 自然语言理解能力差、不支持个 另外 ,有很多实验用的标准文本分类语料库采用
性化查询、对多媒体内容的检索尚不成熟等都是推荐 了标准通用标记语言 (StandardGeneralizedMarkup
引擎有待解决的问题。 Language:SGML);与 HTML类似 ,SGML中的格
针对上述问题,个性化推荐系统纷纷向智能化、 式标记信息一般需要滤去。
个性化方面发展 ,向相似内容合并、基于 自然语言理 当然 ,文档中的格式标记并不是没有用处 ,它可
解的模糊推荐以及基于超链接结构的相关度排序等 以帮助我们提取出文档中特定部分的内容。比如对
都是有益的尝试。个性化推荐引擎的研究正处于蓬勃 HTML文件来说,一般我们只关心其中的正文、标题
收稿 日期 :2OO7—11—12
作者简介;王立平(1979一),男,江西吉安人,硕士,主要从事数据挖掘、电子商务方面的研究.
文档评论(0)