手机产品信息垂直搜索引擎分析.pdf

II 万方数据 万方数据 万方数据 摘 要 随着互联网技术的飞跃,电子商务的蓬勃发展,论坛,博客等的 兴起,越来越多的人们喜欢针对商品的各种属性发表自己的评论,表 达自己对某款商品的态度、看法以及使用感受。因此网络上涌现了海 量产品评论信息。通过阅读这些评论,可以帮助潜在的商品购买者了 解产品的特点,作出是否购买的决策,另外商家也可以通过挖掘这些 评论信息及时有效的了解到商品的供求关系,受欢迎程度,给自己的 销售决策提供很大的帮助。但是仅仅依靠人工的浏览、收集这些信息 是费时费力的,而且获得的信息不够全面、及时、有效,因此人们在 搜索信息时越来越依靠搜索引擎。但是针对具体领域,通用搜索引擎 的缺点显而易见,因此构建一款针对具体产品领域的垂直搜索引擎是 十分必要的。 在对国内外垂直搜索引擎及情感分类研究现状的分析基础上,本 文以构建手机产品信息垂直搜索引擎为线索,所做的主要工作如下: (1)设计了针对手机产品领域的主题爬虫框架,在爬虫搜索策 略上,深入研究了传统的基于内容的搜索策略和基于链接的搜索策略 后,改进了一种基于内容和基于链接相结合的搜索策略,使爬虫爬取 到的网页主题相关程度大大增加,方便了构建垂直搜索引擎的后续步 骤。同时通过实验对比了HITS 算法,宽度优先算法,PageRank 算法, 显示了本文算法的优势。 (2)在获取手机产品属性和情感词之后,提出了一种属性词和 情感词的搭配识别方法,通过 SVM 训练分类器,有效的获取评论中 针对产品的某个属性的情感倾向得分,然后综合某一手机型号的所有 评论信息给出总体满意度。通过实验对比,验证了搭配方法的有效性。 (3)设计实现了一个针对手机产品信息的垂直搜索引擎,给出 了设计的框架,并对各个模块的实现进行描述,给出了系统界面。 关键词 主题相关度,网络爬虫,搜索策略,垂直搜索,文本分类 I 万方数据 ABSTRACT

文档评论(0)

1亿VIP精品文档

相关文档