- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题爬虫网络零售竞争情报系统研究
基于主题爬虫网络零售竞争情报系统研究
【摘要】针对当前网络零售业在线商品品种繁多、同质化严重、竞争情报收集困难的现状,利用当前流行的主题爬虫技术,建立网络零售竞争情报系统。系统能自动搜集指定竞争对手和指定领域内在线商品的实时信息,并能智能扩展或缩小收集范围。系统为商家提供及时准确的竞争情报,并起到很好的辅助决策作用。
【关键词】竞争情报;网络零售;主题爬虫;在线商品;辅助决策
根据中国互联网络信息中心的研究数据,2010年网络零售市场上用户比例(存在重复选项)第一的是服装鞋帽,为70.1%;第二的是电脑数码产品,为31.6%;第三的是图书音像制品,为31.4%。当前,网络零售商家收集竞争情报的途径主要为手工使用各种搜索引擎(如百度),或购买网络零售平台提供的分析工具(如淘宝的“数据魔方”)。手工使用搜索引擎效率较低,分析工具对大部分零??商家来说价格较贵,且只能获取单个平台的销售数据。主题爬虫是一个能自动从网页中提取指定相关内容的程序,它从一个或若干初始URL开始,不断获取当前页面上的新URL,循环深入进行相关内容抽取,直到达到停止条件。当前有很多免费的爬虫程序,例如Java开源的Heritrix。针对网络零售业,完全可以通过借助这些比较成熟的爬虫程序,为商家量身定制竞争情报系统。
一、系统的基本构成
系统分为两大部分,第一部分为接受商家指定主题和范围,然后在基本资料库中抽取关键词(含URL)推荐。基本资料库由系统在空闲时利用主题爬虫检索并智能生成,尽量涵盖常用网络零售领域和商品种类,可以增加检索准确度和提高效率。第二部分为商家确定关键词后,由系统利用主题爬虫深入全面地检索竞争情报,并将结果汇总为按时间排序的词条呈现。结果的呈现可以分为商家随时查看,以及定时自动汇总两种模式。商家还可以随时在基本资料库中进行关键词调整或者手工加入新的关键词,以改进情报搜集效果。系统整体结构如图1所示。
图1 系统的功能结构图
二、系统的主要功能实现
1.主题爬虫的整合。以现有的Heritrix作为抽取指定URL内容的工具,抽取出来的内容则需进行主题分析、过滤,相关度足够高的内容中包含的URL才能放入队列,等待下一步抽取。(1)主题的表示。主题可以概括为关键词(不含URL)的向量组合。设主题共有n个关键词,则主题的关键词集合表示为T={t1,t2,...,tn},ti为主题的第i个关键词。设ti的权重为wi(ti的重要性),则主题向量α表示为:ω=(w1,w2,...,wn), wi=1。(2)相关性的概念。URL中内容与主题的相关性,可以利用主题的向量表示来衡量。设关键词ti在内容中出现的次数为ci,则整个URL与主题的相关性γ可表示为:γ=wici,ci=0,1,2...。可以根据已知的确定相关的若干URL计算出γ的平均值作为阈值M,γ值超过M的URL认为相关,小于的则过滤掉。主题相关性γ可用来确定主题爬虫每层抽取URL的广度。主题爬虫每次利用Heritrix抽取URL内容的深度固定为1,通过循环调用Heritrix来逐层深入。当某层次所有URL中与主题相关的比例低于某个值(比如50%)时,结束抽取。主题爬虫的抽取深度也可以由每层URL的主题相关性γ来综合决定。
2.基本资料库的创建。基本资料库是为了提高情报搜集效率,也是为了提升系统智能化水平而特意创建的一个关键词库,也包含URL在内。因为一个情报主题所含关键词很难完整而准确地被描述,系统会先利用主题爬虫收集商家提交的主题关键词在常用搜索引擎(如谷歌、百度)和零售平台(如淘宝)中的检索结果,统计其中的关键词和URL,将其中相关性高的放入基本资料库中,充实主题内涵。
以“手机”情报主题为例:将其百度检索结果URL“http://www.省略/swd=手机”作为Heritrix起始URL,抽取内容。统计内容中的关键词,其中“行情”、“价格”以及各大手机资源网站URL均相关性(伴随“手机”出现的次数)较大,可以将这些放入基本资料库,作为“手机”主题的关键词候选项。同样,可以将谷歌、淘宝检索结果中的一些关键词,比如销量最大的手机店铺URL,放入基本资料库,作为“手机”主题的关键词候选项。商家可以自由更改基本资料库,删除不想要的关键词和URL,添加特殊关键词和指定URL(比如竞争对手网站)等。基本资料库的创建可以极大的提升系统的易用性,商家无需高深的行业知识和经验,也能选好主题关键词,为下一步的情报收集打下良好的基础。
3.竞争情报的收集。在基本资料库的帮助下,主题关键词可以相对较完善地给出,其中的URL作为主题爬虫的起始URL,其他词汇作为分析URL主题相关性的依据。(1)将主题关键词中所有初始URL放入待抽取队列S。(2)
您可能关注的文档
- 基于“钻石模型”中国汽车产业竞争力分析.doc
- 基于“钻石模型”中国铝轮毂产业竞争力分析.doc
- 基于“钻石模型”山西煤炭产业竞争力分析.doc
- 基于“钻石模型”广东物流产业竞争力研究.doc
- 基于“钻石模型”湘西柑产业竞争优势分析.doc
- 基于“钻石模型”我国精细磷化工产业竞争力分析.doc
- 基于“钻石模型”西安文化创意产业竞争力分析.doc
- 基于“钻石模型”视角现代服务业发展问题研究.doc
- 基于《企业内部控制基本规范》会计信息系统内部控制探析.doc
- 基于《资本论》基础上产业集群理论探析.doc
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
最近下载
- T_HNTI 030—2020_茶树种质资源考察收集技术规范.pdf VIP
- 报关原理与实务(第二版)(第5章)1进出口货物报关单填制.ppt VIP
- 2025年滨州市中考英语试题卷(含答案逐题解析).docx
- 基于能力培养的人工智能课程体系设计.docx
- Q/GDW1827-2013三相智能电能表技术规范.pdf VIP
- 国家中医药管理局发布的406种中医优势病种诊疗方案和临床路径目录.pptx VIP
- 华能国际电力股份有限公司本质安全体系管理手册.doc VIP
- 教育行业AI大模型设计方案【231页WORD】.docx VIP
- 2024医保物价培训.pptx VIP
- 屋顶光伏发电建设项目实施方案.docx
文档评论(0)