- 4
- 0
- 约5.63万字
- 约 60页
- 2019-05-18 发布于上海
- 举报
Classified Index: TP391.2 U.D.C: 681.37
Dissertation for the Master Degree in Engineering
CONSUMPTION INTENT RECOGNITION
IN MICRO-BLOG
Candidate:
Jiao Yang
Supervisor:
Prof. Liu Ting
Academic Degree Applied for:
Master of Engineering
Speciality:
Computer Technology
Affiliation:
School of Computer Science and Technology
Date of Defence:
June, 2013
Degree-Conferring-Institution:
Harbin Institute of Technology
摘
摘 要
摘
摘 要
I
I
II
II
摘 要
互联网的快速发展和互联网软硬件的革新给人们的生活带来了巨大的变 化,如今 PC,手机,PDA 等电子设备已经进入千家万户,成为人们生活中的必 需品。在现阶段互联网的发展中,社交化已成为主要的发展方向和趋势,各个 社交网站例如推特和新浪微博迅速出现且占领大量的用户。大众通过社交网络 分享自己生活点滴和发表自己的观点,在用户分享的内容中包含着大量个人对 某种产品的消费意图倾向信息。因此,微博作为一种社会媒体与社交网络应用, 包含着巨大的商业价值。
本文面向微博中的消费意图进行了一系列的研究。在研究方面尝试采用模 板匹配和分类方法识别用户消费意图,在工程方面提出了消费意图识别的解决 方案。本文主要通过以下方法进行微博消费意图的识别:新浪微博数据获取和 基于分类的僵尸用户过滤,基于自动抽取模板技术的消费意图识别,基于分类 的消费意图识别。下面简要介绍各个研究点的主要研究内容。
(1)我们对新浪微博的数据获取采用了两种方式,调用新浪微博 API 的方 式和模拟登陆爬取网页的方式。由于新浪微博对爬数据的限制,如每小时每 IP 只能调用 API 一万次,爬取网页一段时间后出现验证码等限制,本文最终搭建 Hadoop 云计算平台,以多个 IP 同时爬取的方式获得数据。数据获取后非常重 要的工作就是去除垃圾数据,在新浪微博中有很多僵尸用户,这些账号是由机 器操控的,僵尸用户发表的消费意图微博完全没有商业价值,把广告推送给由 机器维护的账号是没有用的,所以本文首先进行僵尸用户过滤工作。通过 HITS 算法得到的用户权威度值,和本文首次提出的 VF 值和其他常用的特征,人工标 注数据训练分类器对新浪微博用户进行分类。
(2)基于自动构建模板的消费意图识别。本文利用自然语言处理技术和信 息抽取技术中的句子级中文事件抽取自动构建模板。其中用到了自然语言处理 技术中的分词,词性标注,命名实体识别和依存句法分析。同时本文定义三元 组模板其中包含触发词,商品和依存句法。对训练集中抽取的模板候选又通过 信息增益排序,通过商品类目库对模板进行泛化,通过迭代抽取模板的方式进 一步提高模板的准确率和召回率,从而进行微博消费意图的识别。但同时也可 以知道,基于模板的方法可以用于抽取消费对象,这也是本文今后要做的工作。
(3)基于 SVM 分类器的微博消费意图分类,本文最后也利用了文本分类的 方法进行用户消费意图识别,同时比较了 SVM 分类方法和逻辑回归分类方法。 在分类方法中所做的一个主要工作是对微博文本的预处理,由于新浪微博中的
语言自由度和不规则度很高,这都给传统的文本分类方法提出了新的挑战,所 以本文针对微博文本的语言特征和特有特性进行文本的预处理,然后进行分类, 得到消费意图识别的结果。同时本文又对分类的特征选取和训练集和测试集选 取不同的个数并分别进行了测试对比。从而得到了合理的特征维数和分类模型。
关键词:微博消费意图;消费意图挖掘;消费意图分类;模板抽取;僵尸识别
Ab
Abstract
Abstract
With the rapid development of Internet software and hardware, there have brought great changes to peoples life. The Internet has already access thousands of households. Everyone will have a personal computer or PDA and everyone will carry a mobile phone to have access to the Internet by the
您可能关注的文档
- 面向广告搜索的高效索引结构-计算机应用技术专业毕业论文.docx
- 慢性乙型肝炎和原发性肝癌患者中腺病毒中和抗体的流行病学研究-内科学专业毕业论文.docx
- 面向逆向工程的工业CT图像矢量化系统改进-机械工程专业毕业论文.docx
- 酶法生产壳寡糖及其质量控制研究-食品科学专业毕业论文.docx
- 面向串扰抑制的VDSL2频谱管理算法研究-计算机应用技术专业毕业论文.docx
- 麻醉前访视内容的护理质性和量性研究-护理学专业毕业论文.docx
- 榉树种子萌发特性及幼苗生长规律研究-园林植物与观赏园艺专业毕业论文.docx
- 空间数据挖掘在基于GIS的智能交通系统中的应用-计算机技术专业毕业论文.docx
- 慢病毒介导STMN1基因沉默对白血病K562细胞及其耐药株生物学特性影响及机制分析-内科学(血液病)专业毕业论文.docx
- 美术类在线考试系统的设计与实现软件工程专业毕业论文.docx
- 《GB/T 46962-2026印刷技术 安全印刷过程管理》.pdf
- 中国国家标准 GB/T 46962-2026印刷技术 安全印刷过程管理.pdf
- GB/T 46962-2026印刷技术 安全印刷过程管理.pdf
- 中国国家标准 GB/T 32580.5-2026轨道交通 地面装置 高压交流开关设备及互感器 第5部分:27.5 kV和2×27.5 kV金属封闭开关设备和控制设备.pdf
- 《GB/T 32580.5-2026轨道交通 地面装置 高压交流开关设备及互感器 第5部分:27.5 kV和2×27.5 kV金属封闭开关设备和控制设备》.pdf
- GB/T 33248-2026印刷技术 胶印橡皮布.pdf
- GB/T 18282.6-2026医疗产品灭菌 化学指示物 第6部分:用于小型蒸汽灭菌器性能测试的二类指示物和过程挑战装置.pdf
- 中国国家标准 GB/T 18282.6-2026医疗产品灭菌 化学指示物 第6部分:用于小型蒸汽灭菌器性能测试的二类指示物和过程挑战装置.pdf
- 中国国家标准 GB/T 31308.1-2026行政、商业和行业中的数据元、过程和文档 长效签名 第1部分:CMS高级电子签名(CAdES)规范.pdf
- GB/T 31308.1-2026行政、商业和行业中的数据元、过程和文档 长效签名 第1部分:CMS高级电子签名(CAdES)规范.pdf
原创力文档

文档评论(0)