- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
林 春 2012.08.30 Our work 什么是问题微博? 首先必须满足是原创微博,其次满足以下条件之一: 1. 微博内容明确提出问题或询问建议,对于此类微博,如果其所提出的问题是客观的,可以回答,则认为是可推荐微博。 问题的客观性是指其答案比较统一,导致问题的原因比较普遍和客观。如:“上火了,怎么办?”上火是普遍现象,可以为其推荐解决方法;而微博“社会,还真TMD有不要脸的,打坏了人,还不赔钱!我该怎么办,才可以让妈妈不上火”指明导致问题的原因是社会不公现象导致,因主观性较强,所以不为其做推荐。 2. 微博内容是陈述形式,陈述的内容不是记录型(记录完成某件事情)、评价型的(对某种现象的看法),分析内容的侧重点,如果其陈述的重点是将要或最近发生的事,且陈述的事实具有客观性和普遍性(客观性描述与1相同),并且该事实困扰着用户,还没有有效的解决方法或好的建议。 例子 心若闲,事多人忙心不忙;心不闲,事少心忙人不忙。(非问题微博) 天气干燥,嘴唇上火起泡,怎么办? (问题微博) 数据集 数据集是从新浪微博中抓取,其中正例微博是通过关键字搜索,再进行人工标注得到,负例微博是从微博中随机抓取得到。 训练集有6426条微博,正例662条,负例5764条,其中正例涉及的主题有:“胃好疼难受”、“头昏喉咙痛”、“脖子疼”、“牙疼”、“熬夜伤不起”等。 测试集有3753条微博,正例302条,负例3453条,其中正例涉及主题有:“上火怎么办”、“油滴到衣服上”、“眼袋好重”、“纽曼怎么样”、“自动关机自动重启”、“佳能多少钱”、“父亲节送什么”、“快速消肿”等。 系统实现原理 本系统分为两大模块:问题微博识别模块和答案推荐模块。 问题微博识别模块采用SVM分类器,提取微博4种不同的特征:情感特征(emotion)、事件特征(event)、词语情感特征(percent)以及外部特征(external),分类器在不同的特征实例集上训练模型,预测时,加载各种模型,采用投票方式得到最终类别。 答案推荐模块:分别从web和weibo中获取相关内容推荐给用户。web推荐是将去除表情信息的微博作为查询,在百度知道中搜索,然后对其结果重新计算相似度,将最相关问题的答案返回给用户。weibo推荐是提取微博的关键字将其作为查询主题,在新浪微博中搜索,并对检索结果重排序,将前5条微博作为推荐内容。 微博识别 特征提取 内部特征 表情特征、事件特征、关键词情感特征 外部特征 知道特征、百科特征、微博特征 分类 使用SVM分类器进行分类 集成预测 对内部特征的预测结果进行相对投票 结合相对投票结果与外部特征结果 做绝对投票 内部特征 表情特征提取 (emotion特征) 输入:微博和悲观表情文档 处理:判断微博是否含有悲观表情 输出:含有,则返回1;否则,返回0 事件特征提取 (event特征) 输入:微博 处理:分词和词性标注,判断是否含有词性为t (时间),nr (人名),ns (地名),nt (机构)的词 输出:四个二值数字(由0或1组成),如果包含以上词性,则返回1,否则,返回0. 关键词情感特征提取 (percent特征) 输入:训练集和微博 处理:1)将训练集根据表情符号分为3个部分:包含正面表情微博,包含负面表情微博和不包含表情微博。然后对其分词并统计各集合单词词频。 2)对于输入的微博,将其分词和词性标注,提取词性为v,n,a,vn的词作为关键词,取其在(1)中提到的3个集合中出现的词频,并归一化,则单词w会返回三个值neg_ratio、pos_ratio、neu_ratio,整体微博的关键词情感特征即为其比值之和。 输出:返回neg_ratio/pos_ratio 和 neg_ratio/neu_ratio 外部特征:知道特征 输入:整体微博信息(去除表情符号) 处理:(1)将整体微博输入百度知道搜索,提取搜索结果第一个页面的所有问题,然后对其进行分词和词性标注,去除词性为w(标点符号)、r(代词)、u(助词)和没有被标注的词,统计剩余单词的词频,均值化(除以问题个数),并排序,得到问题单词列表(QuestionWordList)。 (2)对微博分词和词性标注,去除词性为w、r、u和没有被标注的词,得到微博单词列表(PostWordList),其中每个单词词频为1;计算其长度L,从QuestionWordList中获取top L个单词,然后计算PostWordList与其之间的余弦距离。 输出:余弦距离:浮点型 外部特征:百科特征 首先根据百科开放分类爬取其下的词条,最终保存词条及其上层类别(第一层类别或第二层类别)。如:词条:鱼香肉丝→烹饪→饮食→生活(目前只划分到“饮食”那一层的类别),则烹饪是第二层
文档评论(0)