研究レビューミーティングプゼン資料テンプート.pptVIP

下载本文档

0
0
约6.67千字
约 18页
2017-03-01 发布于天津
举报
版权申诉

研究レビューミーティングプゼン資料テンプート.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

林春 2012.08.30 Our work 什么是问题微博? 首先必须满足是原创微博，其次满足以下条件之一： 1. 微博内容明确提出问题或询问建议，对于此类微博，如果其所提出的问题是客观的，可以回答，则认为是可推荐微博。问题的客观性是指其答案比较统一，导致问题的原因比较普遍和客观。如：“上火了，怎么办？”上火是普遍现象，可以为其推荐解决方法；而微博“社会，还真TMD有不要脸的，打坏了人，还不赔钱！我该怎么办，才可以让妈妈不上火”指明导致问题的原因是社会不公现象导致，因主观性较强，所以不为其做推荐。 2. 微博内容是陈述形式，陈述的内容不是记录型（记录完成某件事情）、评价型的（对某种现象的看法），分析内容的侧重点，如果其陈述的重点是将要或最近发生的事，且陈述的事实具有客观性和普遍性（客观性描述与1相同），并且该事实困扰着用户，还没有有效的解决方法或好的建议。例子心若闲，事多人忙心不忙；心不闲，事少心忙人不忙。（非问题微博）天气干燥，嘴唇上火起泡，怎么办？（问题微博）数据集数据集是从新浪微博中抓取，其中正例微博是通过关键字搜索，再进行人工标注得到，负例微博是从微博中随机抓取得到。训练集有6426条微博，正例662条，负例5764条，其中正例涉及的主题有：“胃好疼难受”、“头昏喉咙痛”、“脖子疼”、“牙疼”、“熬夜伤不起”等。测试集有3753条微博，正例302条，负例3453条，其中正例涉及主题有：“上火怎么办”、“油滴到衣服上”、“眼袋好重”、“纽曼怎么样”、“自动关机自动重启”、“佳能多少钱”、“父亲节送什么”、“快速消肿”等。系统实现原理本系统分为两大模块：问题微博识别模块和答案推荐模块。问题微博识别模块采用SVM分类器，提取微博4种不同的特征：情感特征（emotion）、事件特征（event）、词语情感特征（percent）以及外部特征（external），分类器在不同的特征实例集上训练模型，预测时，加载各种模型，采用投票方式得到最终类别。答案推荐模块：分别从web和weibo中获取相关内容推荐给用户。web推荐是将去除表情信息的微博作为查询，在百度知道中搜索，然后对其结果重新计算相似度，将最相关问题的答案返回给用户。weibo推荐是提取微博的关键字将其作为查询主题，在新浪微博中搜索，并对检索结果重排序，将前5条微博作为推荐内容。微博识别特征提取内部特征表情特征、事件特征、关键词情感特征外部特征知道特征、百科特征、微博特征分类使用SVM分类器进行分类集成预测对内部特征的预测结果进行相对投票结合相对投票结果与外部特征结果做绝对投票内部特征表情特征提取（emotion特征）输入：微博和悲观表情文档处理：判断微博是否含有悲观表情输出：含有，则返回1；否则，返回0 事件特征提取（event特征）输入：微博处理：分词和词性标注，判断是否含有词性为t (时间)，nr (人名)，ns (地名)，nt (机构)的词输出：四个二值数字（由0或1组成），如果包含以上词性，则返回1，否则，返回0. 关键词情感特征提取（percent特征）输入：训练集和微博处理：1）将训练集根据表情符号分为3个部分：包含正面表情微博，包含负面表情微博和不包含表情微博。然后对其分词并统计各集合单词词频。 2）对于输入的微博，将其分词和词性标注，提取词性为v，n，a，vn的词作为关键词，取其在（1）中提到的3个集合中出现的词频，并归一化，则单词w会返回三个值neg_ratio、pos_ratio、neu_ratio，整体微博的关键词情感特征即为其比值之和。输出：返回neg_ratio/pos_ratio 和 neg_ratio/neu_ratio 外部特征：知道特征输入：整体微博信息（去除表情符号）处理：（1）将整体微博输入百度知道搜索，提取搜索结果第一个页面的所有问题，然后对其进行分词和词性标注，去除词性为w（标点符号）、r（代词）、u（助词）和没有被标注的词，统计剩余单词的词频，均值化（除以问题个数），并排序，得到问题单词列表（QuestionWordList）。（2）对微博分词和词性标注，去除词性为w、r、u和没有被标注的词，得到微博单词列表（PostWordList），其中每个单词词频为1；计算其长度L，从QuestionWordList中获取top L个单词，然后计算PostWordList与其之间的余弦距离。输出：余弦距离：浮点型外部特征：百科特征首先根据百科开放分类爬取其下的词条，最终保存词条及其上层类别（第一层类别或第二层类别）。如：词条：鱼香肉丝→烹饪→饮食→生活（目前只划分到“饮食”那一层的类别），则烹饪是第二层

您可能关注的文档

文档评论（0）

zhaoxiaoj + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

研究レビューミーティングプゼン資料テンプート.pptVIP