微博汇第三次.pptVIP

下载本文档

2
0
约2.79千字
约 18页
2018-06-22 发布于福建
举报
版权申诉

微博汇第三次.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

微博汇第三次

第三次汇报汇报人：陈超首先：Jaccard相似度算法和余弦相似度算法包括他们的改进算法的理解其次：算法主要映射：改进的TFIDF特征词提取映射到矩阵当中进行余弦相似度的计算，LDA构造的同类词模板用Jaccard相似度算法中用于同类词的相似度计算最后：对LDA模型建模过程的了解，对微博事件提取和聚类有了一个整体的框架（主要经过哪些过程）具体到对其中的一些过程和实践的算法进行改进上星期的主要学习所看文章主要思想：通过LDA算法构造出同类词模板和TFIDF等特性用Jaccard相似度算法和余弦相似度算法找出两条微博的相似度，最后运用k-means的时序算法把相似度近的微博聚类在一起。本文的主要内容文章的流程图算法的流程图 1.相关工作 1.1Jaccard相似度算法 Jaccard相似度是根据两条微博之间的词的交集越多，则其相似度越大，微博的内容越相似。因此，可以采用两条微博的相同词和同类词的交集来度量两条微博的相似度，即以两个句子中所含相同词或同类词的个数来衡量微博的相似程度 ∩表示集合的交运算；Γ运算符表示求集合中的元素个数w(px)∩w(py)表示的是两条微博中所含相同词的集合；len(p)表示微博的长度，即微博中含有的词语个数　　Jaccard相似度表明，两条微博中所含的相同词或者同类词越多，则两条微博的相似度越大。 1.相关工作 1.2余弦相似度余弦相似度是根据TF-IDF公式，微博集中包含某一词条的微博越多，说明它区分微博类别属性的能力越低，其权值越小；另一方面，某一微博中某一词条出现的频率越高，说明它区分微博内容属性的能力越强，其权值越大其中，tfw,x和tfw,y分别表示词w在微博x和y中的词频；idfw表示词w在微博中的逆文档频率 2.JS综合相似度算法 2.1改进的TF-IDF特征词提取问题：重要的词可能出现次数并不多，单纯以“词频”衡量一个词的重要性，不够全面，引入特征选择评估函数CHI衡量每个特征词对每个类别的重要程度 t为特征项，CHIt为该特征项的CHI值，P1为包含 t但不属于该类的文本数，P2为不包含t但属于该类的文本数 CT(t)是特征词的修正权重，tf(w,x)表示词w在文本x中出现的频数；N表示总的文本数；n表示出现词w的文本数 2.JS综合相似度算法 2.2CHI的介绍卡方统计量可以用来度量词条和文档类别之间的相关程度假设 t和 c之间符合具有一阶自由度的 CHI分布 t对c的CHI值由以下公式计算： N表示语料库中文档的总个数; A表示包含 t且属于 .c类的文档数; B为包含 t但是不属于 c 类的文档数; C表示属于 c类但是不包含 t的文档数; D表示既不属于 c也不包含 t的文档频数 2.JS综合相似度算法 2.3LDA算法 LDA定义了如下生成过程（generative process）： 1. 对每一篇文档，从主题分布中抽取一个主题； 2. 从上述被抽到的主题所对应的单词分布中抽取一个单词； 3. 重复上述过程直至遍历文档中的每一个单词。 LDA最终得到同类词分类表（主题词和有关主题词相关的相关词的模板） 2.JS综合相似度算法 2.3LDA算法更形式化一点说，语料库中的每一篇文档与 T （通过反复试验等方法事先给定，并且需要事先指定）个主题的一个多项分布相对应，将该多项分布记为 θ 。每个主题又与词汇表（vocabulary）中的 V 个单词的一个多项分布相对应，将这个多项分布记为 ϕ 。上述词汇表是由语料库中所有文档中的所有互异单词组成，但实际建模的时候要剔除一些停用词（stopword），还要进行一些词干化（stemming）处理等。θ 和ϕ 分别有一个带有超参数（hyperparameter）α 和β 的Dirichlet先验分布。对于一篇文档d 中的每一个单词，我们从该文档所对应的多项分布θ 中抽取一个主题z ，然后我们再从主题z 所对应的多项分布ϕ 中抽取一个单词w 。将这个过程重复Nd 次，就产生了文档d ，这里的Nd 是文档d 的单词总数 2.JS综合相似度算法 3.1个人微博相似度计算 Jaccard相似度算法改进为： Г1(w(px)∩w(py))指的是微博特征向量中所含有相同或者同类的名词、动词个数Г2(w(px)∩w(py))指的是含有其它词性的个数；λ1、λ2为常数，其λ1+λ2=1，λ1λ20 2.JS综合相似度算法 3.2余弦相似度算法改进对余弦相似度算法改进算法为其中，γ1、γ2为常数，其γ1+γ2=1，γ1γ20，γ1表示微博向量中所含相同或者同类词的名字、动词的权重，γ2