研讨环境中的专家发言文本聚类和其可视化.docVIP

研讨环境中的专家发言文本聚类和其可视化.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
研讨环境中的专家发言文本聚类及其可视化(? 1、引言 [1]是一种计算机支持研讨工具。群体研讨环境的开发涉及研讨模型及共识达成算法、研讨过程控制和研讨结果可视化展示及利用等多个理论和技术问题,其中研讨模型及共识达成算法则是最重要的研究内容,它决定了系统能否自动得出研讨结果。目前对研讨模型的研究大都基于抽象辩论理论,即把专家发言抽象为一个结点,而不考虑发言的内容,如文献[2]根据发言结点之间的攻击和支持关系确定发言结点的可接受性,文献[3-5]则给发言结点或发言之间的响应强度赋予量化值,再根据这些量化值求得发言结点的共识值。事实上,群体共识隐藏在专家发言之中,对发言文本内容进行分析处理是提取群体共识的重要手段。目前对发言文本分析已有一些研究,如白冰等[6]提出了一种基于主题聚类的热点提取方法唐锡晋等[7],以激励成员产生联想,深入思考更多的创意[8]提出了一种及时的挖掘并识别海量研讨主题,利用可视化展示给成员,从而激发成员的创新思维的方法。以上这些研究的分析对象只是专家发言的主题,或发言文本中的关键词,但没有对发言全文进行分析。本文针对在研讨环境中的发言文本利用启发式聚类算法[9]对专家的发言信息进行聚类处理以图形化的方式展示出专家发言专家们利用可以实时调整自己的发言避免促进最终决策达成2、研讨文本分析 2.1研讨文本: 研讨文本是一种无结构的数据,需要将它们转化成计算机能处理的数据关键性操作就是,将连续的一句话分成无依赖关系按一定规则排列的单然后过滤掉它们中的无关词组,获取一个文本特征词的集合按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。 2.2文本特征词权重确定及文本向量生成 文本特征项选择与加权 首先根据研讨内容及相关领域建立特征词库,标每个词的权重,再根据文本内容TF-IDF[10]方法确定特征词的权重。(term frequency,TF),某一个给定的词语在该中出现的频率。这个数是对词数(term count)的归一化,以防止它偏向长的文。对于在某一特定文里的词来说,它的重要性可表示为:是指在中出现的次数,而是中词的总数。逆向频率(inverse document frequency,IDF)是一个词语普遍重要性的度量逆向文频率可以由总文数目除以包含该词语文的数,:是文本集,是文本集中文本的个数,是指包含如果该词语不在中,未在任意一个文本中出现,就会导致分母为零因。那么TF-IDF可以表示为:,其主要作用是过滤掉常见的词语,保留重要的词语。 向量空间模型VSM [11]就是把文本内容化向量,通过计算向量之间的相似性来度量文档间的相似性。常用的文本相似性度量方式是余弦距离文档用十分简单的向量表示,简化文本中关键词之间的复杂关系使得具备了可计算性。 来表示文本集,T=来表示特征项集。特征项是出现在文本集D中的有意义的单词或短语。文本di的特征项集为:,其中是文本di的第k个特征项,且,。一个特征项在一个文向量中的权重,文本di的特征项的加权集表示为:,简化为,将其称为文本di的带权向量表示,则含有m个文本的文本集D可以表示成一个矩阵,其中表示第k个文本的文本向量,。 2.3文本相似度 在文本向量空间中,每个文本对象可映射为一个特征向量,任意两个文本向量之间就会形成一个空间向量夹角,这个空间向量夹角的余弦值就是这两个文本的相似性量度。文本与文本的相似度计算模型表示为: 其中表示文本向量的长度,表示第i个文本的第k维的取值,。为文本和文本的相似度,简记为,其中,其值越大表示文本的相似度越大。为文本和的向量内积,、分别为文本和的范数(长度)。 2.4文本聚类算法 [9]的算法的基础之上提出一种基于中心点的启发式聚类算法。设有两个文本向量和,,它们的相似度表示为,它表示第i个文本和第j个文本的相似度。文本和的中心点向量表示为,单个文本的中心点向量即为其本身。引入一个文本相似度阈值,,采用中心点聚类算法对文本集进行聚类分析就可以形成了若干个文本簇。算法描述如下: 输入 文本集,n表示文本的个数(),文本相似度阈值 输出 聚集结果,以可视化同心圆表示 Begin 将文本集中的每个文本单独作为一个簇,簇集表示为D=,其中, ; 计算D中每个簇的中心点向量,分别记为; //只含有一个文本的簇的中心点向量就是该文本向量本身 Temp = n; //设置一个临时值,表示 D 中簇的个数 WHILE (Temp 1) 计算D中两两簇的中心点向量的相似度值,形成长度为Temp(Temp-1)/2的结果集; 从结果集中取出最大的相似度值Simij,其对应的簇为; IF () 将合并为一个新的簇,计算其中心点,记为; 更新簇集D; Temp--;

文档评论(0)

187****5045 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档