基于HNC概念的共享最近邻文本聚类.pdfVIP

下载本文档

2
0
约4.86千字
约 4页
2015-07-28 发布于安徽
举报
版权申诉

基于HNC概念的共享最近邻文本聚类.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HNC概念的共享最近邻文本聚类吴崇斌语言声学与内容理解重点实验室摘要：本文讨论了以HNC理论设计的关联概念节点为文本向量特征的基于共享最近邻算法的文本聚类方法，通过将词语映射到关联概念节点的方法达到为文本向量空间降维的目的。但实验显示，以关联概念节点为特征的方法尽管可以达到降低文本向量空间维度的目的，但有可能使文档的非零值特征数均值多于以词形为特征的方法，因此无法提高聚类速度。实验同时还显示，单纯以关联概念节点为特征的方法由于受到知识库规模的限制而使得大量信息无法利用，致使聚类结果不如以词形为特征的方法。关键词：HNC；概念；共享最近邻；文本聚类中国科学院声学研究所第四届青年学术会议论文集 1．2共享最近邻聚类算法根据文献【5】，共享最近邻聚类算法的处理过程可简单归纳如下： (a)对每个文档求出与之距离最近的N个文档，生成文档的最近邻列表： (b)如果两篇文档互相出现在对方的最近邻列表中，则这两篇文档是相互关联的，计算相互关联的文档的关联强度，生成文档关联图；四个等级，对每个文档统计与之关联强度不低于Strong的文档数目，记为 n，若n高于阈值topic，则该文档为“话题”文档，若n低于阈值noise，则该文档为“噪声”文档； (d)以“话题’’文档为原始簇，根据关联强度等级将其他文档加入原始簇中。这种算法对聚合得到的簇的数目没有约束，不像k均值算法那样要求用户设定聚类个数k：对邻居的筛选是对文本距离的名次设置闽值而不是对文本距离本身设置闽值，因而能够适应不同分布特征的文本集合；另外，该算法还能发现任意形状的簇，而不局限于球状簇。因此本文选择在该算法基础上探讨以关联概念节点作为文本向量特征的文本聚类方法。 2 以关联概念节点为特征的共享最近邻文本聚类方法 2．1以关联概念节点为特征的文本向量的生成方法在计算文档之间的距离时，通常先将所有文档转换为文本向量，然后再两两计算文档对应的文本向量之间的距离。本文采用向量的夹角余弦值作为文档距离的计算方法。本小节主要讨论以关联概念节点为特征的的文本向量的生成方法。概括而言，生成的过程如下： (a)切分词语并进行词性标注； (b)根据词性筛选得到名词、动词、形容词、副词、量词； (c)从知识库获取筛选得到的词语对应的关联概念节点并统计； (d)根据步骤(c)对关联概念节点的统计结果，对关联概念节点进行筛选，去除文档频率过低或者节点所在层次超出规定范围的关联概念节点，余下的关联概念节点作为文本向量空间的特征； (e)根据步骤(c)的统计结果和步骤(d)得到的文本向量特征，计算ff-idf值作为特征值。上述五个步骤中，步骤(c)和(d)是本小节讨论重点。在HNC理论中，语言概念空间通过关联概念节点刻画，而词语的概念则通过一个或多个关联概念节点来表示。在关联概念节点体系中，子节点继承并发展父节点的语义。这种设计，在涉及专业活动领域的概念树中，可以理解为子节点相比父节点具有更强的专业领域信息。然而，子节点不能显式地反映其包含的父节点的信息量。所以，在计算文本向量时，有必要将子节点的信息按一定的规则计入其父节点的信息中，而父节点又将所获信息按规则计入祖节点的信息中，形成统计信息自下而上的传递。本文作为初步的探索，对节点信息的统计与传递的处理是，在获取词语的一个概念节点后，对该节点及其所有祖先节点的数值加l。另外，在关 ——262—— 音频声学联概念节点体系中，jl、l和f分别表示基本逻辑概念、语言逻辑概念和语习概念，这三类概念节点由于不具有领域信息，因而不被作为文本向量的特征。在完成对词语对应的关联概念节点的信息统计后，需要去除文档频率低的节点。本文中将所有只出现在一篇文档中的关联概念节点剔除。 2．2共享最近邻模型中文档关联强度的计算在上述流程中，本文主要对文档关联强度的计算进行改进。依照文献【5】的阐述，一种最简单的不带权重的计算方法是以同时出现在两篇文档的最近邻列表中的文档的数目作为这两篇文档的关联强度。尽管文献【5】认为相比于不带权重的文档关联强度计算方法，带权重的计算方法更为合理，但是原文献没有给出具体的权重计算方法。因此，本文按照以下公式计算带权重的文档关联强度：