- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义和统计特征中文文本表示方法
基于语义和统计特征中文文本表示方法
[摘 要]本文基于关键词集的中文文本特征表示方法,将本体和词共现的思想引入到中文文本的特征表示中,能够更加准确地表达中文文本特征,进而提高中文文本聚类的质量。
[关键词]个性化;Web挖掘;文本聚类
doi:10.3969/j.issn.1673-0194.2009.15.020
[中图分类号]TP391[文献标识码]A[文章编号]1673-0194(2009)15-0065-03
1 文本聚类问题及词共现模型
目前个性化信息服务主要是针对文本资源,中文文本聚类是教育政务资源库个性化信息服务中重要的基础性工作。
文本信息多数是无结构化的,如何准确地表示文本是影响聚类性能的重要因素。文本聚类是一个将文本集分组的全自动处理过程,是一种典型的无监督的机器学习问题,它将文本集分为若干个子集,称为聚类,使得类内的成员相似度尽可能大,类间的成员相似度尽可能小。
文本聚类的本质是是对一个给定的文本集合??D={d??1,d??2,…,d??n}进行划分,从而得到一个聚类的集合C={c??1,c??2,…,c??k},其中c??j??D(j=1,2,…,k),使得对??d??i(d??i∈D),??c??j(c??j∈C),且d??i∈c??j,同时使得∑d??i∈c??jSim(d??i,c??j)∑d??i??c??jSim(d??i,c??j)达到最大,其中Sim(d??i,c??j)为文档d??i与聚类c??j的相似度函数。??
中文文本信息多数是无结构化的,并且使用自然语言,很难被计算机处理。因此,如何准确地表示中文文本是影响聚类性能的主要因素。
目前的文本聚类系统主要采用向量空间模型(Vector Space Module,VSM)来表示文本。传统的向量空间模型是基于关键词集的,它是根据词频建立向量的一种统计模型。然而,中文文本存在语法修饰和上下文的语义关联,例如不同的词汇表示相同的概念,相关的词汇共现表示一个主题等,因此,基于关键词集的向量空间模型无法表示中文文本中的深层语义信息。
将词共现模型是基于统计方法的自然语言处理研究领域的重要模型之一。它是建立在这样一个基本假设的基础之上:如果在大规模语料中,两个词经常共同出现(共现)在文本的同一窗口单元(如一句话、一个自然段或一篇文本等),则认为这两个词在意义上是相互关联的,并且,共现的概率越高,其相互关联越紧密。
词共现模型的思想引入到文本表示中,在文本集中超过一定比例的文本中共同出现的特征项可以看作是同主题的特征项。
2 相关概念
首先给出有关核心本体论及基于知网的本体论的相关概念。
核心本体论(Core Ontology)定义为一个元组??O:=(C,≤c),其中C是概念标识符的集合,≤c是集合C上的偏序,称之为概念层次或者概念分类。
对于c??1,c??2,如果c??1c??2,那么称c??1为c??2的子概念,c??2为c??1的父概念;如果c??1c??2并且不存在c??3∈C满足c??1c??3c??2,那么称c??1为c??2的直接子概念,c??2为c??1的直接父概念,记作c??1??c??2。
本体论O的词典定义为一个元组lex:=(S??c,Ref??c),S??c??是概念符号(signs for concepts)的集合,Re??f??c??S??c×C称为概念的词典索引。根据Ref??c,可以定义对于s∈S??c,Ref??c(s):={c∈C|(s,c)∈Ref??c},对于c∈C,Ref??-1??c:={s∈S??C|(s,c)∈Ref??c}。
基于知网的本体论ObH的词典定义为一个元组lex:=(S??a,Ref??E,Ref??A),其中S??A是词条的集合,A是义原的集合,E是概念的集合,Ref??A??E×A为概念的词典索引(即概念的相关义原),Ref??E??S??A×E为词条的词典索引(即词条的相关概念)。对于s∈S??A,Ref??E(s):=(e∈E|(s,e)∈Ref??E);对于e∈E,Ref??A(e):=(a∈A|(e,a)∈Ref??A)。
例如,对于词条S??1“足球”,概念e??1=“[SportTool|运动器材,(football|足球)]”,概念e??2=“[fact|事情,exercise|锻炼,sport|体育,(football|足球)]”,那么Ref??E(s??1):={e??1,e??2},Ref??A(e??1);={SportTool|运动器材, football|足球},Ref??A(e??2)={fact|事情,
文档评论(0)