基于文本概念序列的非线性分析方法初探.pdfVIP

基于文本概念序列的非线性分析方法初探.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三届全国信息检索与内容安全学术会议 因此可以通过隐含系统长期演化的任一单变量时间序列来研究系统的非线性行为。假设语言模型 表现形式为膏=/(算),由于语言模型的复杂性,现阶段无法构造出.厂(戈)确切的表达形式,甚至 无法确定该模型包含的主要变量有几个、哪些变量是系统变量。但是如果将描述某个主题的文本 内容认为是由该模型得到的一段输出信号序列,那么就可以利用非线性时间序列分析的方法对这 个输出序列进行处理,从而研究语言模型的行为。 本文尝试将非线性时间序列分析的方法对文本内容进行分析处理,通过将文本表示为由确 切的概念组成的有序序列,满足非线性时问序列分析的要求;再对概念序列重构相空问,计算最 大Lyapunov指数,对语言模型在该文本序列上的运行规律进行分析。 2基于概念序列的文本表示方法 采用非线性时问序列分析方法,首先需要解决的是文本表示的问题。 Model),其优 目前文本表示的主要方法是Salton教授提出的向量空间模型【l】(VectorSpace 点是简单易用、效率效果均相当不错。但是该模型忽略了特征之间的语义相关性与特征之间的序 列关系,造成了信息损失,无法满足时间序列分析的要求。如果将文本简单表示为词汇的序列, 虽然可以满足时间序列分析的要求,但是自然语言中许多词汇具有多义性会造成概念歧义,此外 同义词也无法明确标注,同样会造成分析过程中的噪声影响。因此本文提出一种利用概念序列对 文本表示的方法,保留原有文本内容的先后次序关系,减少信息的损失。 定义l:词串s,=wW一…W.。是由字典D中的词组成的有限序列,如果S,中包含的词共 现关系能明确表示某个概念C,即e=meaning(s,),则称s,为子模式P,,表示相同概念的 子模式组成集合只={P,lmeaning(P,)=c,}。 由于自然语言中许多词汇具有多义性,即一个词汇可以表示多个概念,仅仅一个词单独出 现,即使是人也很难确定其要表达的概念,比如“病毒”,该词既可以表示医学领域中的病毒概 念,也可以表示计算机领域中的计算机病毒。引入词汇共现关系之后,在一个包含“计算机”、 “软件”等词汇的子模式中,“病毒”表示计算机病毒概念的概率就相当大了。同样,一个概念 也可以由多个模式来表达,比如包含“计算机”、“软件”等词汇的子模式中,“病毒”表示计 算机病毒的概念,而包含“黑客”、“计算机”、“网络”等词汇的子模式中,“病毒”也一样 表示计算机病毒的概念。子模式与概念之间的关系如图1所示。 圈1概念、子模式之间的关系 图2文本表示的方法 and and Fig.2Relationshipofconceptpatterns Fig.3Relationshipoftext,conceptpaRems 定义2:文本T={w为由字典D中的词组成的有限序列,如果其中某个子序列s,与子模 式p,相似性满足条件sim(sj,Pj)s,则可以用p,所属概念替代J,,文本可以表示为 T={C 利用明确的概念表示文本可以消除由于词汇的多义性造成的信息不确定性,提取了文本信息 中的主成分,同时还保留了文本中语义的顺序关系,减少了信息的损失。文本经过这种处理之后, 概念序列可以视为文本时间序列,可以通过时间序列的分析方法进行处理。该表示方法如图2所 示。 358 第三届全国信息检索与内容安全学术会议 3非线性时间序列分析 非线性时间序列分析中,吸引子的不变量在表征系统的性质方面一直起着重要的作用,它分 为“微观”和“宏观”两个层次。“微观”层次是指构成奇异吸引子的骨架的不稳定周期数目、 种类和它们的特征值;“宏观”层次是指使用对整个吸引子或无穷长的轨道平均后得到的特征量, 整体的混沌水平。因此从混沌时间序列来计算Lyapunov指数在分析整个系统的过程中显得尤为 重要[2]。 3.1 相空间重构 非线性时间序列分析的第一步是相空间重构。这一重要步骤就是由一维时间序列重构出 与原系统等价的一个高维相空间。最常用的相空间重构法是时间延迟法,影响其重构质量的 关键因素是时间延迟f和嵌入维数m的选择,只有选择适

文档评论(0)

hnlhfdc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档