- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三届全国信息检索与内容安全学术会议
因此可以通过隐含系统长期演化的任一单变量时间序列来研究系统的非线性行为。假设语言模型
表现形式为膏=/(算),由于语言模型的复杂性,现阶段无法构造出.厂(戈)确切的表达形式,甚至
无法确定该模型包含的主要变量有几个、哪些变量是系统变量。但是如果将描述某个主题的文本
内容认为是由该模型得到的一段输出信号序列,那么就可以利用非线性时间序列分析的方法对这
个输出序列进行处理,从而研究语言模型的行为。
本文尝试将非线性时间序列分析的方法对文本内容进行分析处理,通过将文本表示为由确
切的概念组成的有序序列,满足非线性时问序列分析的要求;再对概念序列重构相空问,计算最
大Lyapunov指数,对语言模型在该文本序列上的运行规律进行分析。
2基于概念序列的文本表示方法
采用非线性时问序列分析方法,首先需要解决的是文本表示的问题。
Model),其优
目前文本表示的主要方法是Salton教授提出的向量空间模型【l】(VectorSpace
点是简单易用、效率效果均相当不错。但是该模型忽略了特征之间的语义相关性与特征之间的序
列关系,造成了信息损失,无法满足时间序列分析的要求。如果将文本简单表示为词汇的序列,
虽然可以满足时间序列分析的要求,但是自然语言中许多词汇具有多义性会造成概念歧义,此外
同义词也无法明确标注,同样会造成分析过程中的噪声影响。因此本文提出一种利用概念序列对
文本表示的方法,保留原有文本内容的先后次序关系,减少信息的损失。
定义l:词串s,=wW一…W.。是由字典D中的词组成的有限序列,如果S,中包含的词共
现关系能明确表示某个概念C,即e=meaning(s,),则称s,为子模式P,,表示相同概念的
子模式组成集合只={P,lmeaning(P,)=c,}。
由于自然语言中许多词汇具有多义性,即一个词汇可以表示多个概念,仅仅一个词单独出
现,即使是人也很难确定其要表达的概念,比如“病毒”,该词既可以表示医学领域中的病毒概
念,也可以表示计算机领域中的计算机病毒。引入词汇共现关系之后,在一个包含“计算机”、
“软件”等词汇的子模式中,“病毒”表示计算机病毒概念的概率就相当大了。同样,一个概念
也可以由多个模式来表达,比如包含“计算机”、“软件”等词汇的子模式中,“病毒”表示计
算机病毒的概念,而包含“黑客”、“计算机”、“网络”等词汇的子模式中,“病毒”也一样
表示计算机病毒的概念。子模式与概念之间的关系如图1所示。
圈1概念、子模式之间的关系 图2文本表示的方法
and and
Fig.2Relationshipofconceptpatterns Fig.3Relationshipoftext,conceptpaRems
定义2:文本T={w为由字典D中的词组成的有限序列,如果其中某个子序列s,与子模
式p,相似性满足条件sim(sj,Pj)s,则可以用p,所属概念替代J,,文本可以表示为
T={C
利用明确的概念表示文本可以消除由于词汇的多义性造成的信息不确定性,提取了文本信息
中的主成分,同时还保留了文本中语义的顺序关系,减少了信息的损失。文本经过这种处理之后,
概念序列可以视为文本时间序列,可以通过时间序列的分析方法进行处理。该表示方法如图2所
示。
358
第三届全国信息检索与内容安全学术会议
3非线性时间序列分析
非线性时间序列分析中,吸引子的不变量在表征系统的性质方面一直起着重要的作用,它分
为“微观”和“宏观”两个层次。“微观”层次是指构成奇异吸引子的骨架的不稳定周期数目、
种类和它们的特征值;“宏观”层次是指使用对整个吸引子或无穷长的轨道平均后得到的特征量,
整体的混沌水平。因此从混沌时间序列来计算Lyapunov指数在分析整个系统的过程中显得尤为
重要[2]。
3.1 相空间重构
非线性时间序列分析的第一步是相空间重构。这一重要步骤就是由一维时间序列重构出
与原系统等价的一个高维相空间。最常用的相空间重构法是时间延迟法,影响其重构质量的
关键因素是时间延迟f和嵌入维数m的选择,只有选择适
您可能关注的文档
- 方坯连铸机浸入式水口堵塞机理的探讨.pdf
- 防雷安全与经济合理问题探讨.pdf
- 防汛会商显示系统建设探讨.pdf
- 防止油气挥发储罐浮顶密封形式探讨.pdf
- 飞燕式钢管混凝土系杆拱桥边拱形式探析.pdf
- 非公路行业宽体自卸车市场发展趋势探析.pdf
- 非金属元素单质分子的稳定存在形式探讨.pdf
- 非直管附属医院见习生带教工作的探讨.pdf
- 分子能动力学说对人类病毒起源与繁殖条件影响的探讨.pdf
- 风冷热泵冷(热)水机组的选型探讨.pdf
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)