文本信息处理技术的研究和进展.pdfVIP

下载本文档

17
0
约1.17万字
约 8页
2017-08-16 发布于安徽
举报
版权申诉

文本信息处理技术的研究和进展.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第is届全国计算机信息管理学术研讨会论文集和标准的产生中，其完备性经常不被严格证明，所以许多规则和标准是很烦琐和可变通的是〔在一定程度上的更改而不是等价的转换)。在以人作为信息传输和处理中间过程的信息过程中。由于有人的介入而使相应规则和标准涉及对人 (这个复杂系统)的约束和评价，往往将会使很多简单的问题复杂化。信息的每一次转化都要有势的投耗，尤其是用人来转化和传输。由于语言表达的不完备性，使信源的信息有很大程度的损失;思考的有限和不完全，使决策的波动很大，即使在操作上联贯.这个联贯也未必是正确的:并且是低效率的。谈判者的误解、不良的品行、理念的差异都会对该次交易 (物质或能量的转化)造成很大的负势差，甚至导致整个过程的失败。其实在许多信息过程中，我们都能对该过程设置出完备的约束和有限的评价参数，并且比以往使用的方式有效。 3.总结在进入信息时代的过程中.我们会面临众多己出现的问题和即将出现的问题。我们逐渐体会到信息时代并不只是一个 “千里眼”和 “顺风耳”的时代，而是一个科学的感知的时代。我们目前还很难完全驾驭信息工具。在不断用信息技术为人类服务的同时，我们也要不断用信息理论来武装自己的头脑。从而发挥信息技术的优点并解决其中的问题。这不只是基础理论研究人员的责任，也是找们每个希望优质信息服务的人的责任。参考文献 (日H.哈肯 (西德)，协同学，原子能出版社，1984年2月。 (2〕杨向群著，可列马尔科夫过程构造论，湖南科学技术出版社，1981年6月。文本信息处理技术的研究与进展赵丹群. 徐学文 “ (a北京大学信息管理系。100871b北京167信箱，100036) 【摘委】随着网络的飞速发展，文本信息处理领城近年来获得了前所未有的进步，其研究领域也在不断拓展，出现了许多新的研究分支.本文通过大贡的文献调查与整理，对该领域内若干重要研究分支 (如文本摘要、文本分类、文本浏览与可视化、文本过滤、文本挖掘、文本检索等)的研究现状、技术方法、试验与应用等问题进行了分析与探讨，最后得到了几点基本结论. 【关健词1f-本处理文本摘要文本分类文本浏览与可视化文本过滤文本挽掘文本检索屯第 238页共 301页第15届全国计算机信息管理学术研讨会论文集 1.引言文本信息的基本特征可以概括为抽象、离散、较少冗余。作为计算机处理的一类主要数据对象，文本类信息自身在过去的五十余年间经历了许多发展和演变。在网络化环境中，尤其是最近10余年时间里，文本信息及其处理技术的进步和拓展更为迅速。主要表现为: 从过去的结构化文本到当前的大容量、无结构或半结构化文本;从传统的线性文本组织技术到新兴的超文本链接技术:从平面文档到具有一定层次结构的非平面文档:等等。文本信息处理技术的研究和试验环境也经历了从脱机到联机、从单机到网络、进而又从集中式网络到当前分布式、异构性和动态的Web网络环境的不断转移和跃迁。可以说，Web的出现为文本信息处理提供了一个前所未有的实验环境和应用舞台，而随之而来的文本信息的大容量、异构性、分布性和动态性也给该领域的研究和试验带来了新的挑战和研究课题。本文拟通过对一系列相关文献的阅读和整理，对最近10余年来文本信息处理技术的现状和发展趋势进行总结和探讨，讨论的侧重点可能会较多地涉及到Web技术环境。 2.文本信息处理若干重要领域的研究进展 2.1文本摘要 (TEXTSUMMARIZATION/AUTOMATICABSTRACTING) 文本摘要研究最早始于50年代末期，1958年IBM公司的研究人员H.P.Luhn发表了第一篇有关计算机自动创作文献摘要的论文。此后文本摘要研究作为计算机应用的一个重要领域进入了实验和实用阶段，但是文本摘要真正卓有成效的研究和发展是最近10余年的事情。目前，文本摘要的研究方法主要有两类: 2.1.1基于统计的文本摘要研究早期的文本摘要研究主要基于统计方法。通过对字频、词频等的统计，利用一定的加权方法，从文献中确定重点词语、自然句或段落，然后形成文摘。这类系统的主要特点是不受领域限制，运算速度快，但文摘的质量不高。仅以中文文摘系统为例，有代表性的做法有: ★通过少量的预