1文本处理技术及应用.pdfVIP

下载本文档

5
0
约5.33万字
约 59页
2017-09-01 发布于江苏
举报
版权申诉

1文本处理技术及应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1文本处理技术及应用.pdf

发现孤立点，可以生成任意形状的簇，而且具有很高的时间效率。但是，该算法要求用户指定两个参数来确定高密度区域，所以聚类结果受这两个参数的影响很大。 1．1．1．4全文索引模型简介全文检索的首要问题是全文索引模型的选择”1。目前主流的全文索引模型有倒排表模型和Pat数组模型等，但它们都有自身的缺点。倒排表模型主要表现为空间效率较差、检索效率低下、创建过程烦琐，而Pat数组无论是创建过程，还是检索过程都严重依赖源文本”“”。从书目索引延伸出来的方法就是现在应用最广泛的倒排表模型”。倒排表模型记录下每个索引项(一般是字或词)在文本集中出现的所有位置，并根据它们完成检索服务。倒排袁模型的思想比较简单，在索引创建过程中只需对文本集进行顺序扫描并记下位置，并不需要更多的分析，对索引的填写总体E也是顺序进行的，因此外存I／O操作相对较少。经过多年的发展，倒排表模型的空间效率也得到很大的提高，有代表性的工作有：E1las在1975年描述的y和6编码法；以及目自i在静态全文数据库中得到广泛应用的Golomb编码。虽然倒排表模型难于再进一步提高检索效率，但是它的结构和创建过程本身联系比较密切，并不需要进行一系列变化，而且准动态的倒排表模型的动态性能相对其它模型也是比较好的。署名文件有时电称散列函数法。每个文本有一个关联署名或描述符，每个索引项作为散列函数的参数产生几个散列值，与这些值相应的署名的位数被置为 l。当把文本中每个字符的散列值叠加时，就得到了合并后的文本署名的全集。要检测…’个查询项是否在给定的文本中出现，就要计算此查询项的散列函数值。如果某些文本的描述符中所有的对应位均被设定，则此术语可能出现在该文本中。要解决这种不确定性，必须读入并扫描文本以检查查询项是否真正出现。可以通过为每个查询项设置几个位并使署名足够长来降低这种失败匹配的概率，但无论如何，总是需要进行失败匹配的检查，这在相当程度上增加了查询过程的开销。位图使用起来很容易而且很快，尤其适合布尔检索，但是位图空间丌销特别大。一些实验表明，位图空间开销可能是原文本的几十倍。尽管已经发现了一些高效的位图压缩方法，但压缩后的空问开销仍然远大于倒排表和署名文件。这导致位图是三种索引模型中应用最少的一种。这两种模型同倒排表模型从实质上讲是同‘基本观念的变体。二者均能提供比倒排表更迅速的查询处理，但均需要大量的存储空间。由于索引空间的大小是 10 影响动态性能的～个较主要的因素，因此它们的动态性能在先天均比不上倒排表模型。虽然这两种模型往往配合压缩技术，但是由于数据的压缩工作往往在索引生成之后进行，且开销也很大，因此压缩仅仅提高了索引的空问效率，而降低了动态性能。提出。它很有特色的地方是将一个文本看成一组半无限串的叠加，而这组半无限串的排序结果被表示成树的形式。它的最大优点是极大加快了检索速度，尤其对某些特殊的检索，如前缀检索、范围检索等检索效率更高。它的最大缺点是空问开销大，而且创建过程中的空间开销更大，创建效率也很低，而且无论是创建过程还是检索过程都严重依赖源文本，而倒排表在检索中是不需要源文本的。Pat 即将Pat树的叶节点串行化就得到了Pat数组。Pat数组的比Pat树更直观，完全可以不通过Pat树去理解和创建，但是两者的思想是一致的。由于树这种数据结构放入外存之后I／o的效率变得很低，而Pat数组索引的创建和合并均需大量移动数据，因此两者的动态性能都不理想。可见Pat．数组将文本中所有可能出现的字符串做了排序，待检索的字符串可在其上实施多种检索手段。一般地，在排序的数组中采用二分法是最快的。Pat数组的检索要读取源文本，但读取次数为 O(Log：N)(N为Pat数组的长度)。这个时间开销与待检索串的长度和检索结果个数无关，这一个特点使得它远优于倒排表。倒排表虽然一般不读取源文本(即检索不涉及磁盘操作)，但当检索串很跃或检索结果很多时，效率降低很多。随着磁盘读写技术得发展，我们更有理由相信Pat数组是很有前途的技术。 1．1．1．5生物信息学中的局部比对简介随着基因组计划的实旖，新的分子生物信息数据大量涌现“。如何从中得到有价值的知识是一项非常艰巨的任务”…。生物信息学就是为了满足这一要求而迅速发展起来的。生物信息学是一门交叉学科，它将数学、计算机科学应用于生物大分子信息的获取、加工、存储、分类、检索和分析等，以达到阐明和理解大量数据所蕴含的