从Web 文档中采掘语言知识.docVIP

下载本文档

1
0
约7.52千字
约 9页
2017-09-01 发布于安徽
举报
版权申诉

从Web 文档中采掘语言知识.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从Web文档中采掘语言知识徐代刚唐常杰于中华四川联合大学计算机系摘要∶本文论述了在机译系统支持下，结合数据采掘和文本分析两项技术，从Web文档中采掘语言知识的基本方法；提出了一个文本采掘系统的基本框架，并给出了测试实例。关键词∶数据采掘，文本分析，文本情节，情节规则 1 引言随着World Wide Web的迅猛发展，在Web上采掘知识，成为当前数据采掘领域的研究热点。由于Web缺乏结构，数据复杂，给传统的基于数据库的数据采掘方法带来巨大的困难。面对Web上数量巨大的文档，将数据采掘与文本分析结合起来，便成为在Web上采掘知识的新趋势。对我国广大Web用户,英语是一大障碍。为克服这个语言障碍，国内展开了网上机译系统的研究和开发。我们开发的信译网上英汉机器翻译系统目前已投入市场。机译系统对于自然语言处理有相当程度的技术水平，适于文本分析。本文旨在将机译系统与Web上的知识采掘相结合，建立一个网上文本采掘系统。这样，既有利于Web上知识采掘的研究，也有利于机译系统的发展和提高。本文论述了目前正在发展中的文本情节(episode)和文本情节规则采掘方法。它是词汇分析学与关联规则采掘两项技术结合的产物，适合于从Web文档中采掘有关于词汇的语言知识。 2 采掘对象目前，我们主要从Web文档中采掘有关词汇的语言知识，包括短语、连语、词性依赖、词形搭配等等。其中连语是一类特殊的词组。与短语相比，连语通常含有介词、冠词、数词以及变形词，例如“Dow Jones average of 30 industrial stocks”。这些语言知识在多个领域有着重要的应用。 (1)在Web文档检索方面，现在的检索系统主要是通过关键词，为文档建立索引。单个的关键词数量大且对文档内容的指示作用很弱，这就大大降低了文档检索的效率。关键词组尤其是短语，比关键词有更好的效果，例如短语“industrial processing”和“process”相比,前者指示的范围显然要狭窄得多。而连语，据研究它跟相应领域的相关程度很高，对区别文档常常有意想不到的效果。 (2)对于机器翻译，词汇知识尤其是短语和连语是一个难点。现在网上机译系统的翻译质量普遍不高，一个重要的原因就是无法应付网上纷繁复杂、数量巨大的短语和连语。 Web文档中的超文本标记，是一类非常特殊的词汇。通过采掘这些标记的搭配规则，研究文档的结构，有利于信息的提取。 3 文本情节和文本情节规则情节和情节规则最初来源于对有序数据的研究，如电话网络报警、WWW的日志文件等等。有序数据可以看作按序发生的事件，每个事件都是一个二元式(事件类型，时间)。例1 WWW日志数据的某个序列可以表示为∶(page A,June 22 17:42:24)(page A,June 22 17:43:24) (page A,June 22 17:44:24)。假设时间窗口长为60秒，该序列含有情节(page A,page B),但不含情节(page A,page C)。目前，‘情节’这种概念还没有准确、规范的定义，尚处在发展的过程中。下面采取见诸于文献的方式，对文本情节和文本情节规则作简要的描述。 1文本情节文本情节有下列要点∶ 文本的基本模式文本序列可看作如下集合∶S={a,a,…,a}，a={特征向量，序号}；其中序号对应于单词在序列中的位置，特征向量可以是以下几类∶(i)单词∶单词原形(make),单词变形(made)；(ii)语法特征∶词性，所有格，单复数等；(iii)标点符号；(iv)超文本标记。 (2)文本情节(episode) 文本情节是一种形如(=(V，()的表达式，其中V是特征向量集，而(是定义在V上的偏序。通常我们只考虑限制在某个长度上的文本情节，称这种长度为限制窗口长度W。例2 文本串“knowledge discovery in databases”可表示成∶ (knowledge_N_SG,1)(discovery_V_SG,2)(in_PP,3)(datatbase_N_PL,4) N—名词 V—动词 SG—单数 PL—复数 PP—介词当W=2时，含有文本情节(knowledge_N_SG,discover_V_SG) (3)最小间隔在一定序列间隔中，可能出现情节重复包含的情况，例如情节(knowledge_N,discover_V)可能出现在[1,2]、[1,7]两个间隔中，因此我们必须把挖掘文本情节限制在最小间隔中。定义1∶ 如果文本情节P在[t,t]中出现且P不会在任何一个子间[u,u]([u,u]([t,t]中出现，则[t,t]是P出现的最小间隔。在文本序列中出现的所有最小间隔，构成P的最小间隔集，记为mo(P)={[t