- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从Web文档中采掘语言知识
徐代刚 唐常杰 于中华
四川联合大学计算机系
摘要∶本文论述了在机译系统支持下,结合数据采掘和文本分析两项技术,从Web文档中采掘语言知识的基本方法;提出了一个文本采掘系统的基本框架,并给出了测试实例。
关键词∶数据采掘,文本分析,文本情节,情节规则
1 引言
随着World Wide Web的迅猛发展,在Web上采掘知识,成为当前数据采掘领域的研究热点。由于Web缺乏结构,数据复杂,给传统的基于数据库的数据采掘方法带来巨大的困难。面对Web上数量巨大的文档,将数据采掘与文本分析结合起来,便成为在Web上采掘知识的新趋势。
对我国广大Web用户,英语是一大障碍。为克服这个语言障碍,国内展开了网上机译系统的研究和开发。我们开发的信译网上英汉机器翻译系统目前已投入市场。机译系统对于自然语言处理有相当程度的技术水平,适于文本分析。本文旨在将机译系统与Web上的知识采掘相结合,建立一个网上文本采掘系统。这样,既有利于Web上知识采掘的研究,也有利于机译系统的发展和提高。
本文论述了目前正在发展中的文本情节(episode)和文本情节规则采掘方法。它是词汇分析学与关联规则采掘两项技术结合的产物,适合于从Web文档中采掘有关于词汇的语言知识。
2 采掘对象
目前,我们主要从Web文档中采掘有关词汇的语言知识,包括短语、连语、词性依赖、词形搭配等等。其中连语是一类特殊的词组。与短语相比,连语通常含有介词、冠词、数词以及变形词,例如“Dow Jones average of 30 industrial stocks”。这些语言知识在多个领域有着重要的应用。
(1)在Web文档检索方面,现在的检索系统主要是通过关键词,为文档建立索引。单个的关键词数量大且对文档内容的指示作用很弱,这就大大降低了文档检索的效率。关键词组尤其是短语,比关键词有更好的效果,例如短语“industrial processing”和“process”相比,前者指示的范围显然要狭窄得多。而连语,据研究它跟相应领域的相关程度很高,对区别文档常常有意想不到的效果。
(2)对于机器翻译,词汇知识尤其是短语和连语是一个难点。现在网上机译系统的翻译质量普遍不高,一个重要的原因就是无法应付网上纷繁复杂、数量巨大的短语和连语。
Web文档中的超文本标记,是一类非常特殊的词汇。通过采掘这些标记的搭配规则,
研究文档的结构,有利于信息的提取。
3 文本情节和文本情节规则
情节和情节规则最初来源于对有序数据的研究,如电话网络报警、WWW的日志文件等等。有序数据可以看作按序发生的事件,每个事件都是一个二元式(事件类型,时间)。
例1 WWW日志数据的某个序列可以表示为∶(page A,June 22 17:42:24)(page
A,June 22 17:43:24) (page A,June 22 17:44:24)。假设时间窗口长为60秒,该序列含有情节(page A,page B),但不含情节(page A,page C)。
目前,‘情节’这种概念还没有准确、规范的定义,尚处在发展的过程中。下面采取
见诸于文献的方式,对文本情节和文本情节规则作简要的描述。
1文本情节
文本情节有下列要点∶
文本的基本模式
文本序列可看作如下集合∶S={a,a,…,a},a={特征向量,序号};其中序号对应
于单词在序列中的位置,特征向量可以是以下几类∶(i)单词∶单词原形(make),单词变形(made);(ii)语法特征∶词性,所有格,单复数等;(iii)标点符号;(iv)超文本标记。
(2)文本情节(episode)
文本情节是一种形如(=(V,()的表达式,其中V是特征向量集,而(是定义在V上的偏序。通常我们只考虑限制在某个长度上的文本情节,称这种长度为限制窗口长度W。
例2 文本串“knowledge discovery in databases”可表示成∶
(knowledge_N_SG,1)(discovery_V_SG,2)(in_PP,3)(datatbase_N_PL,4)
N—名词 V—动词 SG—单数 PL—复数 PP—介词
当W=2时,含有文本情节(knowledge_N_SG,discover_V_SG)
(3)最小间隔
在一定序列间隔中,可能出现情节重复包含的情况,例如情节(knowledge_N,discover_V)可能出现在[1,2]、[1,7]两个间隔中,因此我们必须把挖掘文本情节限制在最小间隔中。
定义1∶
如果文本情节P在[t,t]中出现且P不会在任何一个子间[u,u]([u,u]([t,t]中出现,则[t,t]是P出现的最小间隔。
在文本序列中出现的所有最小间隔,构成P的最小间隔集,记为mo(P)={[t
文档评论(0)