- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种Web信息挖掘英语阅读选篇分类研究
一种Web信息挖掘的英语阅读选篇分类研究
【摘要】随着网络信息化程度的不断提高,英语阅读教学模式也发生了根本性的变化,网络环境下英语阅读教学题材选篇的多样性与灵活性有了质的飞跃。由于目前英语阅读题材选篇多为手工挑选,题材涉及面不够广泛并且任务繁重,提出了一种基于Web信息挖掘的英语阅读选篇自动分类的设计模式,以期利用计算机技术为构建高效实用的英语阅读自动选篇系统提供有效的解决途径。
【关键词】Web信息挖掘;英语阅读;文本分类;结构模型
【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097 (2009) 02―0067―04
引言
信息化的不断推进给信息获得方式带来前所未有的冲击,英语阅读素材的获取也必然要随之进行相应的改进和调整,而有效利用网络资源则是未来英语阅读材料研究的一个重点领域。针对于英语阅读题材选篇的模式单一、手工操作相对繁杂、归类困难和数据量少等问题,本文拟通过一种高效的、灵活的网络文本分类的英语阅读选篇分析方法来给予解决,为实现网上海量数据的英语阅读选篇自动归类给出可供借鉴的依据,并提出一种实际有效的解决方案。
为了从海量数据中发现有效、新颖、潜在有用、可最终理解的模式,数据库领域引入了数据挖掘(Data Mining)[1,2]。由于数据挖掘的缺陷,Web 挖掘技术(数据挖掘技术跟 Web技术相结合)作为一种新技术逐渐得到重视。有研究表明,在海量的Web信息资源中,有80%以上的信息是以文本的形式存在的,因此隶属于Web内容挖掘的Web文本挖掘显得尤为重要[3,4]。Web文本挖掘就是从 Web 文档和 Web 活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息的过程。因为Web文档中的标记给文档提供了额外的信息,所以提高了Web文本挖掘的性能,而Web 文本挖掘是文本挖掘的主要研究内容。Web文本挖掘对我们充分利用Web信息资源很有帮助,能够使人们比较准确找到需要的资料,同时还可以节约搜索时间,提高Web文档的利用价值等。Web文本挖掘可以对Web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。
随着Web文本分类技术在信息检索、智能搜索引擎???文本分类器的构造等领域的广泛应用[5],Web文本分类的研究己经成为信息处理的一个前沿课题,有着广泛的应用前景和重要的研究意义,它的研究和应用对于英语阅读题材的分类和归纳也具有相当重要的作用。
一 Web信息挖掘
1 Web信息挖掘及其分类
Web是一个巨大的、开放性、动态性、广泛分布、相互联系并且不断进化的信息仓库[6]。它也是一个巨大的文档累积的集合,包括超链接信息、访问及使用信息,资源分布分散,这样一来也就导致了信息获取的困难。Web信息挖掘是指对目标样本进行特征分析,并且据此从Web文档和Web活动中抽取人们感兴趣的、潜在的有用模式和隐藏的信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。人们利用Web信息挖掘技术可以从Web海量的数据中自动地、智能地抽取隐藏在这些数据中的知识。但如何满足各种用户不同的个性化需求,却成了新的信息服务系统面临的具有挑战性的课题[7]。Web信息挖掘的一种比较流行的分类方法见图1。
根据Web信息挖掘的数据对象,将Web挖掘分为3 类:Web内容挖掘(Content Mining) 、Web结构挖掘(Construct Mining) 、Web使用挖掘(Usage Mining)。这里Web内容挖掘又可以分为Web文本自动分类和Web搜索结果归纳,本文将主要研究其中一个分支Web文本自动分类,并结合英语阅读自动选篇进行分析。
2 Web信息挖掘的流程
本过程主要涉及四个方面问题:数据收集,数据选择及特征提取,模式发现,模式分析。其流程如图2所示。
(1)数据收集。找到Web信息挖掘的数据源,通过预先设置的URL路径找到合适的信息资源。
(2)数据选择和特征提取。针对取得的Web信息资源,剔除无用信息,并将信息按特定要求进行特征提取。
(3)模式发现。利用合理有效的挖掘算法,自动对上一步整理完成的内容进行深入分析,发现其中蕴含的模式。
(4)模式分析。验证、解释上一步骤产生的模式,并对挖掘出来的模式、规则进行分析,找出其中蕴含的读者感兴趣的模式和信息。
3 Web信息挖掘技术手段
Web信息巨大,要有效处理这么大的数据量既要考虑系统运行时的时间复杂度,也要考虑空间复杂度,结合二者并加以合理分析利用才能使系统的整体性能真正提高。在Web信息挖掘技术手段方面当前主要涉及以下几点:
(1) 统计分析。它是一
原创力文档


文档评论(0)