面向Web文本数据仓库预处理关键技术研究.pdf

面向Web文本数据仓库预处理关键技术研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘要 随着互联网技术的发展,人们越来越多的利用W曲获得自己所需的资源。由 于W曲上各种资源非常丰富,包括大量的图片、文本等信息。如何把W曲中非 结构化的文本结构化,抽取支持高级应用的有用信息并载入数据仓库成为预处理 的一个关键技术。 本文以w曲文本数据仓库中的预处理系统为例,重点讨论了预处理中的关键 技术。首先介绍了基于主题方法的Ⅵ协文本数据仓库的构建,并设计了其星型模 型,从中得到需要从W.eb文本中获取的信息。然后论述了文档对象模型(DOM) 和信息抽取技术,通过对HTML解析把非结构化的W_eb文本变成DOM,获得所 需的标题、作者以及内容等信息,并为后续获得其他所需信息的信息抽取操作提 供了结构化模型。在信息抽取过程中采用了文本分词、关键词提取、自动摘要提 取以及文本分类技术。由于分词技术已经比较成熟,本文采用了中科院IcTcLAS 分词系统;在关键词提取中采用基于词共现模型的方法;在摘要提取的过程中, 使用了一种改进的基于统计的摘要提取技术,获得流畅的摘要,达到了较好的效 果;本文还设计了一种二维的SVM—KNN的文本分类方法,解决了SVM中对核 函数的依赖问题,并且采用了KNN算法的高准确性,获得了较好的分类效果。 根据以上研究成果,本文描述了系统的设计方案和实现过程。 关键词:w曲文本数据仓库预处理信息抽取文本分类 Abstract Abstract Withthe ofIIltemet aJldmore needed developmenttecllIlology,morepeopleget resourcesformW曲.Asvariousresourcesinwebsiteis a imlumerable,includingla唱e theconstmctionofW曲textdata of andmore.On warehouse,it quantityimages,text hasbeena on thathowtomaketheun§i-mcturedW曲 keytechnologypreprocessing text usemlinf.0珊ationto advaIlced a11dload. stmcture,extmct support application This takesa ofW曲textdatawaurehouseasan paper preprocessingsystem fbcusonthe of example,and keytechnologypreprocessing.Firstly,thepaperproposes the usedtobuildtheW色btextwarehouseand itsstar topic—basedapproach design schematoobtaintheextmctedinfomation厅om Object HTML infomationextraclion is the Model(DOM)and technologydetailed.Through DOMis f-romtheunstructured

文档评论(0)

克拉钻 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档