面向Web文本数据仓库预处理关键技术研究.pdf

下载文档 降价啦

6
0
约 67页
2017-09-06 发布于安徽
举报
版权申诉
保障服务

面向Web文本数据仓库预处理关键技术研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要摘要随着互联网技术的发展，人们越来越多的利用W曲获得自己所需的资源。由于W曲上各种资源非常丰富，包括大量的图片、文本等信息。如何把W曲中非结构化的文本结构化，抽取支持高级应用的有用信息并载入数据仓库成为预处理的一个关键技术。本文以w曲文本数据仓库中的预处理系统为例，重点讨论了预处理中的关键技术。首先介绍了基于主题方法的Ⅵ协文本数据仓库的构建，并设计了其星型模型，从中得到需要从W．eb文本中获取的信息。然后论述了文档对象模型(DOM) 和信息抽取技术，通过对HTML解析把非结构化的W_eb文本变成DOM，获得所需的标题、作者以及内容等信息，并为后续获得其他所需信息的信息抽取操作提供了结构化模型。在信息抽取过程中采用了文本分词、关键词提取、自动摘要提取以及文本分类技术。由于分词技术已经比较成熟，本文采用了中科院IcTcLAS 分词系统；在关键词提取中采用基于词共现模型的方法；在摘要提取的过程中，使用了一种改进的基于统计的摘要提取技术，获得流畅的摘要，达到了较好的效果；本文还设计了一种二维的SVM—KNN的文本分类方法，解决了SVM中对核函数的依赖问题，并且采用了KNN算法的高准确性，获得了较好的分类效果。根据以上研究成果，本文描述了系统的设计方案和实现过程。关键词：w曲文本数据仓库预处理信息抽取文本分类 Abstract Abstract Withthe ofIIltemet aJldmore needed developmenttecllIlology，morepeopleget resourcesformW曲．Asvariousresourcesinwebsiteis a imlumerable，includingla唱e theconstmctionofW曲textdata of andmore．On warehouse，it quantityimages，text hasbeena on thathowtomaketheun§i-mcturedW曲 keytechnologypreprocessing text usemlinf．0珊ationto advaIlced a11dload． stmcture，extmct support application This takesa ofW曲textdatawaurehouseasan paper preprocessingsystem fbcusonthe of example，and keytechnologypreprocessing．Firstly，thepaperproposes the usedtobuildtheW色btextwarehouseand itsstar topic—basedapproach design schematoobtaintheextmctedinfomation厅om Object HTML infomationextraclion is the Model(DOM)and technologydetailed．Through DOMis f-romtheunstructured