- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
摘要
随着互联网技术的发展,人们越来越多的利用W曲获得自己所需的资源。由
于W曲上各种资源非常丰富,包括大量的图片、文本等信息。如何把W曲中非
结构化的文本结构化,抽取支持高级应用的有用信息并载入数据仓库成为预处理
的一个关键技术。
本文以w曲文本数据仓库中的预处理系统为例,重点讨论了预处理中的关键
技术。首先介绍了基于主题方法的Ⅵ协文本数据仓库的构建,并设计了其星型模
型,从中得到需要从W.eb文本中获取的信息。然后论述了文档对象模型(DOM)
和信息抽取技术,通过对HTML解析把非结构化的W_eb文本变成DOM,获得所
需的标题、作者以及内容等信息,并为后续获得其他所需信息的信息抽取操作提
供了结构化模型。在信息抽取过程中采用了文本分词、关键词提取、自动摘要提
取以及文本分类技术。由于分词技术已经比较成熟,本文采用了中科院IcTcLAS
分词系统;在关键词提取中采用基于词共现模型的方法;在摘要提取的过程中,
使用了一种改进的基于统计的摘要提取技术,获得流畅的摘要,达到了较好的效
果;本文还设计了一种二维的SVM—KNN的文本分类方法,解决了SVM中对核
函数的依赖问题,并且采用了KNN算法的高准确性,获得了较好的分类效果。
根据以上研究成果,本文描述了系统的设计方案和实现过程。
关键词:w曲文本数据仓库预处理信息抽取文本分类
Abstract
Abstract
Withthe ofIIltemet aJldmore needed
developmenttecllIlology,morepeopleget
resourcesformW曲.Asvariousresourcesinwebsiteis a
imlumerable,includingla唱e
theconstmctionofW曲textdata
of andmore.On warehouse,it
quantityimages,text
hasbeena on thathowtomaketheun§i-mcturedW曲
keytechnologypreprocessing
text usemlinf.0珊ationto advaIlced a11dload.
stmcture,extmct support application
This takesa ofW曲textdatawaurehouseasan
paper preprocessingsystem
fbcusonthe of
example,and keytechnologypreprocessing.Firstly,thepaperproposes
the usedtobuildtheW色btextwarehouseand itsstar
topic—basedapproach design
schematoobtaintheextmctedinfomation厅om Object
HTML
infomationextraclion is the
Model(DOM)and technologydetailed.Through
DOMis f-romtheunstructured
文档评论(0)