文本OLAP关键技术研究.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本OLAP关键技术研究 张超 2011.12.16 研究背景 OLAP技术:联机分析处理( online analytical processing )是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术 在各类商业系统中,随着文本信息量的大规模增长,来同时分析结构化数据和分析文本信息的需求越来越强烈,但传统的OLAP系统对于分析和挖掘结构化数据非常有用,但在处理文本信息的时候却无能为力 从海量的数据中挖掘出有用的信息,对于电子商务、商业智能、民意调查等领域的发展具有重要意义 目的:对现有的OLAP进行改进,使OLAP支持非结构化的文本分析,称为文本OLAP OLAP的基本概念 OLAP展现在用户面前的是一幅幅多维视图 维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等) 维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年) 维的成员(Member):维的一个取值,是数据项在某维中位置的描述 度量(Measure):多维数组的取值 商品名称 销售日期 销售商店 商品种类 销售数量 产品介绍 用户评论 苹果iphone4 2011.12.13 北京 手机 ××× D {documents1} 三星I9000 2011.10.03 北京 手机 ××× D {documents2} 苹果iphone4 2012.12.13 济南 手机 ××× D {documents1} 最新的iPhone 4相比于前三代产品无论是在硬件配置和软件上都有了较大的升级,采用了1GHz的苹果A4处理器,搭载3.5英寸960x640分辨率的屏幕。正面副摄像头具备视频通话功能同时背部500万摄像头支持720P高清摄像。软件方面iPhone 4将会成为首款搭载iOS4.3操作系统的手机。这款手机毫无疑问成为年度最重磅的明星产品。 三星Galaxy S这款手机外观上材料舒适,让人惊叹的9.9毫米厚度和4.0寸屏幕的运用让人看到了全新的银河系列。而随后的1GHz处理器,Android2.1操作系统+TouchWiz3.0界面的组合既让人们体会到了Android系统的丰富同时还体现了差异化。漂亮的外观、超薄设计、超大屏幕、超高配置、超炫屏幕,在面对这款三星2010年Android诚意之作,Galaxy S名至实归。 相关研究 常用的文本OLAP技术有三种:文本挖掘(Text Mining, TM),信息检索(Information Retrieval, IR)和信息抽取(Information Extraction, IE) 基于TM的文本OLAP 利用TM的方法,我们可以在文档集上进行分类、聚集、摘要或抽取关键词等操作。通过这些TM操作,我们可以进行多角度的分析,例如将文档分类,文档聚类和自动摘要(XML-OLAP ,DocCube ,Topic Cube) 基于IR的文本OLAP 利用IR技术,我们可以从文档中抽取关键字和计算关键字的权重。在IR系统中,每个文档都被看作是关键字的集合,一个基于关键字的查询是用来检索和关键字最相关的文档(Document Cube,Text Cube,Multidimensional IR) 基于IE的文本OLAP 使用IE技术,可以从文本文档中抽取数据。基于结构化数据的模式,我们可以使用自然语言处理技术从文档中抽取实体实例或实体间的关系(SIE-OBI,TUBE,LIPTUS) 文本维的扩展 利用信息抽取技术,从文本描述中抽取附加维(属性-值对),以达到扩展OLAP分析维度的目的 提出一种半监督的抽取算法,发表于WISM2011, 《Extracting Dimensions for OLAP on Multidimensional Text Databases》 抽取算法只需要很少的用户参与 (1)种子生成:在未标记的文本信息中,自动抽取一些种子作为训练数据 (2)实体抽取:使用半监督的分类算法,将词分成属性和值两类 (3)寻找关系:寻找属性和值的连接来形成属性-值对,完成抽取操作 文本度量-意见集成 意见的来源:论坛、博客、购物网站等的用户评论 为什么要进行意见集成? 随着互联网的普及与发展,越来越多的用户通过博客、论坛等方式表达意见与观点,这使得用户不仅是网站的浏览者,也成为了信息的发布者。这些信息使得Web成为一个巨大的数据源 从海量的数据中挖掘出有用的信息,对于电子商务、商业智能、民意调查等领域的发展具有重要意义 基于LDA的意见集成--意见的分类 百科意见:如iphone4的维基百科 特点:容易获取,主题明确,即时性弱 普通

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档