- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1
PAGE 1
整合文本挖掘的商务智能系统结构分析
针对当前商务智能系统对文本类资源的处理功能缺失,引入文本挖掘的概念,分析文本挖掘的过程、特点和处理方法。在此基础上设计了—个具有文本挖掘功能的商务智能系统架构,并对其中的一些关键技术,如数据预处理技术、文本聚类算法和文本分类算法等文中挖掘算法进行具体分析,以期对当前商务智能系统的功能的扩展有所帮助。 0引言 随着企业信息化的深入发展和数据、信息、学问的不断增加,商务智能应运而生,并伴随数据仓库、联机分析处理(OLAP)和数据挖掘等技术的日趋成熟而快速发展。从起初人们对商务智能的引入到现在作为信息化的一个热点领域,吸引广阔不同专业背景的学者对其进行研究;bk开始商务智能项目实施的数据驱动模式到现在的业务驱动模式。这些都印证了我国商务智能快速发展的态势,但在发展过程中,人们也渐渐熟悉到商务智能并非万能,假如能更好地突破现有瓶颈,商务智能的发展前景将更为宽阔,其中对文本数据源处理的缺失,就是值得关注的一个方面。 1商务智能 当前数据处理系统的目标已变成商务领域信息处理的快速化、成本降低和自动化。决策者熟悉到企业生存依靠于有效的信息,如使用ERP,CRM等软件工具辅助企业管理与决策,但结果是这些系统产生了大量的数据,而这些数据都需要进一步的分析才能充分地发挥自己的价值;另一方面,随着全球化的连续推进和组织的日益分散化,使得认清市场趋势和收集竞争者的信息变得尤为重要,这就要企业对市场变化做出快速反应,但这些信息分布在很多系统中,甚至在不同的国家,这就使得有效利用数据变得异常困难。有效的信息处理是维持竞争优势的一个打算性因素,而商务智能正是对这些问题做出的有力回答。 1.1商务智能定义 商务智能BI(BusinessIntelligence)于1989年由GartnerGroup的HowardDresner首次提出,它描述了一系列的概念和方法,并通过基于事实的支持系统来辅助商业决策的制定。之后随着商务智能的深入发展和人们对其熟悉的加深,不断有不同的商务智能的定义出现。文中采用2007年Gartner商务智能峰会对BI的重新定义,即BI为一个伞状的概念,它包括了分析应用、基础架构和平台和良好的实践。数据仓库、数据标准等平台已经涵盖在BI范畴里。BI已不再仅仅是前端呈现工具。商务智能已经开始成为一种用于描述企业范围内使用数据、分析信息、制订决策和管理绩效的原则的术语。而且组织应当用全面的绩效提升来衡量商务智能的成功。衡量BI的成功与否,不再是数据组织的有序、数据的ETL过程的更完美,不再是异构数据的集成能力,也不再是数据变换和数据归约的强大功能,而是BI是否有助于促进企业业绩的提升。此外,BI分析型系统应当强调和形成效果,也就是说,BI必需要促进和业务或某一方面业务的顺当绽开,提升业绩。BI的核心在于应用,这也是BI实践者在工作中的真实体会。 1.2商务智能的缺陷 当前商务智能的发展取得了许多可喜的成就,照实施模式从数据驱动转变到业务驱动,利用ETL提高数据质量,技术实现开始围绕业务需求设计等。当前市场上BI产品许多,有Microsoft的SQLServer2005,BusinessObiects的BusinessObjectsXI3.0,SAS的SAS@等。特殊是加07年,信息软件产品领域的巨人IBM和SAP分别通过巨资收购Cognos和Businessobjects来大举进军商务智能市场,突显BI市场的宽阔前景。但分析这些产品和总结当前理论研究来看,商务智能还存在许多不足,其中不能充分对文本类资源进行分析与处理是急需解决的。 因为当前企业中充斥着这种文本资料,如各种文书、技术报告、E-MAIL、市场报告等。过去的40几年里,每年在联机医学文献分析和检索系统中出版的摘要以五倍的速度增长。而且超过1200万甚至更多的在线资源都是全文本的文章。除了这些,还有专利、内部报告和其他潜在可获取的公开资源。尽管有一小部分信息是以结构化的形式存在于数据库中,但80%的信息是以自然语言组织的非结构和手写资源。如何将这些资源也充分地整合到商务智能的数据源中,进行和结构化数据一样的分析和处理,是要深入研究的,而文本挖掘作为数据挖掘的一个分支为解决问题供应了一个很好的方法。 2文本挖掘 文本挖掘(TM,TextMining)是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从文本数据中发觉和提取独立于用户信息需求的文档集中的隐含学问。它是一个从文本信息描述到选程。 2.1文本挖掘的发展 文本挖掘之前,用信息抽取技术(Informa
文档评论(0)