- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1
PAGE 1
文本挖掘抢占商业智能掘金制高点
某业内人士对商业智能在现代社会的重要性曾做过如下比方,《世说新语》中讲:“盲人骑瞎马,夜半临深池。” 某业内人士对商业智能在现代社会的重要性曾做过如下比方,《世说新语》中讲:“盲人骑瞎马,夜半临深池。”这短短十个字隐蔽了四个危急:由无知的经理人来经营企业,就犹如“盲人骑马”,这是第一个危急;依靠无知的员工,就犹如“骑瞎马”,这是第二个危急;参与激烈的市场竞争,就犹如“临深池”,这是第三个危急;在全球经济不景气的时候参与激烈的市场竞争,就犹如“夜半临深池”,这是第四个危急。所以“无知”,已成为企业最大的威逼。 互联网时代,网络中充斥着海量信息,企业需要对它们进行合理及有效地利用,从而帮助企业在业务管理及发展上做出准时、正确的推断,然后采取明智的行动,做到在竞争中占据主动权。互联网上流传着这样一个“尿布和啤酒”的经典故事:美国一家大型超市利用数据挖掘技术来分析他们的销售纪录,发觉尿布和啤酒的销售量之间存在相当大的关联性。经过进一步的调查,找到了产生这个现象的原因,在美国负责为孩子购买尿布的年轻父亲们,许多时候会顺带给自己买些啤酒,于是超市采取措施将尿布和啤酒放在一起,结果两种产品的销售量都得到了增长。由此可见,数据爆炸时代,“商业智能”(BI)能够摒弃企业的无知,为企业发展创造出巨大的价值。 另外,我们也应了解在信息社会,信息并不是单一的,而是分为两大类:一类信息为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,我们称之为非结构化数据。目前,随着网络技术的发展,特殊是Internet和Intranet技术的飞速发展,非结构化数据的数量日趋增大。据统计,现今企业中80%的数据是以非结构化的形式存在,如WEB页面、技术文档、电子邮件等。因此,商业智能除了要面对结构化数据外,更多时候是需要处理无序的非结构化数据。于是,一个从非结构化文本信息中获取用户感兴趣或有用信息的技术——“文本挖掘技术”发展起来,人们常说的文本驱动的商业智能,就是指的文本挖掘技术。文本挖掘是数据挖掘技术的分支,它能够使人们从大量冗余的信息中快速发觉对自己有用的信息,并在一定程度上揭示信息与信息之间的关联。有人说文本挖掘是互联网时代,继门户、搜寻引擎和Web2.0之后最重要的技术之一,纽约时报甚至称它为Web3.0。 文本挖掘作为人们挑战信息爆炸式增长与信息有效利用之间矛盾的重要武器,受到世界的广泛认可,目前国际上很多企业都在进行文本挖掘技术的研究,并取得一定成果。但在我国,文本挖掘技术发展历史比较短。某一业内人士说:“虽然我国文本挖掘技术的发展研究还处于初级阶段,但想把国外的文本挖掘技术直接在我国进行利用,可以说是一件比较困难的事情,因为中文与西方文字是不同。如我要搜寻‘可乐’一词,国外的技术可能会把‘太可乐了’等众多不相关词语搜寻出来。” 比较而言,国内本土的软件企业在发展文本挖掘技术上却具有先天优势,如在中文分词,习惯用语理解等方面。另外,做好中文文本挖掘技术还需要超越绝大多数现有搜寻引擎所采用的单纯基于特定关键字的查找匹配方式,而要在一定程度上去实现基于语义的搜寻,即无论文中出现的是“笔记本”,“本本”,还是“laptop”,当我们在查找“笔记本”时,这篇文章都应当作为结果返回。但满意以上要求并不是简单的事情,它需要在数据库和信息检索技术等方面具有长期的积累、也需要算法的高效,系统的稳定和可扩展性。 据了解,在数量众多的拥有文本挖掘技术的厂商中,北京拓尔思(TRS)信息技术股份有限公司是国内第一家拥有真正实用化文本挖掘产品的企业。TRS文本挖掘技术有效结合自然语言处理技术、统计分析和机器学习技术及语言学问库,实现了中文文本挖掘技术的商业化应用,并在外交部、新华社、宝钢等多家政府、媒体和企业项目中经受住了海量信息和复杂环境的考验。 依据2007-2008中国商业智能市场发展报告统计:从全球范围来看,商业智能已经成为最具有前景的信息化领域;从国内来看,商业智能是企业信息化中最重要的组成部分。但在我国,文本挖掘究竟是一门新兴的前沿技术,还有诸多问题等待研究、解决,同时也需要对人才进行储备。为了推动文本挖掘技术整体水平向前发展;查找、发觉、选拔更多的高学问型专业挖掘技术人才投入到文本挖掘事业中来,为文本挖掘技术的前进供应有力的后续保障,“数据挖掘研究院”联手TRS公司共同举办了“2008TRS杯中国首届文本挖掘智能大赛”。 商业智能提升了企业对市场的洞察力,文本挖掘成就了商业智能在互联时代的重要作用。不难想象,随着社会经济的快速发展,文本挖掘技术的应用将越来越广泛,商业智能也必将成为企业在
文档评论(0)