文本挖掘论文竞争对手网站商业情报挖掘.docVIP

  • 0
  • 0
  • 约5.35千字
  • 约 6页
  • 2016-10-07 发布于重庆
  • 举报

文本挖掘论文竞争对手网站商业情报挖掘.doc

文本挖掘论文竞争对手网站商业情报挖掘

文本挖掘论文:竞争对手网站商业情报挖掘 【中文摘要】作为一个广泛流行的交流渠道,网络正越来越吸引的公司把他们的信息公布到互联网上。随着竞争对手的信息公开,对于一个公司而言,得到有关竞争对手的商业情报及其竞争优势的机会已然到来。然而,要从竞争对手的网站上找到有价值的信息并不是一件简单的事情,因为:第一网页数量如此众多以至于手工寻找这类信息根本不可行;第二如果没有汇总分析,实体间的模式和隐藏的关系是发现不了的。信息检索的应用软件,尤其是网络搜索引擎,能克服前面提到的第一个困难。但使用搜索引擎,需要用户给出其具体而详尽的需求。在寻找那些未知信息时,这种需求在结果没有呈现出来以前是模糊的。搜索引擎也缺乏对文档检索的分析,文档上的模式也不容易找到,所以目前的搜索工具对于获取商业情报的能力是有限的。为从竞争对手网站挖掘到那些用户无法描述清楚或根本不知道但对用户很有用的信息,即挖掘商业情报,我们使用了一些新的概念和方法,比如拿用户自身网站作为背景知识的来源,因为我们有足够的理由假定,相似的公司应该具有相似的基本信息,从事相同行业的人应该懂得这个行业的一些基本知识。然后我们将用户自身网站与竞争对手网站的内容进行对比挖掘,比较方法因具体的不同需求而不同,但核心都是挖掘关键词及其在文档中的出现频率,然后对它们进行分析比较以过滤那些无用的信息得到想要的结果。可是与西文网站相比,对中文网站的挖掘还有一个难处就是中文句子里的词与词之间没有显式分隔标记,要想挖掘到有用信息首先就要对文本进行中文分词。无词典分词是基于文档中词的统计信息来识别词的,它在未登录词(人名、地名、企业名等)以及领域内专业名词的识别上有很好的优势。本文研究了一种基于后缀数组的无词典分词方法,改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数,提高了其运算的速度。同时我们还介绍了三种典型的分词词典机制并设计了一个新的分词词典机制——双字哈希-词尾PATRICIA tree机制,该机制利用了已有线性词典机制随机访问快的优点同时又结合了PATRICIA tree查找速度快的优点,对于中文分词的速度有较大提高。 【英文摘要】As a popular communication channel, the Web has attracted more companies to publish their information online. With more competitors抜nformation publicly available, it has become an opportunity for a company to know more about its competitors and gain business intelligence and competitive advantage. However, finding valuable information from competitors抴ebsites is not an easy task, because first the number of web pages is so large that it is not feasible to seek such information manually, and second, patterns and hidden relationships between entities cannot be found without a collective analysis.Information retrieval applications, especially web search engines, can be designed to overcome the first difficulty. But to use search engines, a user has to know his/her information need to formulate the query. In the circumstances of finding unexpected information, such information needs remain unclear until the results are presented. Search engines also lack of analysis of retrieved documents; patterns across documents cannot be found easily. Current search tools抋bility

文档评论(0)

1亿VIP精品文档

相关文档