Web数据挖掘及其教育应用技术分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目前国内外很多人都采用该方法来研究某领域的论文产出与分布,发展状况,研究热点的变迁以及发展方向。 本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型;其次为了提高分析的精度,构建了主题词集;最后将主题词集运用到分词与索引中,并进行了统计分析。 3.3 Web文本挖掘 4、页面主题抽取和分类的步骤 (1)分词 西文文本中词与词之间存在空格,可以直接获取其中的单词,而汉语则不同,不同的切分会导致不同的语义,因此需要根据上下文进行有效的切分。方法主要包括词典分词法、切分标记分词法、单汉字法、智能分词法等,其中词典分词法简单、易于实现,广泛应用于实际工程中。当然这种方法也存在着匹配速度慢,词典的功能越强,词典中词条的数目就越大等缺点。然而,对企业门户内容的分词而言,一方面跟踪的页面更新不会太大,初次建库时工作量大而后续的工作量则相对小;另一方面,对于某些具体的行业而言,由于受到行业词汇的限制,词典构造也相对容易。为了能够适应不断发展的需要,分词系统应对词典有一套完整的维护机制和控制手段。 目前国内外很多人都采用该方法来研究某领域的论文产出与分布,发展状况,研究热点的变迁以及发展方向。 本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型;其次为了提高分析的精度,构建了主题词集;最后将主题词集运用到分词与索引中,并进行了统计分析。 3.3 Web文本挖掘 4、页面主题抽取和分类的步骤 (1)分词 虚线部分表示这部分工作只需要在对企业门户的初次挖掘时进行,在以后对变化(主要是新增加)的页面进行分词时,可以直接输出分词结果。 Web文本的自动分词 目前国内外很多人都采用该方法来研究某领域的论文产出与分布,发展状况,研究热点的变迁以及发展方向。 本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型;其次为了提高分析的精度,构建了主题词集;最后将主题词集运用到分词与索引中,并进行了统计分析。 3.3 Web文本挖掘 4、页面主题抽取和分类的步骤 (1)分词 例:以电信设备行业为例,解释页面的分词过程: 1)从,,等首页上人工提取关键词(如交换机、GSM、通信等行业名词)以及根据后续情报分析体系(如Tyson体系)主题词,建立初步切分词表。 2)从首页链接开始逐个页面根据初步建立的分词表进行分词,并统计每个页面出现频率最高的几个词(一般为3~5个)或者出现频率超过一定的次数的词,经过几重后,加入到切分词表中。 3)重复过程(2),直到前、后两次分词结果相似度大于一定阈值,分词结束。 目前国内外很多人都采用该方法来研究某领域的论文产出与分布,发展状况,研究热点的变迁以及发展方向。 本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型;其次为了提高分析的精度,构建了主题词集;最后将主题词集运用到分词与索引中,并进行了统计分析。 3.3 Web文本挖掘 4、页面主题抽取和分类的步骤 (1)分词 对于Web文本的分类,则可以根据分词的结果进行,首先将Web页面用一组关键词来表示,如{C1,C2,…,Cn},为了便于计算,需要将其转化成数字量的向量,通常根据一定的规则给这些词赋以不同的数值,最简单的方法就是根据各关键词在某Web页面上出现的频率进行赋值,如 pi=mi/n 式中,mi为某词Ci在该页面上出现的次数,n为该页面所有词数。为了避免诸如“的”、“了”等无实在意义的字影响分类结果,一般应该设置停用字表来处理。 目前国内外很多人都采用该方法来研究某领域的论文产出与分布,发展状况,研究热点的变迁以及发展方向。 本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型;其次为了提高分析的精度,构建了主题词集;最后将主题词集运用到分词与索引中,并进行了统计分析。 3.3 Web文本挖掘 4、页面主题抽取和分类的步骤 (1)分词 由于关键词的出现概率可能有大量为0的情况,可以对上述计算方法进行一定改进,如 pi=(λ+mi)/n 即加上λ这个常数

文档评论(0)

武神赵子龙 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档