- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1页/共31页ContentsCarrot2体系结构Carrot2聚类算法Lingo STCCarrot2 ApplicationsWebapp Workbench DCSCarrot2 source code下载与配置、运行Carrot2 core、Attribute可用资源第2页/共31页Carrot2简介Carrot2 is an Open Source Search Results Clustering Engine 。Author:http://www.cs.put.poznan.pl/dweissDawid Weiss /Stanislaw Osinski 波兰人,波兹南大学 研究方向:text clustering, information retrieval, web mining, computational linguistics and software engineering 第3页/共31页Carrot2体系结构Carrot2是一个开源的基于搜索结果的聚类引擎 第4页/共31页Lucene索引结果Lucene索引index由若干段(segment)组成,每一段由若干的文档(document)组成,每一个文档由若干的域(field)组成,每一个域由若干的项(term)组成。项是最小的索引概念单位,它直接代表了一个字符串以及其在文件中的位置、出现次数等信息。域是一个关联的元组,由一个域名和一个域值组成,域名是一个字串,域值是一个项,比如将“标题”和实际标题的项组成的域。文档是提取了某个文件中的所有信息之后的结果,这些组成了段,或者称为一个子索引。子索引可以组合为索引,也可以合并为一个新的包含了所有合并项内部元素的子索引。第5页/共31页第6页/共31页Carrot聚类算法Lingo:基于奇异值分解的索引结果聚类算法首先确定可感知的类标签,然后将文件分配到类中Preprocessing预处理Filtering文本过滤、stemming提干、stopword去除停用词Frequent phrase extractionCluster label inductionCluster content discoveryFinal cluster formation第7页/共31页Carrot2聚类算法STC(Suffix Tree Clustering)后缀树聚类算法,一种On-line聚类算法(1)将文档片段作为输入而不是整篇文档(2)聚类算法必须足够快速实现在线计算(3)生成的类簇必须是终端用户可读的描述STC将文档作为字符串来处理,利用文档间相似信息STC是新颖的、增值的、O(n)时间复杂度STC快速的为用户总结出类簇内容STC处理小数据集,所以耗时较少第8页/共31页后缀树包含了一个或者多个字符串的所有后缀,空字符串也算是其中的一个后缀例如:banana后缀为:banana anana nana ana na a 空一般来说后在字符串末尾加$特殊字符作为结束标记后缀树:有根节点的有序的树每个内部节点至少有2个子节点每条边以S的非空子字符串做标签,节点的标签定义为从根节点到该节点路径上的标签的串联同一节点出发的两条路径不可能以同一词开始 第9页/共31页Example第10页/共31页STC步骤:一、文档清洗tagger stemmer 句子边界界定 stop word二、标识基础类簇(1)通过文本预处理将文档表示为词的序列,构成后缀树;(2)利用后缀树找到基类簇,至少被两个文档包含的短语称为短语束,基类簇就是要找到最大短语束B,用来描述相关短语mB和出现该短语的文档dB,并计算各个基类簇的值S(B);三、合并基础类簇合并基类簇,为了避免出现非常类似的基类簇,可以设置一个阈值k第11页/共31页Carrot2 Applicationsworkbench Carrot2文档聚类平台,是一个独立的GUI程序,可以用来对一般搜索引擎数据或你自己的数据进行聚类实验。DCS Carrot2文档聚类服务器,将Carrot2聚类作为REST服务呈现。Webapp Carrot2网络应用,可以将Carrot2聚类作为终端用户的网络应用呈现。第12页/共31页Workbench聚类平台下载carrot2-workbench-win32.win32.x86-3.1-dev.zip解压,执行carrot2-workbench.exe!Problem源码运行出错上次的问题,查询Lucene索引时没有聚类结果,需要重启workbench聚类效果不佳,类簇标签多是期刊号等非重要信息,前期预处理没有过滤掉。第13页/共31页第14页/共31页webapp下载carrot2-webapp-3.0.war将其放于
您可能关注的文档
最近下载
- 大众奥迪诊断系统ODIS7.21用户手册.pdf VIP
- 小学数学与科学跨学科课程融合人工智能的实践研究教学研究课题报告.docx
- 福建奔驰-威霆-产品使用说明书-威霆 2013款 3.0L-FA6523-威霆用户手册.pdf VIP
- 闭合导线计算表(自动计算).xls VIP
- 水浒传游戏.doc VIP
- 2025年中心医院医务科工作总结及2026年工作计划.docx VIP
- 2025年医务部年底工作总结及2026年工作计划.docx VIP
- 2025年度医务部工作总结及2026年工作计划.docx VIP
- 红警游戏中的中英文对照(国外英文资料).docx VIP
- 工程应用中高振荡函数积分的高效算法的开题报告.docx VIP
原创力文档


文档评论(0)