- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于频繁项集的海量短文本聚类与主题抽取.pdf
计算机研究与发展 D()I:10.7544/issnlOOO一1239.2015
JournalofComputerResearchandDevelopment 52(9):1941一l953,2015
基于频繁项集 的海量短文本聚类与主题抽取
彭 敏 黄佳佳 朱佳晖。黄济民 刘纪平
(武汉大学计算机学院 武汉 430072)
(武汉大学深圳研究院 广东深圳 518057)
。(软件工程国家重点实验室(武汉大学) 武汉 430072)
(pengm@whu.edu.cn)
M assofShortTextsClusteringandTopicExtractionBasedonFrequentItemsets
PengMin ,HuangJiajia,ZhuJiahui。,Huangdimin ,andLiudiping
(ComputerSchool,WuhanUniversity,Wuhan430072)
(ShenzhenResearch,WuhanUniversity,Shenzhen,Guangdong 518057)
。(StateKeyLaboratoryofSoftwareEngineering(WuhanUniversity),Wuhan430072)
Abstract Shorttextsgenerated in socialmediahavethe characteristicsofvolume。velocity。low
qualityandvariety,thusmakethevector-space—basedclusteringmethodsfacethechallengesofhigh—
dimensions,featuressparsityandnoisydisturbing.Inthispaper,weproposeashorttextsclustering
andtopicextraction (STC—TE)frameworkbasedonthefrequentitemsetsm inedfrom thetexts.This
framework firstly studiesthe impactofmulti—featureson the shorttexts’quality.Then,a Iarge
amountoffrequentitemsetsaredugoutfrom thehighqualityshorttextsetviasettingalow support
level,andasimilaritemsetsfiltering strategyisdevisedto discardmostoftheunimportantfrequent
itemsets.Furthermore,based on the frequentitemsets similarity evaluatedbyrelevanttexts,we
proposed aclusterself—adaptive spectralclustering (CSA SC)algorithm to form the itemsetsinto
—
differenttopicclusters.Atlast,thelarge—scaleofshorttextsareclassified into associated clusters
accordingtothetopicwordsextractedfrom thefrequentitemsetclusters.Theframeworkistestedon
onem illion of SinaW eibo dataset to evaluate the performance ofthe important frequentitemset
selectionandclustering,thetopicwordsextraction,andthelargescaleofshorttextsclassification.
Experimentalresul
您可能关注的文档
- 基于DEA-Malmquist指数的四川创新科技效率评价分析.pdf
- 基于DE-ELM的林业信息文本分类算法.pdf
- 基于DNA组装的纳米光电技术新进展.pdf
- 基于DSP的液压伺服系统模糊神经网络PID控制.pdf
- 基于D-S证据理论的岩体质量分级组合评价方法.pdf
- 基于Duffing系统的凸极同步发电机匝间短路故障谐波电流检测方法.pdf
- 基于FACT-Hep量表的肝癌患者生活质量影响因素分析.pdf
- 基于FCM聚类的土地项目融资风险研究.pdf
- 基于GA-ELM浆体管道输送临界流速预测模型研究.pdf
- 基于Gene Ontology的MicroRNA功能聚类.pdf
- 基于平行因子法分析湖泊沉积物间隙水中DOM的三维荧光光谱.pdf
- 基于平衡计分卡的纳税服务绩效管理研究.pdf
- 基于脯氨酸仿生合成的纳米TiO_2吸附牛血清白蛋白行为的研究.pdf
- 基于前列腺影像报告和数据系统评估T2WI联合分段读出弥散加权成像诊断早期前列腺癌的价值.pdf
- 基于情景模拟的长江三角洲极端降水风险评价.pdf
- 基于穷举法的三值FPRM电路功耗最佳极性搜索.pdf
- 基于全自动毛细管电泳技术建立的单核细胞增生李斯特氏菌MLVA分型方法.pdf
- 基于人工噪声辅助的D2D异构蜂窝安全通信方法.pdf
- 基于弱极性溶剂萃取的白兰花开花过程7个阶段风味物质的成分分析.pdf
- 基于商品属性与用户聚类的个性化服装推荐研究.pdf
最近下载
- (施工组织设计汇总)施工组织设计编制说明、工程概况、施工准备.doc VIP
- 陕西省高速公路施工标准化指南 施工标准化(第二册).pdf VIP
- 生长发育与儿童保健.pptx VIP
- 2025年中考数学---《一元二次方程之实际应用》知识点总结与专项练习题精品.pdf VIP
- 设计师在非正式合作城市开发项目中的参与及角色分析——重庆黄水镇地产项目为例.pdf VIP
- 小学生吸尘器课件.pptx VIP
- (新人教版)八年级英语上册Unit 1大单元教学设计.docx
- 刍议基于建筑外墙防渗漏技术的施工.pdf VIP
- 大学语文——特洛伊_赫克托耳之死.ppt VIP
- 儿童保健:儿童生长发育规律.pptx VIP
文档评论(0)