- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种面向隐含主题的上下文树核AContextTree-电子与信息学报
第 32 卷第 11 期 电 子 与 信 息 学 报 Vol.32No.11
2010 年 11 月 Journal of Electronics Information Technology Nov. 2010
一种面向隐含主题的上下文树核
徐 超 周一民 沈 磊
(北京航空航天大学计算机学院 北京 100191)
摘 要:该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方
法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,
最后利用模型间的互信息构造上下文树核。该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建
模时所遇到的统计数据的稀疏性问题。在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度
量文本间主题的相似性,提高了文本聚类的性能。
关键词:文本聚类;上下文树核;统计语言模型;隐含狄利克雷分配(LDA)
中图分类号:TP391 文献标识码: A 文章编号:1009-5896(2010)11-2695-06
DOI: 10.3724/SP.J.1146.2009.01493
A Context Tree Kernel Based on Latent Semantic Topic
Xu Chao Zhou Yi-min Shen Lei
(School of Computer, Beihang University, Beijing 100191, China)
Abstract: The lack of semantic information is a critical problem of context tree kernel in text representation. A
context tree kernel method based on latent topics is proposed. First, words are mapped to latent topic space
through Latent Dirichlet Allocation(LDA). Then, context tree models are built using latent topics. Finally, context
tree kernel for text is defined through mutual information between the models. In this approach, document
generative models are defined using semantic class instead of words, and the issue of statistic data sparse is solved.
The clustering experiment results on text data set show, the proposed context tree kernel is a better measure of
topic similarity between documents, and the performance of text clustering is greatly improved.
Key words: Text clustering; Context tree kernel; Statistical language models; Latent Dirichlet Allocation (LDA)
1 引言
您可能关注的文档
- “纠正偏差行为的教学活动设计”简章 - 新纪元大学学院.PDF
- “解剖原子”.PPT
- “美敦力”安信诺核磁共振植入式心脏节律器“Medtronic”EnsuraDR.PDF
- “越界”舰艇警告式射击.PDF
- “露香园路旧改”的示范意义 - 东方网.PDF
- “鉴别”、“检查”和“含量测定”.PPT
- ①实测地层剖面.PPT
- “食物”放大镜—优酪乳.DOC
- 《2014年世界投资报告》:聚焦可持续发展目标 - 博鳌亚洲论坛.DOC
- ◎数字系统介绍一个数目是由一串数字与符号所组成,为了避免混淆,会.PDF
- 高端制造行业策略报告:成熟制造扬帆出海,创新引擎加速国产替代——全球价值链重构下的结构性机遇.pptx
- 化工行业年度策略深度剖析:跨越行业低点,精准把握复苏契机,拥抱确定性周期成长机遇.pptx
- 钢铁行业策略:供需矛盾与结构升级交织,以韧性增长行稳致远.pptx
- 煤炭行业策略深度剖析:煤价回调蓄势待发,旺季需求释放可期,精准布局投资先机.pptx
- 高三第一学期语文第一次学情检测试卷.docx
- 2024-2025高二下学期名校考试题【文言文阅读】精选一.docx
- 2024-2025学年度高一下学期试题【信息类文本阅读】精选一.docx
- 2024-2025学年度高一下学期试题【语言文字运用】精选一.docx
- 2024-2025高二下学期名校考试题【文学类文本阅读】精选一.docx
- 【小说阅读】2025届高三下4月名校模考试题精选.docx
最近下载
- GB∕T38305-2019头部防护救援头盔..pdf
- 2024届湖南省张家界市慈利县高一物理第二学期期末达标检测模拟试题含解析.doc VIP
- 通信铁塔标准图集(V1.0).pdf VIP
- 选矿试验技术方法 第5部分:浮选.docx VIP
- 《选矿试验技术方法第4部分:磁选》.pdf VIP
- 上市公司董事会秘书工作手册-信息披露政策法规汇编(通用) 20240627.pdf VIP
- 高标准农田设计实施方案(技术标340页).doc VIP
- 1688店铺运营计划方案.pdf VIP
- 《医学伦理学》教案 第四章 医学伦理学的规范体系.pdf VIP
- 《选矿试验技术方法 第1部分:破碎筛分》.pdf VIP
文档评论(0)