- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向社会化媒体内容的若干聚类算法研究-计算机软件与理论专业论文
Classified Index: TM301.2 U.D.C: 62-5Dissertation for the Doctoral Degree in EngineeringRESEARCH ON CLUSTERING ALGORITHMS FOR SOCIAL MEDIA CONTENTCandidate:Li ChunshanSupervisor:Prof. Ye YunmingAcademic Degree Applied for: Doctor of EngineeringSpecialty:Computer Software and TheoryA?liation:School of Computer Science and TechnologyDate of Defence:March, 2014Degree-Conferring-Institution: Harbin Institute of Technology摘 要摘要以Web 2.0为代表的社会化媒体服务迅猛发展,改变了传统的信息传播方 式,使得互联网用户从以往被动地接受信息走向主动对信息进行创造,产生了 无穷无尽的文本数据。与此同时,社会化媒体服务还将现实社会关系映射到了 互联网中。面对社会化媒体中海量、有价值的数据,科学家们掀起了研究的狂 潮。然而,与以往的数据相比,社会化媒体中的文本,链接数据拥有一些新的 特性(多噪声、高稀疏、短文本、动态性、缺失值),这导致了传统的聚类方法不 能直接的应用于社会化媒体中的数据。近几年科学家们提出一些针对社会化媒 体数据新特性算法,如图聚类模型,主题模型等。但这些聚类研究存在如缺少 对数据整体分布的学习、缺乏数据之间关系的分析及缺乏系统性等缺点,并且 研究方法寥寥可数。本文在现有研究工作的基础上,针对社会化媒体数据新特性,结合图聚类 及主题模型最新研究成果,提出一系列新颖的、针对社会化媒体内容的聚类方 法。主要研究工作和创新包括:(1) 针对多噪声网页内容聚类问题,提出基于网页DOM树结构的网页分块算 法(TPS)和基于图分割的网页分块算法(GPPS)。这两个算法探索社会 化 媒 体 网 页 中 语 义 模 块 与 网 页DOM树 子 树 结 构 的 对 应 关 系,将 一 个 网 页 视 为 多 个 主 题 信 息 块 的 集 合,并 通 过 解 析 网 页DOM树 子 树 结 构 中 包 含的语义信息,将一个网页分割成为多个独立主题的语义模块。TPS算 法 通 过 定 义DOM树 中 的 语 义 子 树 将 一 个 网 页 分 割 成 为 不 同 语 义 模 块。 GPPS算法将DOM树转化为一个有向图,并通过图聚类算法来发现网页 的语义子模块。在社会化媒体网站数据上的实验结果表明,与仅搜索网 页DOM树节点属性和视觉信息的传统算法相比,TPS和GPPS两个算法的 分块效果精度更高,鲁棒性更强。这两种算法可以用来去除网页中的噪 声文本,是其他工作的前置步骤。(2) 针对文本流数据中的突发词聚类问题,提出基于主题的突发事件侦测算 法(TBE)。该算法首先使用高斯分布检测时间域上的突发词。接着,该 算法同时考虑突发词之间的共现关系和文本集中的潜在主题信息对突发 词进行聚类,得到了时间间隔中的突发事件。最后,TBE算法通过概率 可能性估计出事件主题。该主题用来在时间域内追踪突发事件的发展。 本文中TBE算法还设计事件可视化技术来展示算法发现的事件。在社会I -哈尔滨工业大学工学博士学位论文化 媒 体 中 博 客 数 据 和Reuter新 闻 数 据 上 的 实 验 结 果 表 明,TBE算 法 事 件发现的效果优于当前最好事件发现算法HBE算法。(3) 面对传统的TDT问题,将传统的在线主题模型扩展为主题事件侦测和追 踪算法(TEDT),该算法克服在线主题模型在事件侦测应用中的两个缺 陷(噪声词和多重事件)。TEDT算法通过计算事件出现的概率来度量词 之间的距离,使用了流聚类算法得到了一个主题对应的最高概率事件。 TEDT算法还能够通过侦测到事件的主题,在时间域内追踪事件的变化。 最后,TEDT算法提出事件可视化方案来展示算法发现的主题事件。在 博客数据和Reuter新闻数据上的实验结果表明TEDT算法事件发现的效果 优于传统主题模型算法。(4) 面对文本和链接数据的协同聚类问题,提出作者、主题、社区模型(ATC Model)。ATC模型使用概率生成模型对社会化媒体中的用户数据(文档 和链接)的出现进行建模。该模型通过对用户发表文章和用户之间链接 关 系 的 协 同 聚 类,使 用 用 户 主 题 的 知 识 弥 补 用 户 链 接 数 据 中 的 缺 失 信 息,得 到 对 用 户 兴 趣 和 社 区 分 布 的
您可能关注的文档
- 土壤源热泵系统全寿命周期内的运行模拟与换热器优化设计研究-供热、供燃气、通风与空调工程专业论文.docx
- 透穴针刺法治疗肩周炎的临床研究-针灸推拿学专业论文.docx
- 动态场景的背景建模方法分析-人工智能与信息处理专业论文.docx
- 离子聚合物金属复合材料的电极修饰和硅橡胶粘附性能的改性分析-有机化学专业论文.docx
- 脱细胞纤维环基质对骨髓间充质干细胞生长和分化潜能的影响-骨外科学专业论文.docx
- 特高压输电塔线体系地震响应分析-工程力学专业论文.docx
- 兔舌不同部位注射美兰定位淋巴结研究-口腔颌面外科专业论文.docx
- 汽车制造厂焊接车间置换通风气流组织优化数值研究-供热、供燃气、通风及空调工程专业论文.docx
- 七自由度碳纤维铺放设备的研究-机械电子工程专业论文.docx
- 基于虚拟现实技术的安全教育游戏交互设计-信息设计与影像媒体专业论文.docx
- 新产品非结构化需求转换、概念测试与初始配置方法研究-机械工程专业论文.docx
- 铁电薄膜光电转换机制及效率提高-凝聚态物理专业论文.docx
- 唐大中年间墓志字词校释-汉语言文字学专业论文.docx
- 月份牌:传统年画在中国近代的特殊样式-艺术学专业论文.docx
- 徐渭大写意绘画风格研究-艺术学专业论文.docx
- 植物激素调节作用下的植物生长模拟研究-计算机软件与理论专业论文.docx
- 陶瓷艺术的家居装饰应用性分析-艺术设计专业论文.docx
- 陕北侏罗纪煤氧化自燃特性实验研究-安全技术及工程专业论文.docx
- 基于消息中间件的煤矿安全系统设计与实现-计算机软件与理论专业论文.docx
- 基于温度场试验的铝合金活塞疲劳寿命预测研究-动力机械及工程专业论文.docx
文档评论(0)