- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
摘 要
伴随着Web 2.0 技术的快速发展,用户交互式问答系统已经吸引了越来越多
的关注。交互式问答系统提供了一个从提问人到解答者的纽带,并且利用各种机
制不断激励问答社区中的人提供答案、解决问题。然而,交互式问答系统中往往
充满了各种相似甚至重复的问题。这些系统中的冗余问题大大影响了用户快速信
息获取的需求。
问题致力于使用短文本聚类算法组织交互式问答系统中的问题。提出了一种
新的聚类策略,TermCut 策略。该策略首先发现文档集中的核心词汇,然后按照
核心词汇的出现与否聚类短文本。为了检测这些核心词汇,我们将短文本集建模
成一张图的形式。在这张图中,每一个节点代表了一条短文本,而节点之间的边
代表了它们之间的语义关联。这样,按照某个词的出现与否,可以二分此图使得,
其中一个子图中的短文本包含此词,而另一个子图中的短文本不包含此词。我们
选择那些能够最大化类内相似度,同时最小化类间相似度的词,作为所谓的核心
词汇。TermCut 然后基于核心词汇的出现与否划分短文本集,划分结果中一个簇
包含该核心词汇,而另一个簇不包含此词。通过不断的二分文档集,最终,一系
列的聚类结果得以形成。
基于TermCut 聚类策略,我们进一步提出了两种具体的聚类算法,分别是基
于目标类数的TermCut (CNTC ),以及基于阈值的TermCut (TTC )。二者的区
别在于终止条件的不同。CNTC 使用先验的目标聚簇数作为终止条件。当算法已
经产生了足够多的聚类时,便停止继续二分的过程。在某些特定情况下,我们很
难获得具体的目标聚簇数。这种情况下,我们提出了TTC 算法。与CNTC 不同,
TTC 使用一个相似度阈值作为算法的终止条件。当划分过程不能导致类内相似
度的增加和类间相似度的减少时,我们便终止该算法,并将结果输出。
我们然后设计了一个原型系统,将所提出的短文本聚类算法应用到问题推荐
中去。首先,提出了一种基于主题的用户兴趣度模型来获取交互式问答系统中不
同用户的兴趣。基于该兴趣模型,我们可以按照用户的兴趣,将系统中的问题进
行排序。排序较高的问题将被聚类,并推荐给用户。文中将会给出该算法的展示
界面。
关键词:互联网 问答系统 用户交互式问答系统 短文本聚类 问题聚类
I
ABSTRACT
ABSTRACT
With the rapid development of Web 2.0, the User-Interactive Question
Answering (UIQA) systems have attracted more and more attention. The UIQA
systems provide a bridge to connect askers and answerers, and stimulate the
answerers in the QA community to solve questions. However, UIQA systems are also
filled with duplicate or similar questions. The redundancy in UIQA systems prevent
the users from quickly knowledge obtaining.
We investigate the short text clustering algorithm to group the questions in the
UIQA system. A new clustering strategy, TermCut, is presented to cluster short text
snippets by finding core terms in the corpus. In
您可能关注的文档
- 铁和alpha突触核蛋白在MPTP制备的PD小鼠模型SN选择性损伤中的作用的研究.pdf
- 同伴辅导对二语听力理解的影响___甘肃政法学院英语专业学生的合作式听力教学的研究.pdf
- 铜表面十二硫醇膜的抗氧化腐蚀的研究.pdf
- 痛泻二草方对肝郁脾虚型溃疡性结肠炎模型大鼠NFκB通路相关分子表达影响研究.pdf
- 头孢丙烯人体内定量分析方法及片剂健康人体生物等效性的研究.pdf
- 图形硅衬底GaN基LED薄膜应力分布及影响.pdf
- 土臭素和二甲基异冰片的控制技术及其机理的研究.pdf
- 土槿皮乙酸对肝癌BEL7402细胞侵袭转移能力的影响.pdf
- 屯堡人婴幼儿家庭教育传统的研究___以贵州省平坝县二官村为例.pdf
- 托尼卟吩结构模型中BC二吡咯结构单元的合成.pdf
最近下载
- 工商业储能项目商业计划书.docx
- 《主成分分析PCA》课件.ppt VIP
- 2024年秋季学期新外研版英语三年级上册课件 Unit 5 课时3 Fuel up.pptx
- HG∕T 2680-2017_工业硫酸镁 最新标准规范.pdf VIP
- 汽车维修中级工考证期末试卷.docx VIP
- 〖初中地理〗中国的工业课件-2025-2026学年八年级地理上学期(湘教版2024).pptx VIP
- 品牌授权使用合同.docx VIP
- 马克•温斯坦:高胜算交易者.pdf VIP
- 跨国公司海外项目当地员工安全培训与保障制度.pptx VIP
- 河南师范大学 340农业知识综合二 2014-2019(缺2016)年考研专业课真题.pdf VIP
原创力文档


文档评论(0)