- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Evgeny Nikulchev et al. / Procedia Computer Science 186 (2021) 706–712 PAGE 711
PAGE 712 Evgeny Nikulchev et al. / Procedia Computer Science 186 (2021) 706–712
大众网络调查中开放式问题的智能处理
摘要
使用数字平台的网络调查是进行大规模研究的流行方式之一。然而,基于所进行的调查的主题领域,对答案的智能分析具有许多特征。本文提出了一种方法,用于分析带有开放式问题的海量网络调查的结果,该方法是在使用文本处理方法和LDA(潜在狄利克雷分配)的基础上开发的。教育心理学家的联邦调查结果公布了。
关键词:LDA网络调查;开放式问题
1。 介绍
目前,教育和心理学领域的大量研究使用网络技术。这使得有可能吸引大量的受访者,在短时间内进行人口和大规模调查。大部分研究基于调查问卷[1]。问卷中包含开放式问题扩大了研究范围,并且是非结构化数据源,具有非常有价值的信息,允许获得不受预定义答案框架约束的额外分析数据[2],包括关于情绪状态的额外信息[3]。
当进行成千上万份问卷的大规模网络调查时,每个开放式问题在每个问卷中都有一个几乎唯一的答案,因为这些问题不是针对有明确答案的主题而设计的。文本答案处理的主要工具之一是智能分析[4]。然而,人工智能工具的使用是一个重要的问题——所使用的文本挖掘模型对于每种情况都是不同的,因为
每个主题都有一组语义不同的特定词汇[5]。例如,用于分析社交网络中的消息的文本挖掘模型与用于分析调查中开放式问题的回答的文本挖掘模型非常不同[6]。在分析开放式问题的文本答案时,需要使用主题建模的方法[7],并考虑以下任务:对文本数据库进行预处理;选择主题设置建模;可靠性评估模型;对主题或回答类别的充分解释。
在所提出的研究中,主题建模是使用LDA方法(Laten Dirichlet Allocation)进行的,该方法首先在[8]中提出,是一种允许研究文本数据集合的主题结构的计算分析方法[9]。
这种方法将允许可视化和评估答案超过50个字符的分组主题。在本文中,STTM方法[10]不适用于这个任务,因为答案有更多的字符。此外,LSA有时更适合于确定描述性主题,这在文件较长和情况较为分散的情况下很有用。但是另一方面,潜在狄利克雷分配在识别紧凑主题方面给出了更好的结果,这对于创建短标签和解释主题是有用的。
除了主题建模,聚类还用于分离答案。例如,您可以使用以下聚类方法:
1.k-均值[10];2。 DBSCAN [11]。
DBSCAN指的是不需要指定集群数量的算法。在K均值法中,这个参数是必需的。
聚类不同于主题建模。它将文档语料库分成多个组,而不是突出与文档相关的主要主题。
在文档聚类中,k-means方法被广泛使用,该方法最初为每个聚类随机选择质心,并为每个文档分配与质心距离较小的聚类的标签。然后,在每次迭代中,该算法计算聚类的质心,并将其标签重新分配给文档,直到它们收敛,即所有文档的标签保持不变。
基于密度的聚类方法将基于密度的对象组定义为聚类。这个组广泛使用的方法之一——DBSCAN——的工作原理如下。开始对随机对象执行采样时,它会确定在该对象半径的邻域中是否存在不少于预定参数的对象,如果存在,则将该邻域定义为聚类。此外,位于该簇的近邻的所有对象都被分配给该簇。重复这一过程,直到没有未检查的对象。如果对象最终不属于任何集群,它将被标记为噪声,并被设置为方法的外部参数。
群集不适合此任务,因为:
突出组和关键词很重要;
答案和群体没有关系;3。 需要进行快速实验;
4。 《维度的诅咒》[12]。
对于主题建模,LDA算法是黄金分割法。在该算法中,文档可以表示为主题的组合。LDA模型的一个独特之处是主题不必不同,单词可以出现在多个主题中;这给定义的主题带来了一些模糊性,这有助于处理语言的灵活性。
该方法基于文档生成的概率模型;
p w d( | )??t T?邮政总局 | , ) ( | )??t T?邮政总局 | ) ( | ) (1)
文档中的每个单词都与一个特殊的主题t?T相关联;
集合d是来自离散分布p?d w . t .的??d的独立观测样本, ,?on
D W T * *
条件独立假设p(w | d)·p(w | t);
对于潜在狄利克雷分配,概率主题模型被转换成一种形式:
p w d( | )??t T?邮政总局 | ) ( | )
TD p t d(| ) (2)
?wt邮政总局( | )
更新于:
)t?t ?r|t|——参数为??R|T|的潜在狄利克雷分配的随机向量:
?(?0) ? ?t ?1 ?
迪尔(|?)?
文档评论(0)