- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
ProblemChosen2023TeamControlNumber
CMCM/ICM2322645
SummarySheet
如果世界词典周三的世界词典单词是“怪诞”,世界词典猜词者将猜出多少个
世界词典单词?
摘要:随着世界越来越受欢迎,人们急切地在Twitter上报告他们每天数以万计的结果。关于这些数
据,有三个非常自然的问题出现了:(1)我们可以使用这些数据来预测世界词典中给定目标单词的难度吗?(2)
我们是否可以使用这些数据来预测未来的世界词典玩家报告趋势?(3)给定目标词的难度如何影响玩家报告和
?
结果在我们的论文中,我们开发了一个综合的贝叶斯模型,由三个子模型组成,这些子模型预测猜测次数
的分布,Twitter上报告结果的数量以及报告在困难模式下玩的玩家的数量。
最初,我们将单词分解为与相关难度特征相关的可量化特征。最值得注意的是,我们制定了一种新的世
界特定熵度量,我们称之为子集熵,它有效地量化了典型玩家在初始猜测后透露的平均信息量。我们还开发
了一种方法来表示玩家尝试的分布,从而表示观察到的单词难度,仅使用两个值α,β对应于Beta分布的累
积质量函数。我们使用初步的拉索回归来分离最相关的单词难度预测因子,然后将其用于贝叶斯模型。
对于给定的日期和单词,我们的贝叶斯模型预测了一个单词的报告难度,报告的玩家数量,以及报告在
困难模式下玩游戏的玩家数量。为了完成这三个任务,它由三个子模型组成,这些子模型在给定数据的情况
下是条件独立的,这使得使用马尔可夫链蒙特卡罗(MCMC)从其后验中进行采样变得高效。
我们发现拥有更多独特字母的单词,在英语中的使用频率,在所有猜测中显示的黄色方块的平均数量以
及子集熵都让玩家更容易猜测一个单词。我们还发现,较高的单词难度会减少玩家报告的次数。在《时代》
随机选词的假设下,这可以解释为一种因果效应。
我们的模型能够对新数据进行结果预测,对旧数据进行回溯。我们的模型给出了95%的预测区间,即
20238到27876名玩家将在2023年3月1日报告“怪异”的结果,并且它将处于难度的第50百分位。最值得
注意的是,我们的模型不仅提供了这样简单的点估计和预测区间,还提供了完整的后验分布。
关键词:熵,拉索回归,MCMC,贝叶斯方法,因果推理
目录
如果世界词典周三的世界词典单词是“怪诞”,世界词典猜词者将猜出多少个世界词典单词?1
1介绍3
2数据3
2.1数据清理3
2.2Wordbank4
3Word难度4
3.1元音5
3.2使用5
3.3GreenYellowTiles5
3.4唯一字母5
3.5熵5
3.5.1位置熵5
3.5.2子集熵6
3.6单词难度的表示7
4建模方法8
4.1套索回归8
4.2贝叶斯预测模型9
4.2.1常用组件10
4.2.2Try模型11
4.2.
3报告模型11
4.2.4Hardmoders模型11
4.2.5获取后验12
果12
5模型结..
5.1参数后验的解释12
5.2Retrodiction13
5.3预测13
5.4难度表示14
估
6模型评16
6.1限制16
6.2优势16
7结论16
References17
文档评论(0)