2023美赛O奖：C题论文翻译（12）.pdf

下载文档 降价啦

7
0
约1.86万字
约 19页
2024-03-20 发布于广东
举报
版权申诉
保障服务

2023美赛O奖：C题论文翻译（12）.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

ProblemChosen2023TeamControlNumber

CMCM/ICM2322645

SummarySheet

如果世界词典周三的世界词典单词是“怪诞”，世界词典猜词者将猜出多少个

世界词典单词?

摘要：随着世界越来越受欢迎，人们急切地在Twitter上报告他们每天数以万计的结果。关于这些数

据，有三个非常自然的问题出现了:(1)我们可以使用这些数据来预测世界词典中给定目标单词的难度吗?(2)

我们是否可以使用这些数据来预测未来的世界词典玩家报告趋势?(3)给定目标词的难度如何影响玩家报告和

结果在我们的论文中，我们开发了一个综合的贝叶斯模型，由三个子模型组成，这些子模型预测猜测次数

的分布，Twitter上报告结果的数量以及报告在困难模式下玩的玩家的数量。

最初，我们将单词分解为与相关难度特征相关的可量化特征。最值得注意的是，我们制定了一种新的世

界特定熵度量，我们称之为子集熵，它有效地量化了典型玩家在初始猜测后透露的平均信息量。我们还开发

了一种方法来表示玩家尝试的分布，从而表示观察到的单词难度，仅使用两个值α，β对应于Beta分布的累

积质量函数。我们使用初步的拉索回归来分离最相关的单词难度预测因子，然后将其用于贝叶斯模型。

对于给定的日期和单词，我们的贝叶斯模型预测了一个单词的报告难度，报告的玩家数量，以及报告在

困难模式下玩游戏的玩家数量。为了完成这三个任务，它由三个子模型组成，这些子模型在给定数据的情况

下是条件独立的，这使得使用马尔可夫链蒙特卡罗(MCMC)从其后验中进行采样变得高效。

我们发现拥有更多独特字母的单词，在英语中的使用频率，在所有猜测中显示的黄色方块的平均数量以

及子集熵都让玩家更容易猜测一个单词。我们还发现，较高的单词难度会减少玩家报告的次数。在《时代》

随机选词的假设下，这可以解释为一种因果效应。

我们的模型能够对新数据进行结果预测，对旧数据进行回溯。我们的模型给出了95%的预测区间，即

20238到27876名玩家将在2023年3月1日报告“怪异”的结果，并且它将处于难度的第50百分位。最值得

注意的是，我们的模型不仅提供了这样简单的点估计和预测区间，还提供了完整的后验分布。

关键词:熵，拉索回归，MCMC，贝叶斯方法，因果推理

如果世界词典周三的世界词典单词是“怪诞”，世界词典猜词者将猜出多少个世界词典单词?1

1介绍3

2数据3

2.1数据清理3

2.2Wordbank4

3Word难度4

3.1元音5

3.2使用5

3.3GreenYellowTiles5

3.4唯一字母5

3.5熵5

3.5.1位置熵5

3.5.2子集熵6

3.6单词难度的表示7

4建模方法8

4.1套索回归8

4.2贝叶斯预测模型9

4.2.1常用组件10

4.2.2Try模型11

4.2.

3报告模型11

4.2.4Hardmoders模型11

4.2.5获取后验12

果12

5模型结..

5.1参数后验的解释12

5.2Retrodiction13

5.3预测13

5.4难度表示14

估

6模型评16

6.1限制16

6.2优势16

7结论16

References17

您可能关注的文档

文档评论（0）

137****9859 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2023美赛O奖：C题论文翻译（12）.pdf