- 1
- 0
- 约1.63万字
- 约 10页
- 2026-02-27 发布于北京
- 举报
贝叶斯定律从图灵集成
和整数划分
AlexanderKolpakovAidanRocke
akolpakov@rockeaidan@
2025年9月21日
摘要
我们开发了两种互补的生成机制,解释了本福特定律的第一位数字何时以及为
本何出现。首先,概率图灵机(PTM)集合诱导出代码长度的几何定律。在停止长度约
译束下最大化其熵可得出本福德统计量。该模型显示了一个关于停止概率的相变。其
中次,一个受约束的分区模型(爱因斯坦固体组合学)在粗粒化熵率约束下的最大熵
4解中恢复了相同的对数分布剖面,阐明了非遍历性的作用(集合与轨迹平均)。我们
v还进行了数值实验来证实我们的结论。
4
1
3
6
1.1介绍
2
0
5
2本福德定律描述了自然出现的数据集中首位数字的频率分布。这种对数分布已在多种经
:
v验领域中被观察到,包括人口统计、经济和物理测量[1]。其普遍性激发了一系列基于
i
x尺度不变性、基数不变性或熵最大化的理论推导[2–4]。
r
a
虽然大多数经验应用采用基数-10(例如,法医会计和科学测量),我们将使用更一般的
基数-Ω形式。即,在基数Ω中,一个数以数字d开头的概率由
P(d)=logΩ1+1,d=1,2,...,Ω−1.(1)
d
给出
我们的推导和实验使用了基数无关的论据(对数尺度上的尾数均匀性),因此结论同样适
用于任何固定的Ω≥2。经典的基础不变动机可以追溯到Newcomb[5]和Benford[6],
并由Pinkham[7]、Diakonis[8]以及Berger和Hill[1,2,9]正式化。
算法视角下的随机性和编码也导致了类似本福特定律的统计结果。在算法信息论中,前
缀自由图灵机被用来定义有限二进制字符串上的通用先验分布,其中输出的概率与停机
程序p[10,11]的2−(p)成正比。尽管这些模型涉及确定性机器,但随机性源于对程序
的抽样。由此产生的分布通常是重尾的,并且强调短而低复杂度的输出。
1
在这项工作中,我们采用了不同的构造方法:一台具有明确停止条件的概率图灵机
(PTM),其中二进制数字以随机方式发出,直到生成一个停止符号。
这类具有随机转换和停机状态的机器,在随机计算理论[12]中进行了研究。当受到熵
或总代码长度的约束时,此类机器生成的整数表示集合可以通过大偏差原理和最大熵原
理进行统计分析。我们证明在熵最大化及轻微约束条件下,由这些PTM集合诱导的数
字分布收敛于本福特定律。我们通过数值模拟验证这一解释,并将其与具有截断支持的
经验数据集进行比较。
一个基于Kafri[4]风格的受限随机划分的补充推导得出了相同的对数分布。我们将这一
机制解释为一种受限重正化流的具体实现:在总数字质量守恒且尺度间的熵率受到限制
的情况下。对数数字分布随后作为这种流动的一个固定点出现。
一个互补的推导,受到Kafri的受限随机划分模型[4]的启发,得出了相同的对数位分
布。我们将这一机制重新解释为一种受限的粗粒化过程:总的位和是固定的,但跨尺度
的熵率是有限制的。结果得到的位分布是在这些约束下的最大熵解。这个解决方案本质
上是非遍历的,反映了可访问的时间轨迹与整个组合状态空间之间的不平衡。
2本福特定律的信息论
2.1二进制数的概率模型
我们首先建立一个基于具有停
您可能关注的文档
- 深度学习代理训练以避免行为表现得像鹰和鸽子.pdf
- 使用基于图的知识对视觉语言模型进行微调以实现可解释的医学影像分析.pdf
- 个体差异在当前计算图像美学方法中的作用- 补充材料.pdf
- 单提示词与双提示词对话生成在人力资源职位面试中的应用.pdf
- 多模态驾驶员注意力融合提升端到端自动驾驶能力.pdf
- 使用 CONFORMER 和 CTC 算法通过六轴加速度计进行无声语音句子识别.pdf
- 大规模自监督语音表示中说话人特定属性的探测分析.pdf
- IV-TUNING:参数高效迁移学习用于红外可见光任务.pdf
- CushionCatch: 移动操作器的柔顺捕捉机制通过结合优化和学习实现的.pdf
- 开放词汇部件抓取.pdf
原创力文档

文档评论(0)