贝叶斯定律从图灵集成 和整数划分.pdfVIP

  • 1
  • 0
  • 约1.63万字
  • 约 10页
  • 2026-02-27 发布于北京
  • 举报

贝叶斯定律从图灵集成

和整数划分

AlexanderKolpakovAidanRocke

akolpakov@rockeaidan@

2025年9月21日

摘要

我们开发了两种互补的生成机制,解释了本福特定律的第一位数字何时以及为

本何出现。首先,概率图灵机(PTM)集合诱导出代码长度的几何定律。在停止长度约

译束下最大化其熵可得出本福德统计量。该模型显示了一个关于停止概率的相变。其

中次,一个受约束的分区模型(爱因斯坦固体组合学)在粗粒化熵率约束下的最大熵

4解中恢复了相同的对数分布剖面,阐明了非遍历性的作用(集合与轨迹平均)。我们

v还进行了数值实验来证实我们的结论。

4

1

3

6

1.1介绍

2

0

5

2本福德定律描述了自然出现的数据集中首位数字的频率分布。这种对数分布已在多种经

:

v验领域中被观察到,包括人口统计、经济和物理测量[1]。其普遍性激发了一系列基于

i

x尺度不变性、基数不变性或熵最大化的理论推导[2–4]。

r

a

虽然大多数经验应用采用基数-10(例如,法医会计和科学测量),我们将使用更一般的

基数-Ω形式。即,在基数Ω中,一个数以数字d开头的概率由

P(d)=logΩ1+1,d=1,2,...,Ω−1.(1)

d

给出

我们的推导和实验使用了基数无关的论据(对数尺度上的尾数均匀性),因此结论同样适

用于任何固定的Ω≥2。经典的基础不变动机可以追溯到Newcomb[5]和Benford[6],

并由Pinkham[7]、Diakonis[8]以及Berger和Hill[1,2,9]正式化。

算法视角下的随机性和编码也导致了类似本福特定律的统计结果。在算法信息论中,前

缀自由图灵机被用来定义有限二进制字符串上的通用先验分布,其中输出的概率与停机

程序p[10,11]的2−(p)成正比。尽管这些模型涉及确定性机器,但随机性源于对程序

的抽样。由此产生的分布通常是重尾的,并且强调短而低复杂度的输出。

1

在这项工作中,我们采用了不同的构造方法:一台具有明确停止条件的概率图灵机

(PTM),其中二进制数字以随机方式发出,直到生成一个停止符号。

这类具有随机转换和停机状态的机器,在随机计算理论[12]中进行了研究。当受到熵

或总代码长度的约束时,此类机器生成的整数表示集合可以通过大偏差原理和最大熵原

理进行统计分析。我们证明在熵最大化及轻微约束条件下,由这些PTM集合诱导的数

字分布收敛于本福特定律。我们通过数值模拟验证这一解释,并将其与具有截断支持的

经验数据集进行比较。

一个基于Kafri[4]风格的受限随机划分的补充推导得出了相同的对数分布。我们将这一

机制解释为一种受限重正化流的具体实现:在总数字质量守恒且尺度间的熵率受到限制

的情况下。对数数字分布随后作为这种流动的一个固定点出现。

一个互补的推导,受到Kafri的受限随机划分模型[4]的启发,得出了相同的对数位分

布。我们将这一机制重新解释为一种受限的粗粒化过程:总的位和是固定的,但跨尺度

的熵率是有限制的。结果得到的位分布是在这些约束下的最大熵解。这个解决方案本质

上是非遍历的,反映了可访问的时间轨迹与整个组合状态空间之间的不平衡。

2本福特定律的信息论

2.1二进制数的概率模型

我们首先建立一个基于具有停

文档评论(0)

1亿VIP精品文档

相关文档