本文是对《科学也许就是数据压缩》(http://www.swarma.org/swarma/detail.php?id=18608)一文中观点的补充说明,希望通俗地了解其大概的网友可阅读原帖。
此种观点认为科学理论实质上等价于一种专门压缩大自然的描述的数据压缩器。因此,衡量好的科学理论的标准就是压缩描述冗余的能力。例如,麦克斯韦电磁学理论是一个好的科学理论。设想我们要在有限精度的条件下尽可能精确描述给定球形区域内的静电场,没有充分理论知识的前提下需要的采样点数近似正比于区域的体积。了解静电学方程使得我们只需要以适当的精度记录其边界条件,这只需要近似正比于区域表面积的采样点数。用R代表球体的半径,我们说电磁学理论将复杂度从O(R^3)约化到了O(R^2).
也有人将这种观点推广到其他认知体系。Marcus Hutter的
人类知识无损压缩奖可看做是基于同类观点设立的:最大限度压缩任意的人类知识(由维基百科的片段整合而成)的无损压缩/解压算法具有最强的理解力/对规律的洞察力/智能。
统计推断领域的最小描述长度准则(MDL)是这一观点的数学基础之一。通俗而言,这一准则告诉我们:选择使得模型本身的描述长度(以Kolmogorov复杂度代表)和数据的(平均)描述长度(以香农熵代表)之和最小的模型。将这一准则从统计模型类比到一般科学假说就得到压缩主义。
有趣的是,这一类比版本的准则暗示我们并不需要“符合观测结果”和“简洁”两个要求。“简洁”一个要求就够了,只是要在衡量简洁程度的时候将观测结果和理论本身的复杂度一并考虑。
这一观点对可计算假说的依赖是十分严重的。由于自然科学常常允许过程参量连续取值,因此,有可能不同的离散化/粗粒化/数字化方案会导致同一假说具有不同的复杂度。只有在假设某种对计算的限制(例如丘奇-图灵论题)的前提下可以认为不同的复杂度度量是近似等价的或至少具备某种适当的优选方案。注意它并不要求作为限制的计算模型是通用图灵机。只要在这种计算模型下适当的复杂度可以被定义出来即可。
有可能有人认为这一观点忽略了实验结果中的误差,实际的测量结果都有着误差和精度限制,从这一观点的角度来看,这无非是说有时我们可以用有损压缩而不是无损压缩,就像我们常用的某种音频格式一样。如果我们认为所用的离散化方案是最优的,要求适当的离散化方案这点自身已经将预言精度的考量包括进去了。