当前位置：首页>社会 >

慕尼黑工大：决策树与扩散模型实现算法本质统一性揭示突破-每日看点

时间 2026-05-08 21:28:34　来源：科技行者　

这项由德国慕尼黑工业大学计算、信息与技术学院主导的研究，于2026年5月发表在arXiv预印本平台，论文编号为arXiv:2605.00414。有兴趣深入了解的读者可以通过该编号查询完整论文。

研究的核心主张听起来有些惊人：两类在机器学习领域长期"各自为政"的模型——专门处理表格数据的决策树，以及擅长生成图像和音频的扩散模型——在数学本质上其实是同一枚硬币的两面。这两位"异乡人"被证明是同一家人。

一、两个看似风马牛不相及的世界

(相关资料图)

要理解这项研究的意义，先得搞清楚这两类算法分别是什么。

决策树可以想象成一棵你在超市门口见到的问卷导购图。顾客走进来，第一个问题是"你要买的是食物还是日用品？"，根据答案走向不同分支，下一个问题是"你要买的是蔬菜还是肉类？"，如此层层细分，最终被引导到特定的货架。决策树就是这样一种通过反复提问、不断缩小范围的分类工具。它特别擅长处理银行信贷、医疗诊断、电商推荐这类结构清晰的表格数据，而梯度提升机（一种把很多棵决策树叠加组合的增强版技术）至今仍是这类任务上的王牌选手。

扩散模型则完全是另一番图景。它的工作原理借鉴了物理学中的热扩散现象：先把一张清晰的图片一点一点地加噪声，直到它变成一片雪花屏，然后训练一个神经网络来学习这个"从清晰到混沌"的逆过程——从雪花屏一步一步"去噪"，还原出一张新图。正是这种技术造就了如今令人叹为观止的AI绘画能力。

这两类技术不仅外表迥异，就连使用的数学语言也完全不同：决策树用的是离散的、层级化的树形结构，而扩散模型依赖的是连续时间随机微分方程。一个是僵硬的二叉树，一个是流动的概率流，它们之间怎么可能存在深刻的联系？

慕尼黑工业大学的研究团队给出了一个出人意料的答案：两者都在做同一件事，只不过用的是不同的语言。这件事就是——对信息进行从细到粗（或从粗到细）的层级式重组。

二、从树到流：把静止的树变成流动的方程

研究的第一步，是证明任何一棵决策树都可以被"翻译"成一个连续时间的动力学方程。

回到超市导购图的比喻。这张图的深处（叶子节点）代表最精细的分类，比如"某品牌某规格的有机蔬菜"，而图的顶端（根节点）代表最粗糙的状态——"这里是超市，什么都有"。从根到叶，信息越来越精细；从叶到根，信息越来越模糊。每向上走一层，就相当于在把相邻的小类合并成一个大类，这个过程叫做"粗粒化"（coarse-graining）。

研究团队把这种逐层粗粒化的过程建模成一个马尔可夫链——简单说就是，每一步的状态只取决于上一步，不用回头看更早的历史。在这个框架里，每一层决策树对应概率分布的一次变化：从高度结构化的叶子层概率分布，一步步"抹平"成根部那个接近均匀分布的最大熵状态。

然而，现实中的决策树每一层之间的变化方式并不一致，这就像一段台阶，每级台阶的高度都不同，很难直接求出一个统一的"斜率"。研究团队用一种叫做"二分细化"的技巧来化解这个难题：在原来的每两级台阶之间，再插入一级更矮的台阶；然后继续插入，再插入，直到台阶密密麻麻到几乎看不出来，整段台阶变成了一个光滑的斜坡。

当台阶数趋于无穷时，这个离散的过程就收敛到了一个连续时间的动力学方程。更具体地说，由于粗粒化本质上是一种取平均的确定性操作（不引入额外随机性），扩散项消失，最终得到的是一个决定论性的概率流常微分方程（Probability Flow ODE，PF-ODE）——正是扩散模型文献中的核心方程之一。

换句话说，一棵决策树，本质上就是一条描述概率分布如何随时间演化的流动曲线。

三、从流到树：让扩散模型"吐出"一棵隐藏的决策树

硬币的另一面同样成立：任何一个"行为良好"的扩散过程，反过来也天然地定义了一个决策树结构。

道理并不复杂。当一个扩散模型运行前向过程时，它把数据分布一点一点地加噪，各个数据簇（比如"猫的图片"、"狗的图片"）从泾渭分明逐渐变得难以区分。研究团队注意到，这些簇的"统计矩"（理解为描述每个簇的平均位置和散布形状的指标）会随时间推移而趋于一致——某两个原本不同的簇，在某个时刻t开始变得几乎无法区分，这就是一次"合并事件"。

这些合并事件是有先后顺序的。最相似的两个簇最早合并，最不相似的最晚合并。把这些合并事件按时间顺序记录下来，就构成了一个严格的层级结构——这正是决策树的拓扑形态。研究团队进一步证明，这些合并时间满足一个叫做"超度量不等式"的数学性质，这是树形层级结构成立的充要条件。

为了让这棵"树"有一个单一的根（而不是多棵不连通的小树），还需要一个附加条件：扩散过程必须最终收敛到一个"最大熵"的平稳分布。直觉上，这意味着噪声足够大，最终所有信息都被抹平，所有簇都归于同一个"混沌"根节点。现代扩散模型中最常用的Ornstein-Uhlenbeck过程（VP扩散）恰好满足这一条件——它的平稳分布是标准高斯分布，在高维空间里这个分布会均匀地"摊开"在一个球面上，等同于最大熵状态。

这就完成了双向对应：树可以变成流，流也内嵌着一棵树。

四、两者共享的优化目标：全局轨迹得分匹配

建立了这种对应关系之后，研究团队追问了一个更深的问题：既然两者本质相同，它们的训练或构建过程是否也在优化同一个目标函数？

答案是肯定的，这个统一的目标被命名为"全局轨迹得分匹配"（Global Trajectory Score Matching，GTSM）。

得分函数（score function）是扩散模型里一个核心概念，可以理解为：在概率分布的每个位置，一个指向"概率密度增大方向"的箭头。训练扩散模型的过程，本质上就是学习在每个时刻、每个位置正确地指向这些箭头。

GTSM的思路是把"把整条轨迹学好"这个宏大目标拆解成无数个"在每一个时刻、每一个位置上，箭头方向对不对"的局部检查。研究团队证明，这些局部检查的总和等价于全局的路径空间匹配——局部全对，整体就对了。这个"局部正确则全局正确"的原则，正是使这个问题变得可处理的关键。

从这个视角看，训练一个扩散模型（用一个大神经网络同时学习所有时刻的得分函数）和训练一个梯度提升树集成（每次用一棵小树去修正当前模型的残差），都是在求解GTSM这道题，只是策略不同：前者是"一次性全做"，后者是"每次做一小块"。

更进一步，研究团队用动态规划的Bellman最优性原理严格证明了：梯度提升这种"每步都贪心地拟合当前残差"的策略，在连续极限下是GTSM离散版本的全局最优解——贪心并不会导致全局次优，反而就是全局最优。这个结论相当反直觉，因为在很多优化问题中贪心策略并不能保证全局最优，但GTSM的特殊加法可分离结构使得这一保证成立。

五、TREEFLOW：让决策树给生成模型当向导

理论的价值最终要落实到实践上。研究团队基于上述框架开发了两个实际算法。

第一个叫TREEFLOW，专门针对表格数据的生成建模。

表格数据的生成（也就是合成数据生成）是一个实际需求旺盛的任务：金融机构需要用合成数据测试模型而不暴露客户隐私，医疗机构需要扩充稀缺的病例数据。然而，现有的扩散模型在表格数据上的表现往往不如图像领域，原因在于表格数据的结构更"不规则"——不同特征之间的关系错综复杂，数据空间里存在大量"跳跃性"的边界。

TREEFLOW的核心思路是：先用一棵决策树把数据空间"地图化"。决策树会学到数据自然的分区结构，然后给每个数据点分配一个"路径编码"——一个记录该点从根节点到叶节点所走路径的向量，相当于数据点在"地图"上的门牌号。

接下来，训练一个条件流匹配模型（Conditional Flow Matching，CFM），其速度场不仅以目标标签为条件，还额外以这个路径编码为条件。这样，生成模型就被"分区治理"了：对于数据空间不同区域的样本，模型学会了各自专门的生成流，而不是用一个通用流来应付所有区域。

生成时，只需从目标分区中取一个参考点，拿到它的路径编码，然后用这个编码引导从随机噪声出发的积分，就能得到属于该分区的合成样本。

实验在五个真实和合成数据集（Adult、Breast Cancer、Diabetes、Wine、California Housing）上进行。TREEFLOW在五个数据集中的三个上获得了最高的"训练-合成-测试"（TSTR）分类准确率（Wine数据集上达到98.1%，Cancer数据集上达到93.9%），在四个数据集上取得了最低的Wasserstein距离（衡量生成数据与真实数据分布差异的指标，越低越好），在三个数据集上取得了最低的相关性误差——同时训练速度是另一个强基线TabDDPM的两倍以上。

六、DSM-TREE：把决策树的"思维方式"注入神经网络

第二个算法叫DSM-TREE（Discretized Score Matching for Trees），解决的是完全不同的问题：如何把一棵决策树的知识"移植"给神经网络。

在表格数据上，决策树系的模型（如XGBoost、随机森林）至今仍经常超越深度学习，原因在于它们天然具有"轴对齐切分"的偏置，很适合处理特征之间存在清晰分界线的数据。但决策树也有缺点：不可微，无法端到端优化，也不能平滑地泛化到训练数据之外。

过去也有人尝试把树的知识"蒸馏"进神经网络，但通常只是让神经网络模仿树的最终输出（叶子节点的预测值）。这就好比只告诉学生"正确答案是C"，而不告诉他为什么选C。DSM-TREE的创新在于，它让神经网络学习树在每一层的中间决策过程——"在这个节点，应该往左还是往右走？"

具体而言，训练一个条件神经网络 M_θ(x, j)，输入是数据点x和当前树的深度层级j，输出是在该层级该走哪个分支的概率（二分类）。训练目标是让网络在每一层都能正确预测决策树的分叉方向，使用交叉熵损失。这个训练过程与扩散模型中的去噪得分匹配在形式上高度相似——把树的深度层级类比为扩散过程的时间步，把分支决策类比为得分函数的方向指导。

推理时，神经网络被用来逐层模拟树的遍历过程：从根节点出发，在每一层查询网络应该向左还是向右，直到到达叶子节点，取该叶子节点的预测值。

研究团队在五个UCI数据集（8x8手写数字、德国信贷、波士顿房价分类、心脏病、鲍鱼分类）上测试了DSM-TREE。在五个数据集中，DSM-TREE在四个上的准确率与基线决策树相差不超过2%，在心脏病数据集上甚至超越了教师树3.7个百分点（75.31% vs 71.60%）。只有在最复杂的鲍鱼分类任务上差距略大（约7.7%），说明对于特别复杂的多分类任务还有改进空间。

七、实验验证：扩散模型真的内嵌着一棵决策树吗？

除了算法层面的验证，研究团队还专门设计了实验来检验理论本身的预测是否成立：训练好的扩散模型真的会"暗含"一个层级结构吗？

实验在三个合成2D数据集上进行：四角（4个高斯簇）、九宫格（9个簇）和八高斯（8个圆形排列的簇）。研究者训练了一个简单的MLP扩散模型，然后用前向SDE的学习得分函数来模拟各个簇的演化轨迹，追踪它们的质心位置和统计离散度随时间的变化，记录每对簇质心距离首次小于两者离散度之和的时刻，作为"合并时间"，并据此构建系统树图（dendrogram）。

结果非常直观：四角数据集的四个簇先是两两合并（左上+右上，左下+右下），再合并成一个整体，这正是对称数据应有的层级结构；系统树图上的纵轴（合并时间t）的数值与理论预测高度吻合。在中间时刻t=0.5的PF-ODE快照中，原本分离的四个簇确实已经开始相互重叠、边界模糊，与树形层级中对应内部节点的含义完全一致。

另一组实验则比较了决策树和扩散模型在处理信息时"熵增速度"是否相似。研究者在MNIST手写数字数据集上训练了一棵决策树，测量每一层节点内类别分布的加权平均香农熵（衡量信息混乱程度，越高越乱）；同时用一个简单的扩散过程代理熵的变化，使用信噪比SNR作为代理指标。两者的归一化熵变曲线几乎重合——都呈现出先缓慢上升、后逐渐加速的S形曲线。树的原型图像（在某个节点范围内的像素平均值）从叶子到根越来越模糊，与扩散模型对同一个手写数字样本加噪后图像变化的视觉效果高度相似。

八、理论框架的更广泛意义

GTSM框架的意义不止于统一决策树和扩散模型。研究团队进一步指出，当下流行的多种扩散模型训练目标，都可以从GTSM这个"母目标"出发自然推导得到，区别仅在于对时间积分的不同加权方式和近似策略。

标准去噪扩散概率模型（DDPM）使用均匀时间加权（w(t)=1），对轨迹上每个时刻一视同仁；变分扩散模型使用非均匀加权λ(t)，有意识地让模型更关注某些时刻；一致性模型则通过强制相邻时刻预测结果一致来注入额外的平滑偏置。这些方法过去看起来各有各的设计哲学，现在可以统一理解为：它们都是在用不同的侧重点近似同一个全局目标，各自的权衡在GTSM框架下一目了然。

九、局限性与未来方向

这项研究也坦承了自身的局限。理论推导依赖于连续路径细化过程和平滑性假设，对于特征空间本质上存在不连续跳跃的数据（比如混合了连续数值和高度离散类别特征的复杂表格）目前还不能完全覆盖。实验评估也主要集中在连续特征为主的表格数据上，以保持理论与实验的一致性。

研究团队指出了若干有价值的延伸方向。其一是用Lévy过程或粗糙路径理论来处理内在不连续的数据，正如金融领域中价格可能出现突然跳变一样；其二是把树的自适应分区能力与扩散模型的表达力结合，开发面向复杂异构数据（如同时包含表格、时序和文本字段的数据）的新一代基础模型。

说到底，这项研究最有意思的地方或许不在于它提出的两个算法，而在于它揭示的一种视角：在机器学习这个领域里，那些看起来毫不相干的方法，背后往往共享着同一套数学骨架。决策树和扩散模型在各自的"语言"里说着同一件事，就像英语和汉语用完全不同的声音表达着同样的意思。找到这个翻译词典，不仅让我们能把两边的工具互相借用，也让我们对"机器究竟在学什么"有了更深一层的理解。

归根结底，这意味着在未来，一个擅长分类表格数据的决策树和一个擅长生成图像的扩散模型，也许可以共享同一套理论框架，甚至在同一个模型里协同工作。对于普通用户而言，这可能意味着更强大的数据生成工具、更高效的知识提炼技术，以及更能适应现实世界中"乱糟糟的混合数据"的智能系统。感兴趣的读者可以通过arXiv编号2605.00414查阅完整论文，自行深入探索这个优雅的数学世界。

Q&A

Q1：决策树和扩散模型的数学等价是在什么条件下成立的？

A：这种等价性在"二分细化"的连续极限下成立，要求决策树满足尺度一致性（插入中间层不改变原有层的条件密度）和局部细化（新增分割的区域大小趋于零）两个条件，扩散模型则需要满足熵单调性和存在唯一平稳分布的条件。在这些条件下，树诱导的粗粒化过程收敛为概率流ODE，而扩散过程的前向演化则通过矩合并时间反推出一棵决策树。

Q2：TREEFLOW比TabDDPM快两倍的原因是什么？

A：TREEFLOW的速度优势主要来自两个方面。首先，路径编码作为条件输入将生成任务按数据分区拆解，使模型无需学习整个数据空间的复杂流场，每个局部流场更简单，收敛更快。其次，TREEFLOW基于条件流匹配框架，直接回归速度场，避免了TabDDPM中多步马尔可夫逆过程所需的大量采样步骤，生成时只需约50个欧拉积分步即可从噪声生成高质量样本。

Q3：DSM-TREE在心脏病数据集上为何能超越教师决策树？

A：DSM-TREE超越教师树的现象可以从两个角度理解。决策树的分裂是硬性的轴对齐切割，在训练数据有限时容易对噪声过拟合，导致某些分支路径的预测质量不高。而神经网络通过梯度下降在所有层级上同时优化，能够对决策边界进行"软化"和正则化处理，在各层之间共享参数信息。对于心脏病这类样本量相对较小且特征相关性较强的数据集，这种连续化处理带来的泛化优势恰好抵消了层级蒸馏的信息损失，最终实现了性能超越。

标签：算法数据点决策树扩散模型神经网络

猜你喜欢

精彩放送

慕尼黑工大：决策树与扩散模型实现算法本质统一性揭示突破-每日看点

相关阅读RELEVANT

猜你喜欢