文章详细-蚂蚁集团发布时间序列预测新基准：揭开AI预测能力的真实面纱

　　这项由蚂蚁集团主导的突破性研究发表于2026年3月的arXiv预印本平台（论文编号：arXiv:2603.26017v1），为时间序列预测领域带来了一个全新的评估标准。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。当我们谈论人工智能预测未来的能力时，其实就像在评估天气预报员的准确性一样——我们需要一个公正、全面的测试标准。然而，在时间序列预测这个重要领域，研究人员一直面临着一个令人困扰的问题：缺乏一个真正可靠的评估基准。这种困扰就好比我们想要比较不同品牌汽车的性能，却发现每个测试场地的跑道长度不同，测试条件也各不相同。蚂蚁集团的研究团队正是意识到了这个问题的严重性，决定构建一个前所未有的测试平台。他们不仅创建了一个包含16亿个数据点的庞大数据集QUITO，还基于这个数据集开发了名为QUITOBENCH的评估基准。这项研究的独特之处在于，它首次解决了困扰学界已久的"数据泄露"问题。简单来说，就像考试时学生提前看到了答案一样，以往很多AI模型在测试时可能已经"见过"类似的数据，导致评估结果不够真实。蚂蚁集团的研究团队通过使用自家支付宝平台的真实业务数据，彻底避免了这个问题，因为这些数据从未在公开场合出现过。更重要的是，研究团队发现了一个颠覆性的结论：并非所有情况下，参数更多、体积更大的AI模型都表现更好。这就像发现了一个汽车界的秘密——有时候小排量的精密发动机比大排量的粗糙发动机跑得更快、更省油。一、解决时间序列预测的评估困境要理解这项研究的重要性，我们首先需要明白什么是时间序列预测。这个概念其实非常贴近我们的日常生活。当你查看手机上的股票价格走势图，或者关注疫情期间每日新增病例的变化趋势时，你看到的就是时间序列数据。而时间序列预测，就是基于过去的这些数据点来预测未来可能发生什么。然而，评估AI模型在这方面的能力一直存在严重问题。研究团队通过详细分析发现，现有的评估方法存在四个致命缺陷。第一个问题是缺乏统一的评估标准。这就好比全国各地的驾驶考试都使用不同的考场、不同的车辆、不同的考试内容，最后却要比较哪个地区的司机技术更好。在计算机视觉和自然语言处理领域，研究人员早就有了公认的"金标准"——比如ImageNet用于图像识别测试，GLUE用于语言理解评估。但时间序列预测领域却一直缺乏这样的标准。第二个问题更加严重，那就是现有基准的设计存在根本性缺陷。研究团队发现，目前使用最广泛的两个评估基准GIFT-Eval和Timer都存在严重的数据分布不均问题。这种不均衡就像一个班级考试，如果90%的题目都是简单的加减法，只有10%是复杂的微积分题，那么即使某个学生只会做加减法，他的总分也会很高，但这并不能真实反映他的数学水平。具体来说，GIFT-Eval基准中有50.7%的数据都集中在最简单的一种预测场景中，而Timer基准更是有76.2%的数据集中在同一种相对简单的情况下。这意味着AI模型可能只要在这些简单场景下表现不错，就能获得很好的总体评分，但面对真正复杂多变的实际应用场景时可能完全不堪一击。第三个问题是信息泄露。这个问题就像考试作弊一样严重，但却更加隐蔽。由于现有的评估基准都是从公开数据集拼凑而成的，而很多AI模型在训练时也使用了类似的公开数据，这就造成了模型在"考试"时实际上已经"见过"相关内容的情况。更糟糕的是，即使不是完全相同的数据，如果来自同一个系统或者反映同一种现象，也会存在间接的信息泄露。第四个问题是数据序列过短。现有基准中50%的数据序列包含的时间点少于200个，这就像让一个新手司机只在小区内部道路练车，然后就让他上高速公路一样不合理。短序列数据无法支撑对模型长期预测能力的有效评估。二、构建全新的评估标准面对这些问题，蚂蚁集团的研究团队决定从零开始构建一个全新的评估基准。他们的解决方案就像是为时间序列预测领域量身定制了一套完整的"标准化考试系统"。这个系统的核心是一个名为QUITO的超大规模数据集。这个数据集的规模令人震撼——包含了16亿个数据点，涵盖了支付宝平台上九个主要业务领域的真实流量数据。这些领域包括金融支付、电商交易、广告推广、平台基础设施、数据分析、风险控制、渠道终端等等，基本覆盖了一个完整数字经济生态系统的各个方面。更重要的是，这些数据都来自同一个封闭的商业环境，这就从根本上杜绝了信息泄露的可能性。就好比这是一份从未公开过的"内部考卷"，任何AI模型都不可能提前见过类似的题目。在数据质量方面，研究团队也做了大量工作。他们首先对原始数据进行了严格的清理和标准化处理，去除重复数据，处理缺失值，确保每个数据序列都具有足够的长度和质量。所有的时间序列数据都包含5900到15300个时间点，这个长度足以支撑对模型长期预测能力的深入评估。但真正的创新在于他们对数据的分类方法。传统的评估基准通常按照应用领域来分类数据，比如将所有电力数据归为一类，所有交通数据归为另一类。然而研究团队认为，这种分类方法存在根本性问题。两个都标记为"交通数据"的序列，可能一个反映的是平稳的日常通勤流量，另一个反映的是突发事件导致的剧烈波动，它们的预测难度完全不同。因此，研究团队提出了一个全新的分类框架，叫做TSF（趋势×季节性×可预测性）分类法。这个方法不看数据来自什么应用领域，而是分析数据本身的统计特征。趋势强度衡量的是数据是否存在明显的长期变化方向，就像股价的长期上涨或下跌趋势。季节性强度衡量的是数据是否存在周期性模式，比如电商平台在节假日期间的流量激增。可预测性则衡量数据的规律性程度，就像一个人的作息是否规律一样。通过这三个维度，研究团队将所有数据分为八种不同的类型组合。比如"高趋势+高季节性+高可预测性"的数据就像是一个有明确增长趋势、有固定周期模式、且变化规律的股票价格序列。而"高趋势+低季节性+低可预测性"的数据则像是一个总体向上但波动剧烈、难以预测的新兴科技股价格。最关键的是，QUITOBENCH确保了这八种类型的数据在评估中的比重基本相等，每种类型约占12.5%。这就像是确保考试中各种难度的题目都有相当的分数比重，避免了某一种简单题型主导整体评分的问题。三、震撼人心的实验发现基于这个全新的评估基准，研究团队对十个不同的AI模型进行了全面测试。这些模型涵盖了当前最先进的深度学习架构、大型预训练基础模型，以及传统的统计学方法。整个实验的规模是前所未有的，总共产生了超过2320万个预测结果。实验结果令人震撼，完全颠覆了人们对AI模型能力的传统认知。首先，研究团队发现了一个被他们称为"上下文长度交叉点"的有趣现象。在短期预测任务中（使用96个历史数据点），传统的深度学习模型明显优于大型基础模型。但当历史数据长度增加到576个或更多时，情况完全逆转——大型基础模型开始展现出压倒性优势。这个发现就像发现了一个驾驶技能的秘密：新手司机在熟悉的小区道路上可能开得很好，但经验丰富的老司机在复杂的长途驾驶中才能真正展现实力。传统深度学习模型就像是针对特定任务精心训练的"专科医生"，在处理短期、局部问题时效率很高。而大型基础模型则像是见多识广的"全科医生"，需要充足的信息才能发挥其丰富的"临床经验"。更具体地说，当使用较短历史数据时，深度学习模型的预测误差比基础模型低24.6%。但当历史数据充足时，基础模型的表现反超，误差降低了22%。这种反转现象表明，选择合适的AI模型不仅要考虑任务本身，还要考虑可用数据的丰富程度。第二个重要发现是关于不同类型数据的预测难度差异。研究团队发现，数据的可预测性是影响预测准确度的最重要因素，其影响程度远超趋势和季节性。最容易预测的数据类型（高趋势+高季节性+高可预测性）和最难预测的类型（高趋势+低季节性+低可预测性）之间的预测误差差距达到了惊人的3.64倍。这个发现用一个简单的比喻就能理解：预测一个作息规律、工作稳定的人明天的行程，肯定比预测一个行为不可捉摸、经常突发奇想的艺术家明天的行程要容易得多。数据的内在规律性，比其所属的应用领域更能决定预测的难易程度。第三个发现更加令人意外：小型的深度学习模型在参数效率方面远超大型基础模型。研究中表现最好的深度学习模型CrossFormer仅有100万个参数，但其预测准确度却超过了拥有1亿参数的大型基础模型Chronos-2。这意味着在达到同等预测效果的前提下，深度学习模型所需的参数数量比基础模型少了59倍。这个发现就像发现了汽车界的一个秘密：一台经过精心调校的小排量发动机，在特定路况下的表现可能超过一台粗糙制造的大排量发动机，而且油耗还更低。这对于实际应用来说意义重大，因为参数更少意味着计算成本更低、部署更容易、运行更快。第四个关键发现是关于模型提升策略的。研究团队比较了两种提升模型性能的方法：增加模型参数数量和增加训练数据量。结果显示，无论对于深度学习模型还是基础模型，增加训练数据带来的性能提升都远大于增加模型规模带来的提升。具体来说，当训练数据从1万个增加到1亿个时，CrossFormer模型的预测误差降低了66%，而同期大型基础模型的误差也降低了24%。相比之下，单纯增加模型参数数量带来的改进要小得多。这个发现告诉我们，与其盲目追求更大的模型，不如专注于收集更多高质量的训练数据。四、深入剖析模型表现差异研究团队还对不同类型模型在各种预测场景下的表现进行了细致分析，发现了许多有趣的模式。在处理不同预测时长的任务时，模型的表现也呈现出明显差异。所有模型的预测误差都随着预测时长的增加而增大，这符合我们的直觉——预测越远的未来越困难。但不同类型模型的性能衰减速度并不相同。深度学习模型在长期预测中表现出更好的稳定性。当预测时长从48个时间步长增加到512个时间步长时，深度学习模型的误差增加了15%到34%，而基础模型的误差增加了31%到37%。这说明深度学习模型在面对预测不确定性增加时，表现得更加鲁棒。有趣的是，其中一个叫做DLinear的简单线性模型，虽然整体准确度不是最高的，但在长期预测中的稳定性却是最好的，误差增长仅为14.8%。这个发现提醒我们，有时候简单的方法反而具有更好的鲁棒性，就像在恶劣天气下，四轮驱动的越野车可能比精密的跑车更可靠。在多变量预测（同时预测多个相关指标）与单变量预测（只预测一个指标）的对比中，研究团队发现了模型之间的有趣差异。基础模型在多变量预测中通常表现更好，这可能是因为它们在训练过程中见过更多类型的数据模式，能够更好地利用不同变量之间的相关性。而深度学习模型则在单变量预测中稍有优势，可能是因为它们能够更专注地学习单个变量的内在规律。特别值得关注的是一个被研究团队称为"病态场景"的数据类型：高趋势+低季节性+低可预测性。这种数据类型的预测难度远超其他所有类型，即使是表现最好的模型，在这种场景下的预测误差也比在最简单场景下高出了近3倍。这种"病态场景"在现实中确实存在，比如某些新兴市场的股价走势，或者突发事件影响下的社会经济指标。这些数据既有明显的长期趋势（比如整体上涨或下跌），但缺乏可预测的周期性模式，同时充满了随机波动。对于这类数据，所有现有的AI模型都显得力不从心，这也为未来的研究指出了一个重要方向。五、方法创新的技术细节这项研究不仅在结论上具有突破性，在研究方法上也有诸多创新值得深入了解。在数据收集和处理方面，研究团队采用了极其严格的质量控制标准。原始数据来自支付宝平台上数十万个不同应用服务的流量监控，每个服务的工作负载都被记录为多维向量，反映了不同类型的流量子类型，如远程调用、消息订阅等。为了确保数据的代表性和质量，研究团队实施了多层过滤机制。首先是重复数据检测，通过计算每个时间序列的确定性哈希值来识别完全相同的重复序列。然后是近似重复检测，通过对数据进行标准化、降采样和量化处理，生成紧凑的"指纹"，用于快速识别高度相似的序列对。在时间序列特征提取方面，研究团队采用了基于STL分解（Seasonal-Trend decomposition using LOESS）的方法来量化趋势和季节性强度。这个方法能够将一个复杂的时间序列分解为趋势成分、季节成分和残差成分三个部分，就像将一首复杂的交响乐分解为主旋律、伴奏和噪音一样。对于可预测性的量化，研究团队使用了基于频谱熵的方法。这个方法的核心思想是：如果一个信号的能量集中在少数几个频率上，说明它具有较强的规律性；如果能量分布很平均，就像白噪声一样，说明它的规律性很弱。通过韦尔奇方法计算功率谱密度，然后计算其归一化熵，最终得到可预测性评分。在模型评估方面，研究团队采用了前所未有的密集滚动窗口评估策略。不同于传统方法使用非重叠窗口（步长等于预测长度）的稀疏采样方式，QUITOBENCH采用单位步长的密集滚动窗口。这意味着每个时间序列会产生数百甚至上千个预测窗口，大大提高了评估结果的统计稳定性。这种密集评估策略就像是从一个更细致的角度观察模型的预测能力。传统方法可能只在几个特定时间点测试模型，而新方法则在每个可能的时间点都进行测试，从而获得更全面、更可靠的性能评估。六、跨基准一致性验证为了确保研究结果的可靠性和普适性，研究团队还进行了大量的交叉验证实验。他们将在QUITOBENCH上得到的模型排名与在传统Timer基准上的排名进行了比较。令人惊喜的是，尽管两个基准在数据来源、分布特征和评估方式上都存在显著差异，但模型的整体排名却显示出很强的一致性，相关系数达到了0.865。这就像是两个不同的考试委员会，使用不同的考试内容和评分标准，却对同一批学生给出了高度一致的能力评估。这种一致性验证了几个重要观点：首先，QUITOBENCH确实能够有效评估模型的真实预测能力，而不是某种特定数据类型上的偶然表现。其次，基于统计特征的TSF分类方法确实比传统的领域分类更能反映预测任务的本质难度。更进一步的分析发现，在深度学习模型内部的排名一致性甚至更高，相关系数达到0.891。这说明深度学习模型之间的相对优势是相当稳定的，不会因为评估基准的不同而发生根本性变化。研究团队还对不同评估指标（平均绝对误差MAE和均方误差MSE）下的模型排名进行了比较。结果显示，尽管这两种误差指标的计算方式完全不同，但它们给出的模型排名也高度一致，相关系数在0.733到0.952之间。这进一步证实了评估结果的稳定性和可靠性。七、实用指导意义这项研究不仅在学术上具有重要价值，更为实际应用提供了极具价值的指导建议。对于需要进行时间序列预测的实际应用场景，研究结果提供了清晰的模型选择策略。如果你的应用场景只能提供较短的历史数据（比如少于500个数据点），或者计算资源有限，那么选择经过良好训练的深度学习模型（如CrossFormer）会是最佳选择。这类模型不仅准确度高，而且计算成本相对较低，部署和维护都比较简单。相反，如果你有充足的历史数据（超过500个数据点），且预测的数据具有明显的季节性模式，那么选择大型基础模型（如Chronos-2）会带来更好的预测效果。虽然这些模型需要更多的计算资源，但其在复杂场景下的预测能力确实更强。对于数据的季节性和可预测性，研究结果也提供了重要指导。如果你的数据具有强烈的季节性模式（比如零售销售数据、网站访问流量等），基础模型通常会表现更好。但如果数据的季节性较弱，更多体现为趋势性变化，那么深度学习模型可能是更好的选择。特别值得注意的是，对于那些同时具有强趋势、弱季节性和低可预测性的"病态"数据，所有现有模型的表现都不理想。面对这类数据，建议采用集成方法，结合多个不同类型的模型，并加强不确定性量化，明确告知决策者预测结果的可信度范围。在模型优化策略方面，研究结果明确指出，投资于数据收集和数据质量改进比盲目增加模型复杂度更有效。无论使用哪种类型的模型，确保训练数据的丰富性、多样性和质量都是提升预测性能的最佳途径。对于组织决策者而言，这项研究还揭示了一个重要的资源配置原则：与其花费大量资源去寻找或开发更复杂的模型，不如专注于建立更好的数据收集和管理体系。优质的数据是所有AI模型发挥最佳性能的基础，这一点在时间序列预测中尤为重要。八、研究局限与未来展望诚然，这项研究也存在一些局限性，研究团队对此也有清醒的认识。首先，所有数据都来源于单一组织（支付宝平台），虽然这保证了数据的一致性和无泄露特性，但可能限制了研究结果的普适性。不同行业、不同地区的时间序列数据可能具有不同的特征和模式。尽管支付宝平台涵盖了九个不同的业务领域，但某些特定行业的工作负载模式（比如高性能计算集群、内容分发网络等）可能在数据中代表性不足。其次，研究主要关注点预测（即预测具体数值），对于概率预测、异常检测等其他重要的时间序列分析任务，研究结果的适用性还需要进一步验证。在实际应用中，很多场景不仅需要知道"会发生什么"，还需要知道"发生的概率有多大"，这对模型提出了更高的要求。TSF分类方法中使用的阈值（0.4）虽然经过了敏感性分析验证，但在不同应用场景下的最优阈值可能有所不同。研究团队虽然证明了在0.3到0.5的范围内结论保持稳定，但对于极端场景可能需要调整。此外，基础模型的评估采用的是零样本方式，即直接使用预训练模型而不在目标数据上进行微调。虽然这确保了评估的公平性，但在实际应用中，对基础模型进行适当的微调通常能够进一步提升性能。展望未来，这项研究为时间序列预测领域开辟了多个有前景的研究方向。首先是将评估范围扩展到更多预测任务类型。除了点预测外，概率预测、区间预测、异常检测等任务同样重要。开发针对这些任务的平衡基准将进一步推动领域发展。其次是深入研究"病态"数据场景的解决方案。对于那些同时具有强趋势、弱季节性和低可预测性的数据，开发专门的建模方法和不确定性量化技术具有重要价值。第三是探索更有效的模型集成策略。既然不同类型的模型在不同场景下各有优势，那么如何智能地组合多个模型，根据数据特征动态选择最适合的预测方法，将是一个重要研究方向。最后是加强可解释性研究。随着AI模型在关键决策中的应用越来越广泛，理解和解释模型的预测逻辑变得越来越重要。开发既准确又可解释的时间序列预测模型，将是未来研究的重要课题。说到底，这项研究最重要的贡献不仅在于提供了一个更好的评估工具，更在于改变了我们对AI模型能力的认知。它告诉我们，在选择和使用AI模型时，不能简单地认为"越大越好"或"越新越好"，而要根据具体的应用场景、数据特征和资源约束来做出明智的选择。这种基于证据的决策方法，不仅适用于AI模型选择，也适用于更广泛的技术决策场景。对于普通用户而言，这项研究揭示了一个重要道理：在这个AI技术飞速发展的时代，我们需要保持理性和批判性思维。不要被炫目的技术参数或夸张的宣传所迷惑，而要关注实际的应用效果和适用场景。真正有价值的技术进步，往往来自于对问题本质的深入理解和针对性的解决方案，而不是盲目地追求规模和复杂度。蚂蚁集团的这项研究，通过开源的方式将QUITO数据集、QUITOBENCH基准以及完整的评估框架向全社会开放，为整个时间序列预测领域的发展贡献了宝贵的资源。有兴趣的研究者和开发者可以通过arXiv:2603.26017v1这个论文编号获取完整的研究细节和开源代码，共同推动这个重要领域的进步。Q&AQ1：QUITOBENCH相比传统时间序列预测基准有什么优势？A：QUITOBENCH解决了传统基准的四大问题：避免了信息泄露（使用从未公开的支付宝内部数据），实现了数据平衡分布（每种预测场景占比相等约12.5%），支持长序列评估（5900-15300个数据点），采用了基于统计特征而非应用领域的科学分类方法。这些改进让AI模型评估更加公正准确。Q2：什么情况下应该选择深度学习模型而不是大型基础模型？A：当历史数据较短（少于576个数据点）、计算资源有限、或者数据季节性较弱时，应该选择深度学习模型如CrossFormer。这类模型参数少59倍但效果相当，在短期预测中准确度比基础模型高24.6%，且在长期预测中稳定性更好。Q3：为什么增加训练数据比增加模型参数更有效？A：研究发现无论对深度学习还是基础模型，数据量从1万增加到1亿时，CrossFormer预测误差降低66%，而单纯增加模型参数带来的改进有限。这说明高质量、大规模的训练数据是提升AI预测能力的关键，比盲目追求更大更复杂的模型更有效。