Title
您当前的位置: 首页 > > 文章详细
中国信通院魏亮:高质量数据集是AI发展的核心驱动力
发布时间:2025-08-26

  在8月26日于深圳举办的“2025人民数据大会”上,中国信息通信研究院副院长魏亮发表主旨演讲,强调高质量数据集建设是推动人工智能技术突破与产业落地的关键。他指出,随着大模型技术的加速迭代,数据已成为人工智能发展的核心要素,而多模态数据、具身智能数据、推理思维链数据和长视频数据是未来建设的重点方向。    数据飞轮效应:垂类模型与数据闭环的双向赋能  魏亮提出,高质量数据集的供给需从数据技术、数据工程和数据治理三方面协同推进。他以亚马逊的“数据飞轮”效应为例,阐释了垂类大模型与数据生产的良性循环:当垂类模型在生产中规模应用时,会持续生成高质量数据反哺模型训练,形成“数据-模型-应用”的闭环。这一模式已在金融风控、医疗诊断等领域验证,例如宁德时代通过AI数据治理平台,将数据清洗效率提升50%,模型决策准确率提高30%。  四大核心数据类型:支撑AI应用场景升级

  多模态数据:自然资源部第三大地测量队构建的三维地表动态监测数据集,整合文本、图像、三维模型,将自然资源要素提取时间从天级缩短至小时级,目标识别准确率提升90%。

  具身智能数据:浪潮云洲开发的工业具身智能体,通过多模态感知与任务规划,解决复杂工业环境中的自主作业问题,设备适应性提升40%,工艺准备时间缩短60%。

  推理思维链数据:新加坡管理大学提出的GCoT框架,首次将思维链提示学习应用于无文本图数据,在少样本分类任务中准确率超越现有方法,为复杂决策场景提供新思路。

  长视频数据:自动驾驶领域通过自动化标注工具(如CVAT、Labelbox)结合人工审核,确保长视频数据的时间连贯性与标注准确性,支撑行为识别与事件预测模型训练。

  技术、工程、治理:三位一体的数据供给体系  魏亮指出,数据技术需突破新一代标注与合成技术。例如,DeepSeek采用数据蒸馏技术,从低质数据中提炼有效信息,结合强化学习构建推理型训练集。数据工程则强调全流程管理,中国信通院建立的“可信AI”数据集质量评估体系(ADAQ),涵盖12个一级指标和36个二级指标,确保数据从采集到应用的全程可控。数据治理方面,需平衡安全与合规,如联邦学习技术在医疗数据共享中的应用,既保护隐私又提升模型泛化能力。  行业应用:从“经验驱动”到“标准驱动”的转型  当前,垂类大模型已在金融、医疗等领域实现初步落地。例如,创略科技通过AI分析客户行为数据,将企业客户流失预警准确率提升至85%,交叉销售效率提高50%。然而,工业领域仍面临挑战,浪潮云洲通过构建“感知-决策-执行”工业化生态,将设备维护成本降低30%,但数据孤岛与实时性不足问题仍待解决。  未来展望:数据驱动AI进入新阶段  魏亮总结,随着“人工智能+”行动的深化,数据要素的价值将进一步释放。他呼吁产业界加强标准建设,推动数据技术、工程与治理的协同创新,共同构建“数据驱动”的智能生态。

上一篇:
摩根大通减持洛阳钼业(03993)约706.86万股 每股作价约10.72港元
下一篇:
大众点评正式上线“品质外卖”频道!号称“真品质,真堂食,真评价”
Title