文章详细-腾讯混元放出AI“终极P图神器”，网友们玩疯了

　　一句话P电商海报、一键换装滑冰。

　　作智东西1月28日报道，今天，腾讯混元图像3.0图生图版本正式开源。在最新的LMArena图片编辑榜单上，腾讯混元图像3.0图生图位列全球第七，也是前七名里面唯一开源的模型。

　　▲LMArena图片编辑榜单（来源：LMArena）

　　LMArena官方X祝贺混元图像3.0图生图“在图片编辑榜单中与Nano-Banana和Seedream-4.5等表现相当”。

　　▲LMArena官方祝贺推文（来源：X）

　　混元图像3.0图生图支持增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑功能，还可以将多张照片中的元素提取出来合成新图片。

　　1月26日，该模型在元宝上线，已经被网友玩出“花”了：

　　智东西也第一时间上手体验，发现该模型可以保持前后素材元素风格的一致性，对照片细节把握准确，思考响应速度也较快，可玩性确实很高。

　　▲混元图像3.0图生图开源页面（来源：Hugging Face）

　　开源地址：

　　Github：

　　https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

　　Hugging Face：

　　https://huggingface.co/tencent/HunyuanImage-3.0-Instruct

　　Hugging Face（蒸馏版）：

　　https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil

　　01.

　　融合理解、推理与生成：

　　混元图像3.0图生图“先思考后编辑”

　　据官方介绍，混元图像3.0图生图采用混合专家原生多模态架构，总参数规模达80B，激活参数约13B。

　　训练过程中，混元团队构建了千万量级的图生图数据，覆盖80多个任务，并注入了思维链数据，使模型能够学会先分析用户图像和意图，再输出详细编辑指令。

　　后训练阶段则采用自研MixGRPO算法，对齐用户偏好，大幅提升了指令响应和非编辑区域保持一致的效果。

　　▲混元图像3.0图生图架构

　　在多模态方面，混元图像3.0图生图版本基于混元图像3.0的原生多模态架构构建，将文本理解、视觉理解与图像生成融合于同一模型中。

　　作为原生多模态模型，混元图像3.0图生图核心创新在于其“先思考，后编辑”的工作流程。

　　当接收到用户输入的图片和提示词后，模型会首先理解图像内容，然后基于提示词进行推理，确定需要编辑的区域、详细步骤以及需要保留的区域，最终形成更加详细的编辑指令。