Title
您当前的位置: 首页 > > 文章详细
腾讯混元放出AI“终极P图神器”,网友们玩疯了
发布时间:2026-01-28

  一句话P电商海报、一键换装滑冰。

  作智东西1月28日报道,今天,腾讯混元图像3.0图生图版本正式开源。在最新的LMArena图片编辑榜单上,腾讯混元图像3.0图生图位列全球第七,也是前七名里面唯一开源的模型。

  ▲LMArena图片编辑榜单(来源:LMArena)

  LMArena官方X祝贺混元图像3.0图生图“在图片编辑榜单中与Nano-Banana和Seedream-4.5等表现相当”。

  ▲LMArena官方祝贺推文(来源:X)

  混元图像3.0图生图支持增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑功能,还可以将多张照片中的元素提取出来合成新图片。

  1月26日,该模型在元宝上线,已经被网友玩出“花”了:

  智东西也第一时间上手体验,发现该模型可以保持前后素材元素风格的一致性,对照片细节把握准确,思考响应速度也较快,可玩性确实很高。

  ▲混元图像3.0图生图开源页面(来源:Hugging Face)

  开源地址:

  Github:

  https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

  Hugging Face:

  https://huggingface.co/tencent/HunyuanImage-3.0-Instruct

  Hugging Face(蒸馏版):

  https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil

  01.

  融合理解、推理与生成:

  混元图像3.0图生图“先思考后编辑”

  据官方介绍,混元图像3.0图生图采用混合专家原生多模态架构,总参数规模达80B,激活参数约13B。

  训练过程中,混元团队构建了千万量级的图生图数据,覆盖80多个任务,并注入了思维链数据,使模型能够学会先分析用户图像和意图,再输出详细编辑指令。

  后训练阶段则采用自研MixGRPO算法,对齐用户偏好,大幅提升了指令响应和非编辑区域保持一致的效果。

  ▲混元图像3.0图生图架构

  在多模态方面,混元图像3.0图生图版本基于混元图像3.0的原生多模态架构构建,将文本理解、视觉理解与图像生成融合于同一模型中。

  作为原生多模态模型,混元图像3.0图生图核心创新在于其“先思考,后编辑”的工作流程。

  当接收到用户输入的图片和提示词后,模型会首先理解图像内容,然后基于提示词进行推理,确定需要编辑的区域、详细步骤以及需要保留的区域,最终形成更加详细的编辑指令。

上一篇:
佛塑科技50.8亿元收购金力股份获得证监会注册同意
下一篇:
都是短视频惹的祸,腾讯视频也要做广告驱动产品
Title