阿里发布 Wan2.7-Image:统一图像生成与编辑模型,文字渲染和多图控制是杀手锏

阿里通义实验室发布 Wan2.7-Image,一个统一了图像生成与编辑的全链路模型。与以往文生图和图像编辑分属不同模型的做法不同,Wan2.7-Image 将文生图、图生图、指令编辑、交互式编辑整合在同一个架构中,用户无需在多个工具间切换。 在人类偏好盲测中,Wan2.7-Image 的文生图能力超过了 GPT-Image 1.5 和国内主流模型,文字渲染、写实成像和世界知识等指标接近 Google Nano Banana Pro。 六项核心能力中,有两项尤其值得关注。第一是**精细人物控制**:支持脸型、眼型、骨相等面部特征的自定义,试图解决 AI 人像长期存在的"千人一面"问题。第二是**文字渲染**:支持 4000+ 字符生成,覆盖中文简繁体、英日韩德法等多语言,大幅降低了 AI 海报、电商素材制作中的文字乱码问题。 此外,Wan2.7-Image 的"调色盘"功能支持通过 Hex 色值精确控制画面色彩,对品牌设计和产品图制作非常实用。交互式编辑模式允许用户通过自然语言指令对生成图像进行局部修改,降低了非专业用户的使用门槛。 值得注意的是,Wan2.7 不仅有图像模型,视频模型升级也在推进中。阿里正在构建的不只是单一生成工具,而是一个从图像到视频的多模态生成平台。在图像生成领域,从 Midjourney 到 FLUX 再到 Wan2.7-Image,竞争焦点正在从"画得好看"转向"画得可控"——这是一个更难也更有价值的方向。