FaceChain是一个可以用来打造个人数字形象的深度学习模型工具

2023年11月23日下午4:21 • 工具软件

FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低三张照片即可获得独属于自己的个人形象数字替身。FaceChain支持在gradio的界面中使用模型训练和推理能力，也支持资深开发者使用python脚本进行训练推理。同时，FaceChain欢迎开发者对本Repo进行继续开发和贡献。

您也可以在ModelScope创空间中直接体验这项技术而无需安装任何软件。

FaceChain的模型由ModelScope开源模型社区提供支持。

环境准备

兼容性验证

FaceChain是一个组合模型，使用了包括pytorch和tensorflow在内的机器学习框架，以下是已经验证过的主要环境依赖：

python环境: py3.8, py3.10
pytorch版本: torch2.0.0, torch2.0.1
tensorflow版本: 2.7.0, tensorflow-cpu
CUDA版本: 11.7
CUDNN版本: 8+
操作系统版本: Ubuntu 20.04, CentOS 7.9
GPU型号: Nvidia-A10 24G

资源占用

GPU: 显存占用约19G
磁盘: 推荐预留50GB以上的存储空间

安装指南

支持以下几种安装方式，任选其一：

1. 使用ModelScope提供的notebook环境【推荐】
  
  ModelScope(魔搭社区)提供给新用户初始的免费计算资源，参考ModelScope Notebook
  
  如果初始免费计算资源无法满足要求，您还可以从上述页面开通付费流程，以便创建一个准备就绪的ModelScope(GPU) DSW镜像实例。
  
  Notebook环境使用简单，您只需要按以下步骤操作（注意：目前暂不提供永久存储，实例重启后数据会丢失）：

# Step1: 我的notebook -> PAI-DSW -> GPU环境
# Step2: 打开Terminal，将github代码clone到本地GIT_LFS_SKIP_SMUDGE=1 git clone https://github.com/modelscope/facechain.git
# Step3: 进入Notebook cell，执行：import osos.chdir('/mnt/workspace/facechain')    # 注意替换成上述clone后的代码文件夹主路径print(os.getcwd())
!pip3 install gradio!python3 app.py
# Step4: 点击生成的URL即可访问web页面，上传照片开始训练和预测

docker镜像

如果您熟悉docker，可以使用我们提供的docker镜像，其包含了模型依赖的所有组件，无需复杂的环境安装：

conda create -n facechain python=3.8    # 已验证环境：3.8 和 3.10conda activate facechain
pip3 install -r requirements.txtpip3 install -U openmim mim install mmcv-full==1.7.0
# 进入facechain文件夹，执行：python3 app.py
# 最后点击log中生成的URL即可访问页面。

备注：app服务成功启动后，在log中访问页面URL，进入”形象定制“tab页，点击“选择图片上传”，并最少选1张包含人脸的图片；点击“开始训练”即可训练模型。训练完成后日志中会有对应展示，之后切换到“形象体验”标签页点击“开始推理”即可生成属于自己的数字形象。

脚本运行

如果不想启动服务，而是直接在命令行进行开发调试等工作，FaceChain也支持在python环境中直接运行脚本进行训练和推理。在克隆后的文件夹中直接运行如下命令来进行训练：

PYTHONPATH=. sh train_lora.sh "ly261666/cv_portrait_model" "v2.0" "film/film" "./imgs" "./processed" "./output"

参数含义：

ly261666/cv_portrait_model: ModelScope模型仓库的stable diffusion基模型，该模型会用于训练，可以不修改v2.0: 该基模型的版本号，可以不修改film/film: 该基模型包含了多个不同风格的子目录，其中使用了film/film目录中的风格模型，可以不修改./imgs: 本参数需要用实际值替换，本参数是一个本地文件目录，包含了用来训练和生成的原始照片./processed: 预处理之后的图片文件夹，这个参数需要在推理中被传入相同的值，可以不修改./output: 训练生成保存模型weights的文件夹，可以不修改

等待5-20分钟即可训练完成。用户也可以调节其他训练超参数，训练支持的超参数可以查看train_lora.sh的配置，或者facechain/train_text_to_image_lora.py中的完整超参数列表。

进行推理时，请编辑run_inference.py中的代码:

# 填入上述的预处理之后的图片文件夹，需要和训练时相同processed_dir = './processed'# 推理生成的图片数量num_generate = 5# 训练时使用的stable diffusion基模型，可以不修改base_model = 'ly261666/cv_portrait_model'# 该基模型的版本号，可以不修改revision = 'v2.0'# 该基模型包含了多个不同风格的子目录，其中使用了film/film目录中的风格模型，可以不修改base_model_sub_dir = 'film/film'# 训练生成保存模型weights的文件夹，需要保证和训练时相同train_output_dir = './output'# 指定一个保存生成的图片的文件夹，本参数可以根据需要修改output_dir = './generated'

之后执行：

python run_inference.py

算法介绍

基本原理

个人写真模型的能力来源于Stable Diffusion模型的文生图功能，输入一段文本或一系列提示词，输出对应的图像。我们考虑影响个人写真生成效果的主要因素：写真风格信息，以及用户人物信息。为此，我们分别使用线下训练的风格LoRA模型和线上训练的人脸LoRA模型以学习上述信息。LoRA是一种具有较少可训练参数的微调模型，在Stable Diffusion中，可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到LoRA模型中。因此，个人写真模型的能力分为训练与推断两个阶段，训练阶段生成用于微调Stable Diffusion模型的图像与文本标签数据，得到人脸LoRA模型；推断阶段基于人脸LoRA模型和风格LoRA模型生成个人写真图像。

输入：用户上传的包含清晰人脸区域的图像

输出：人脸LoRA模型

描述：首先，我们分别使用基于朝向判断的图像旋转模型，以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像，得到包含正向人脸的图像；接下来，我们使用人体解析模型和人像美肤模型，以获得高质量的人脸训练图像；随后，我们使用人脸属性模型和文本标注模型，结合标签后处理方法，产生训练图像的精细化标签；最后，我们使用上述图像和标签数据微调Stable Diffusion模型得到人脸LoRA模型。

推断阶段

输入：训练阶段用户上传图像，预设的用于生成个人写真的输入提示词

输出：个人写真图像

描述：首先，我们将人脸LoRA模型和风格LoRA模型的权重融合到Stable Diffusion模型中；接下来，我们使用Stable Diffusion模型的文生图功能，基于预设的输入提示词初步生成个人写真图像；随后，我们使用人脸融合模型进一步改善上述写真图像的人脸细节，其中用于融合的模板人脸通过人脸质量评估模型在训练图像中挑选；最后，我们使用人脸识别模型计算生成的写真图像与模板人脸的相似度，以此对写真图像进行排序，并输出排名靠前的个人写真图像作为最终输出结果。

项目链接

https://github.com/modelscope/facechain

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun267416.html

图像模型训练

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

一款可扩展、易用且免安装的diffusion用户界面 Opendream

上一篇 2023年11月23日

ControlNet 作者开源了一款新的 AI 画图工具 Fooocus

下一篇 2023年11月23日

如何在Windows本地运行Microsoft Phi-3 AI

Microsoft 的 Phi-3 系列语言模型终于来了。就它们的尺寸而言，它们绝对是一个级别的差异，并且已经证明在许多方面比其他最近发布的型号（如 Llama 3 和 Mistr…

2024年4月29日 • Win 11
如何窥视 .使用 PowerToys 在 Windows 上使用 WebP 映像

Microsoft 的 PowerToys 一直是用户执行 Windows 上原生无法执行的各种任务的首选工具。在它的各种实用程序中，有一个是’Peek’，…

2024年4月10日 • Win 11
如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
工具软件

利用 Google Gemini 的强大功能：初学者指南

利用 Google Gemini 的强大功能：初学者指南 Google Gemini 是一款突破性的 AI 模型，可无缝融合语言、图像和代码处理功能。这是一个真正的多模态强国，正在…

2024年3月26日
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

OpenAI Q Star 理论 AI 模型解读

OpenAI Q Star 理论 AI 模型解读如果您有兴趣了解有关 OpenAI Q* Star AI 模型的更多信息，该模型显然正在开发中。本快速指南概述了我们目前所知道…

2024年3月26日
我该使用哪款 AI？AI 模型的超能力与现状

一年多来，GPT-4 一直是占主导地位的 AI 模型，显然比任何其他可用的 LLM 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个GPT-4级模型，它们都为自己的聊天机器…

2024年3月26日 • 工具软件
DepthFM: 使用深度流匹配技术的快速单目深度预测

DepthFM: 使用深度流匹配技术的快速单目深度预测一个深度图分析模型，通过流匹配（Flow Matching）技术，可以有效地实现这一目标，因为它在解空间中形成的直线轨迹既高…

工具软件 2024年3月26日
VoiceCraft：超过XTTS的语音模型

VoiceCraft：超过XTTS的语音模型 VOICECRAFT模型介绍： VOICECRAFT是一个先进的神经编解码语言模型，专门用于语音编辑和零样本文本到语音（TTS）任务。…

工具软件 2024年3月26日
字节发布了AnimateDiff-Lightning 模型

字节发布了AnimateDiff-Lightning 模型字节发布了AnimateDiff-Lightning 模型，只需要 4-8 步的推理就可以生成质量非常不错的视频。跟 …

工具软件 2024年3月26日
工具软件

Suno 发布了自己的歌曲生成模型V3版本

Suno 发布了自己的歌曲生成模型V3版本 Suno 正式发布了他们的 V3 音乐生成模型，现在所有人都可以使用。 V3 改进的内容主要是： ◦ 音质更佳，带来更加清晰动听的音频体…

2024年3月26日
Microsoft Edge 正在 Windows 上获得新的 AI 功能和放大图像

Microsoft Edge具有新的“放大图像”功能，可改进您在浏览器中缩放图像的方式。传统上，您可以右键单击图像，然后选择“在新选项卡中打开图像”选项，这将加载高分辨率版本。然后…

2024年3月24日 • 微软Microsoft
工具软件

有关 OpenAI Q-STAR 的更多细节揭晓

有关 OpenAI Q-STAR 的更多细节揭晓关于 OpenAI 的 Q-STAR 有一个未经证实的泄漏，这是一个对话系统，据说利用基于能量的模型（EBM）来生成响应。据报…

2024年3月24日
工具软件

Midjourney Consistent Characters 提示和技巧

Midjourney Consistent Characters 提示和技巧在《Midjourney》中，你有能力让你的数字角色栩栩如生，但这需要创造力和技术诀窍的融合。本指南将…

2024年3月21日
Microsoft Edge正在Windows上获得新的AI功能和放大图像

Microsoft Edge 具有新的“放大图像”功能，可改进您在浏览器中缩放图像的方式。传统上，您可以右键单击图像，然后选择“在新选项卡中打开图像”选项，这将加载高分辨率版本。然…

2024年3月21日 • 微软Microsoft
如何在Windows上免费打开HEIC图像

当我们熟悉 JPEG、PNG 和 GIF 图像格式时，并不是说这三种图像格式仅用于将数据填充到像素中，使其看起来像图像。随着现代智能手机拍摄的照片太多，为新照片创造更多空间非常重要…

2024年3月17日 • 工具软件
工具软件

GFlowNets是人工智能的未来吗，它们是什么？

GFlowNets是人工智能的未来吗，它们是什么？ GFlowNets 是在 Yoshua Bengio 的指导下开发的，代表了人工智能（AI）领域的一种新颖训练算法，与 Tr…

2024年3月15日
工具软件

Stable Diffusion 和 ComfyUI AI 艺术生成器初学者指南

Stable Diffusion 和 ComfyUI AI 艺术生成器初学者指南如果您想开始使用 Stable Diffusion 和 ComfyUI，乍一看非常复杂。您会很高兴…

2024年3月15日
工具软件

OpenAI 首席技术官透露可能的 Sora AI 视频生成器发布日期

OpenAI 首席技术官透露可能的 Sora AI 视频生成器发布日期 OpenAI 首席技术官（CTO） Mira Murati 在接受《华尔街日报》采访时，对 OpenAI …

2024年3月15日
使用 Canva Magic Edit 替换图像中对象的 2 种方法

Canva 提供了一个魔术编辑工具，允许用户替换图像中的对象并将它们换成其他东西。该工具可用于将带有某些元素的现有图像转换为具有一整套其他元素，方法是将不需要的部分替换为 AI 生…

2024年3月6日 • 工具软件
如何在 Google Gemini 上的提示中添加图像

Gemini 为用户提供了将图像添加到他们的提示中的能力。结合其对图像的反应能力，Gemini 可以“理解”图像，使其成为一个完全可视化（和基于文本）的 AI 聊天机器人。以下是如…

2024年3月4日 • 谷歌Google
如何在 Windows 上使用 PowerToys 批量调整图像大小

那些每天必须处理图像文件的人通常必须调整它们的大小以适应他们的项目和工作需求。但是，如果要处理的图像太多，则单独调整它们的大小会消耗大量时间和精力。在这种情况下，像 PowerT…

2024年2月2日 • Win 11
如何在 Snapchat 中扩展图像

为了跟上 AI 趋势和 AI 为图像处理带来的一系列全新酷炫功能，Snapchat 添加了另一项新功能，即使用 AI 扩展快照的能力。此功能可以帮助您使用 AI 缩小照片并扩展照片…

2024年1月5日 • 技术教程
工具软件

Midjourney 6 与 Midjourney 5 逼真度和电影图像比较

随着 Midjourney 6 的推出，AI 摄影和 AI 艺术生成世界见证了重大飞跃。这个新版本是其前身 Midjourney 5 的重大升级，提供了一套增强功能，旨在重新定义 …

2024年1月3日
工具软件

展示了新的 Runway AI 文本到视频环境运动控制功能

Runway 是一种文本到视频的 AI 服务，它正在改变我们创建视频和动画的方式，它具有强大的新功能，允许用户以令人难以置信的精度为静态图像添加运动。这种环境控制设置对于使用该平台…

2024年1月2日

FaceChain是一个可以用来打造个人数字形象的深度学习模型工具

算法介绍

基本原理

项目链接

相关推荐