【资料图】
在Ai绘画领域火热的前夕,我们针对15款NVIDIA 显卡 进行了一次针对Stable Diffusion模型的生成时间测试 【Ai时刻】NVIDIA显卡Ai算力大比拼,想画Ai女友该怎么选? 。结果显示,40系显卡在Ai算力方面具有显著优势,性价比表现出色。如今,随着最后一款40系桌面级显卡—RTX 4060的问世,完整的40系家族也呈现在我们面前。在本期的Ai时刻,我们将重新对40系家族进行Ai算力的解构和评析。 Ai生成 通过使用多模态的Stable Diffusion测试,我们将充分挖掘这些显卡的算力性能。并且,从个人玩家的角度出发,我们将为你揭示哪款显卡是你在Ai领域的最优选择。 在接下来的评测中,我们将对40系显卡家族的各成员进行详细介绍和性能测试,包括RTX 4090、RTX 4080、RTX 4070、RTX 4070Ti、RTX 4060Ti和RTX 4060,以及RTX3060。通过对比他们在Stable Diffusion模型上的表现,将为你提供关于显卡性能和价格的综合考量。 首先介绍一下测试背景与条件:随着Stable Diffusion上的模型与图片生成算法的不断丰富,我们采用了4个测试环节来进行全面且多角度的显卡Ai算力测试: 1.利用NVIDIA官方提供的“Ai房屋”测试,来生成符合官方数据的测试结果。 2.利用civitAi(一个Ai模型聚合网站)上火热的Ai人像模型与图片生成算法进行一组模拟真实小姐姐的测试。 3.利用civitAi(一个Ai模型聚合网站)上火热的Ai人像模型与图片生成算法进行一组模拟魔幻怪物小姐姐的测试。 4.针对第2个测试环节增加生成图像的分辨率,尽量占用每一张显卡的显存,来观察在极限显存占用的情况下,各显卡之间的表现。 首先还是先来看一下参赛选手们的“个人信息”汇总: 其中与Ai绘图会高度相关的参数,我们总结出了这几点,Ai生成图像主要依赖于显卡的并行计算能力。以下是几个显卡核心参数及其与Ai生成图像之间的关系: 1. 显卡流处理器数量(SM):流处理器数量是显卡内部处理单元的数量。每个流处理器包含一定数量的CUDA核心、Tensor核心和其他处理资源。流处理器数量越多,显卡并行处理任务的能力越强,对Ai生成图像的性能提高更明显。 2.显卡CUDA内核数量(CUDA Cores):CUDA核心是NVIDIA显卡的基本处理单元,用于执行并行计算任务。CUDA核心数量越多,显卡的并行计算能力越强,Ai生成图像的速度也会相应提高。 3.显卡Tensor内核(Tensor Cores):Tensor核心是NVIDIA显卡特有的处理单元,专为深度学习和Ai任务设计。它们可以高效地执行矩阵乘法和累加运算,这是深度学习中的核心计算操作。Tensor核心数量越多,显卡在Ai生成图像任务中的性能越优秀。 4.显卡显存容量、显存位宽、显存带宽:显存容量对Ai生成图像的影响取决于模型的大小和复杂度。显存容量越大,可以处理的模型和数据越多。显存位宽和显存带宽影响数据在显卡内部的传输速度。显存位宽越宽、显存带宽越高,显卡处理大型Ai任务的能力越强。 5.L1缓存(MB):L1缓存位于每个流处理器(SM)内部,离CUDA核心和Tensor核心非常近。它的访问速度非常快,但容量相对较小。L1缓存主要用于存储局部变量和线程间共享的数据。在Ai生成图像任务中,高效的L1缓存可以提高处理速度,降低内部数据传输延迟。 6.L2缓存(MB):L2缓存位于显卡的全局内部,所有SM共享。它的容量比L1缓存更大,但访问速度相对较慢。L2缓存主要用于缓存全局 内存 中的数据,以减少显存访问延迟。对Ai生成图像任务来说,高效的L2缓存可以提高数据处理速度,特别是在处理大型模型和数据集时。 L2缓存(MB) 不多说,我们进入测试环节,首先来个官方的开胃菜,画图的参数是:使用v2-1 768-emapruned模型;768*768的尺寸;Steps: 50;CFG scale: 7.5,一组10张图,每次绘画3组,该测试能够反映绝大多数Ai绘图的生成效果成绩,尤其是在做一些工业Ai、实物生成的用途时。 第二组就是我们可爱的Ai小姐姐,我们使用了majicmixRealistic_v6模型,搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。 Steps: 50, 采集器: Euler , CFG : 7.5, Seed: 172450070, Size: 1024x768,共生成1组,6张图片,代表了绝大场景下的Ai模特(女友(误))的生成场景。 第三组是体现Ai创意与耦合生成能力的魔女小姐姐,在关键词中,我们使用了“龙角、血迹、邪恶、狰狞”等,生成效果非常令人满意。使用了majicmixRealistic_v6模型,搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。 Steps: 32, 采样器: DPM++ 2M Karras,CFG : 7.5, Seed: 2316746276, Size: 1200x675,测试意义为更加普遍的DPM++ 2M采样器(常用于复杂的人物模型生成)时的成绩,共生成1组,6张图片,与第二组相互对照。 第四组测试便是针对第2个测试环节增加生成图像的分辨率,尽量占用每一张显卡的显存,来观察在极限显存占用的情况下,各显卡之间的表现。同样使用了majicmixRealistic_v6模型,搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。Steps: 50, 采集器:Euler, CFG : 7.5, Seed: 172450070, Size: 1800x1800,共生成1组,6张图片。此测试主要验证显存与 Ai 生成图像效率之间的关系,是否显存越大必然越快。 由于大多数 Ai 模型训练使用 512x512 图像,生成超高分辨率图像时,Ai 模型对资源的需求会呈指数级增长,需要消耗大量显卡资源,特别是显存资源。同时,图像会大量失真,产生怪异效果,因此不建议生成超高分辨率 Ai 图像。 在占满了每一张显卡的显存情况下(包括拥有24GB显存的RTX4090),这6张图片的生成时间如下: 从测试结果可以解答许多网友的误解,即 Ai 生成仅与显存相关(挖矿的想法)。测试结果显示,尽管 RTX 3060 的显存(12GB/192 位)明显高于 RTX 4060(8GB/128 位),但在显存饱和后的生成时间上,两者之间仍有约 35% 的差距。可见,升级Tensor核心的 RTX 40 系列显卡,尽管显存上处于劣势,性能表现仍远超前代。 测试结果显示,在真实场景下的Ai生成图像任务中,40系显卡表现出明显的阶梯式成绩分布,与各卡的 CUDA 内核数及 Tensor 内核数密切相关。尤其是高端且价格相对友好的 RTX 4070 及 RTX 4070 Ti,其性能表现令人印象深刻。 看到此处,相信大家已对 40 系显卡在 Ai 绘图算力方面有初步判断。那么,作为普通用户,我们会推荐哪款卡?哪款最具“Ai 性价比”?我们选择了某知名显卡品牌的 40 系全系列定价,并结合常规 Ai人像绘图的成绩,计算“Ai算力定价”。由于RTX 3060仅作为对照组,我们不会进行推荐,仅参考40系列的成绩与价格。 我们假设RTX4090在短发小姐姐Ai绘图中的35.46秒为100%,来看其他显卡在Ai绘画时需要RTX4090的多少倍: 我们可以通过比较显卡的性价比来衡量它们在Ai绘图任务上的表现。为了计算性价比,我们可以使用以下公式:Ai性价比 = 显卡算力指数x显卡价格。以RTX4090为基准,我们可以计算其他显卡在相同算力下的性价比。 在这个例子中,RTX4090算力性价比 = 100%算力指数x13999元。接下来,我们可以将其他显卡的性价比与RTX4090的性价比进行比较。这样,我们就可以得出一个各个显卡相对于RTX4090性价比的结论,从而可以更好地判断哪款显卡在Ai绘图任务上性价比更高。 可见,相对于RTX4090来说,RTX4070Ti的纯算力性价比是较高的,也是在算力转化后最为接近RTX4090的一张显卡,那单纯从算力的性价比角度出发,这张卡是除了RTX4090外的最佳选择,而如果屏幕面前的你只是想要在游戏之余,偶尔跑跑Ai,那么我认为RTX4070会是你的最佳选择,一组6张的精致人像图片75秒的运算时间在大多数人的可忍耐范围之内,而RTX4060这样超过2分钟的选手,可能在等待的过程中会有些无聊了。 总的来说,考虑 Ai 绘图场景下的应用,我们推荐 RTX 4070 或 RTX 4070 Ti 这两款显卡。 如今显卡的多功能性是由于技术发展和市场需求共同推动的。在过去的几十年里,计算机图形学的研究取得了重要突破,显卡硬件的性能也得到了显著提升。随着GPU的计算能力越来越强大,显卡逐渐从单纯的渲染图形发展为具备广泛计算能力的硬件平台。此外,各行各业对高性能计算、Ai等领域的需求不断增长,显卡厂商也纷纷投入研发,使显卡更好地适应这些需求。 显卡之所以具有多功能性,关键在于GPU具备强大的并行计算能力和通用计算能力。GPU最初设计用于处理计算机图形,需要同时处理大量像素和顶点。为了高效执行这些任务,GPU采用了高度并行的架构。这使得GPU在处理其他涉及大量并行计算的任务时,也能发挥出强大的性能。 在未来,随着GPU计算能力破茧成蝶般的蜕变,显卡在各个领域的应用将犹如波涛般汹涌澎湃。短短的数年内我们就可以预见显卡将在高性能计算、Ai绘图、Ai生成计算等多重功能的舞台上,如繁星闪烁般绽放越来越耀眼的光芒。 END 我就知道你“在看”关键词: