SPC-Blog-hadware-requirements-for-training-ai.webp
随着人工智能的广泛应用,越来越多的人参与
CPU
尽管
- 适用于服务器的
AMD EPYC 或 Intel Xeon 可扩展处理器 - 适用于工作站的
Intel Xeon W 或 AMD Threadripper PRO
CPU
内存
尽可能获得足够容量、更高时钟频率的内存(RAM),以实现任务并改善体验(显著节省最宝贵的资源:时间),让我们专注于真正的问题而不是挖空心思寻找变通方法来避免耗尽内存。
深度学习需要多少内存?一个好的经验法则是,如果用于处理图像处理工作流程,至少与系统中的显存(VRAM)一样多的内存;如果涉及大型数据集或者其他工作,可以选择在系统中配置两倍于显存的内存。
用于推理,Llama 3.1 需要多少内存?
GPU
深度学习是一个计算要求很高的领域,您对 GPU 的选择将从根本上决定您的深度学习体验。在深度学习领域,GPU
- GPU 核心 - 对于 NVIDIA 而言,它们是 CUDA 核心;对于 AMD GPU 而言,它们是流处理器。
- 内存大小和带宽。
GPU
- NVIDIA 在 GPU 市场占据主导地位,尤其是在深度学习和复杂神经网络方面。
- 优先选择 Volta、Turing 或者 Ampere 架构中兼具 CUDA cores 和 Tensor Core 的显卡。
建议:
- 适用于大型企业数据中心 - 多台
NVIDIA H100 服务器 - 对于小型数据中心 - 多个
NVIDIA L40S 或 RTX 6000 Ada - 适用于高性能工作站 - 多台
RTX 6000 Ada 对于发烧级性能和修补来说 - 一块
RTX 4090 就足够了。 SabrePC:人工智能的硬件要求
以下是
型号 | 显存 | FP32 | FP16 | 说明 |
---|---|---|---|---|
Tesla P40 | 24GB | 11.76 T | 11.76 T | 比较老的 |
TITAN Xp | 12GB | 12.15 T | 12.15 T | 比较老的 |
1080 Ti | 11GB | 11.34 T | 11.34 T | 和 |
2080Ti | 11GB | 13.45 T | 53.8 T | 图灵架构 |
V100 | 16/32GB | 15.7 T | 125 T | 老一代专业计算卡皇,半精性能高适合做混合精度计算 |
3060 | 12GB | 12.74 T | 约 |
如果 |
A4000 | 16GB | 19.17 T | 约 |
显存和算力都比较均衡,适合进阶过程使用。 |
3080Ti | 12GB | 34.10 T | 约 |
性能钢炮,如果对显存要求不高则是非常合适的选择。 |
A5000 | 24GB | 27.77T | 约 |
性能钢炮,如果觉得 |
3090 | 24GB | 35.58 T | 约 |
可以看做 |
A40 | 48GB | 37.42 T | 149.7 T | 可以看做是 |
A100 SXM4 | 40/80GB | 19.5 T | 312 T | 新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有 |
.
如果显存有限,可以通过量化技术将模型参数从浮点数转换为低精度格式(如8 位整数),从而减少模型所需的显存。这种方法可能会导致一定的性能损失,但在某些情况下足以使模型适应显存限制。另外,模型通常同步提供参数较少的替代模型,以适应可用的显存。可以对比较大模型的量化版本和较小模型两者的效果,再决定采用。
持续追踪
按照
GPU 的选择是比较复杂的事情,需要综合计算需求、成本和 GPU 本身的诸多参数表现。
- 由于 Pascal 架构的旧代 GPU 价格便宜,适合练习或调试。
- Ampere 架构的卡需要 cuda11.1 及以上才能使用,请使用较高版本的框架。
- 虽然价格是一个极大的参考因子,但 GPU 的算力参数不可忽视,防止硬件配置不能满足实际需求,可参考《人工智能超算中心的高性能处理芯片》和《Jetson Nano 2GB 开发套件动手玩》中相关章节。
- 显卡的算力单位基础知识请浏览《浮点数的双精度、单精度和半精度》。
为了体验人工智能大模型推理,本文作者使用的是华硕 TURBO-RTX2080TI-11G。在有显存焦虑的时候,可以换用同级显卡 TITAN RTX,它有相对更多的
最后的建议
由于主流深度学习硬件由
在此我们更关注消费级显卡。NVIDIA GeForce 系列消费级显卡主要的设计应用场景是游戏和图形渲染,也可以用于消费级 AI 推理。
RTX 20
RTX 30
具体来说,半精度可用于
AI
电源
功能足够大的电源,特别是
冷却
部署温度监控程序来监视
整机的配置信息请参考《Windows 95
新的选择
对于创客、初学者和嵌入式开发者,建议使用NVIDIA® Jetson Nano,提供
NVIDIA Jetson Orin Nano
2024
软件升级后
Copilot+ PC
如果您仔细关注,市场上已经出现了许多具有一定算力的边缘和移动设备,可以作为个人深度学习的硬件备选项。
Microsoft Surface(Copilot+ PC 始于 第 11 代 Surface Pro 和第 7 代 Surface Laptop)
ASUS NUC 14 Pro AI(ASUS 华硕生产的第一款 NUC)
近十多年来,微软持续推动
NVIDIA Project DIGITS
2025 年 1 月 6 日,NVIDIA 推出了 NVIDIA® Project DIGITS,这是一款个人 AI 超级计算机,采用全新的 NVIDIA GB10 Grace Blackwell 超级芯片,提供千万亿次的 AI 计算性能,可用于原型设计、微调和运行大型 AI 模型。
NVIDIA® Project DIGITS
楼主残忍的关闭了评论