算力 |BYP’s Notes/白毅平的学习笔记天文地理古今中外

算力
Back

算力

本地部署大模型涉及三个方面需求：训练、微调和推理，其中：
训练：算力最密集，消耗的算力通常是推理过程的至少三个数量级以上；
微调：算力需求低于训练，但高于推理；
推理：算力消耗最低；
算力消耗：训练 > 微调 > 推理

GPU：国外的Colab、vast.ai，国内的阿里云、腾讯云、百度云等大厂，天池、Kaggle等平台，虽然可用，但限制比较多，如资源限制、GPU类型限制、磁盘限制等等，仅适用于小规模数据的学习和测试。

主流的显卡显存容量：超算级别显卡A100、H100、A800、H800为80G显存；其中A100也有40G显存；消费级显卡4090和3090显存为24GB；

NVIDIA先后推出了V100、A100、H100多款专门用于AI训练的芯片；但在2022年10月份，被禁止向中国出售。

阿里云PAI

免费试用流程：1|2| 3| 4| 5| 6| 7|

Google Colab

操作：绑定Dive的步骤|查看资源|运行unsloth|

通过Google 云端硬盘使用（20240807）

智算云GPUEZ

eebyp（20240809）

厚德云

手机（20240817）免费试用。20240818使用Unsloth微调qwen2-0.5b，但是上传Huggingface报错。

优刻得

手机（20240817）

NVIDIA的GPU产品主要有GeForce、Tesla和Quadro三大系列，虽然从硬件角度来看它们都采用同样的架构设计，也都支持用作通用计算(GPGPU)，但因为它们分别面向的目标市场以及产品定位的不同，这三个系列的GPU在软硬件的设计和支持上都存在许多差异。其中Quadro的定位是专业用途显卡而Tesla的定位是专业的GPGPU，单价相对较高，也都很少会被用作其他用途。但面向消费者的GeForce显卡却因为出货量大，价格较低的缘故经常被当作另外两个专业产品的替代品来使用。本文主要探讨Tesla和GeForce系列显卡在各方面的差异。

量化等级	推理时 GPU显存占用	微调时 GPU显存占用
单精度	20G	22G
半精度	13G	14G
INT 8	8G	9G
INT 4	6G	7G

在深度学习和机器学习领域，Tensor（张量）是用于表示多维数组的数据结构，而FP16和FP32指的是张量中数据元素的浮点数的精度类型：

1. **Tensor FP16**：
- FP16代表“半精度浮点数”（Half Precision Floating Point Number）。
- 它使用16位来存储一个浮点数，其中1位用于符号，5位用于指数，10位用于尾数。
- FP16相比FP32可以节省内存和计算资源，因为它需要的位数更少。这在处理大规模数据集或进行深度学习训练时特别有用，因为它可以减少显存占用和加速计算过程。然而，由于精度的降低，可能会对某些应用的准确性产生较小的影响。

2. **Tensor FP32**：
- FP32代表“单精度浮点数”（Single Precision Floating Point Number）。
- 它使用32位来存储一个浮点数，其中1位用于符号，8位用于指数，23位用于尾数。
- FP32提供了比FP16更高的精度，这在许多科学计算和需要高精度结果的应用中是必要的。然而，它消耗更多的内存和计算资源。

选择使用FP16还是FP32取决于具体的应用场景和需求。例如，在深度学习训练中，由于模型参数众多且计算量大，使用FP16可以在不显著牺牲性能的情况下加速训练过程并减少显存占用。而在需要高精度计算的科学模拟或图形渲染等领域，FP32可能是更好的选择。

List All AI | Last update: 2024-08-18|Pageview:808