GPT-4与LLaMA2技术对比，本地部署教程与硬件要求分析

　　摘要：大型语言模型（LLM）在全球范围内受到广泛关注，其中能够提供卓越性能的典型代表是 LLaMA2和GPT-4 。LLaMA2在常识推理、知识面和阅读理解等领域表现出色，而GPT-4在多模态输入输出和语言理解方面更具优势。虽然LLaMA2提高了对抗性prompt的处理性能，但对用户查询过度敏感。GPT-4在安全性方面有显著改进。这些模型的出现为语言处理和数据分析领域提供了更加便捷和高效的解决方案。

　　那么，LLaMA2和GPT-4相比谁更胜一筹呢？接下来将探讨GPT-4与LLaMA2技术的比较，了解它们在自然语言处理领域的不同特点和性能；同时分享LLaMA2的本地部署教程，帮助用户将这一强大的语言模型运行在本地环境中。此外，将探讨LLaMA2对硬件的要求，了解在硬件资源方面的需求和优化。最后，会简要介绍蓝海大脑的大模型训练平台，包括对大规模模型的训练和优化。

　　GPT-4与LLaMA2技术对比

　　LLaMA2是LLaMA系列预训练语言模型的新版本，采用预规范化、SwiGLU激活函数和旋转位置嵌入等优化技术，并通过监督微调和强化学习优化。在常识推理、知识面、阅读理解和数学能力等领域表现优异。GPT-4是GPT-3的升级版，具备接受图像和文本输入以及生成文本输出能力。GPT-4基于Transformer模型在多模态输入输出、语言理解和生成等方面展现出强大的能力。

　　在性能方面，LLaMA2在常识推理、知识面和阅读理解等方面表现突出，但在某些编码任务上稍逊于GPT-4。而GPT-4在多模态任务上表现出色。

　　在安全性方面，LLaMA2经过安全微调和上下文蒸馏技术的应用，对抗性prompt处理性能显著提高，但对用户查询过度敏感。经过6个月的安全改进，GPT-4在不允许内容的请求回应方面的可能性降低82%，对真实回应的可能性提高40%。

　　一、架构和模型规模介绍

　　1、LLaMA2架构和模型规模

　　LLaMA2是Meta在今年3月初发布的LLaMA大模型的升级版本。相较于LLaMA1，LLaMA2在多个方面有了全面提升，包括模型规模、训练数据量、数据质量、训练技术、模型结构和安全训练等。其采用标准的Transformer架构，并提供三种尺寸的开源模型：7B、13B和70B。同时优化过程结合监督微调和强化学习人类反馈(RLHF)。模型首先经过监督微调，然后通过拒绝采样和PPO等强化学习算法进行迭代改进。在模型架构方面，LLaMA2引入预规范化、SwiGLU激活函数和旋转位置嵌入等措施。

　　LLaMA2-Chat提供四个版本，具备不同参数数量，分别为70亿、34亿、13亿和7亿。在监督微调阶段，使用约3万个高质量的示范性样本进行调整。而在RLHF过程中，收集超过100万个人类偏好比较数据，并训练专门用于安全性和有用性奖励模型。为了有效控制多轮对话的复杂性，还采用基于风险类别的上下文蒸馏和Ghost Attention机制等新技术。

　　2、GPT-4架构和模型规模

　　GPT-4 是一种由OpenAI开发的大规模多模态语言模型，具备图像和文本输入以及生成文本输出的能力。在许多专业和学术基准测试中表现接近或超越人类水平。基于Transformer架构，通过预训练来预测文档中的下一个标记。通过微调过程，提高其准确性和符合预期行为的程度。多模态技术使GPT-4能够处理和整合多种类型的输入和输出，从而实现更自然、高效的人机交互。GPT-4的架构包括编码器、解码器和注意力机制，通过这些组件对输入和输出进行处理。

　　二、预训练数据集

　　1、LLaMA2预训练数据集

　　近年LLaMA2采用自回归Transformer的预训练方法，并对数据预训练进行一系列优化以提高性能。具体来说包括更稳健的数据清理、更新的数据组合和增加的训练标记数量。上下文长度增加了一倍，并且引入GQA（Group Query Attention）来提高大模型推理的可扩展性。训练语料库包括各种公开的新数据组合，但不包括Meta的产品或服务中的数据。

　　在训练细节方面，Meta团队保留一些先前预训练设置和模型架构，并进一步创新。其团队仍然使用标准的Transformer架构，采用RMSNorm进行预规范化，引入SwiGLU激活函数和旋转位置嵌入。同时，研究人员还比较了LLaMA2系列不同规模模型的训练损失。值得注意的是，在预训练过程中使用2T数量的token，并观察到模型在此训练规模下并未出现饱和的迹象。

　　LLAMA2 模型的训练损失

　　在训练硬件方面，Meta团队分别在研究超级集群（Research Super Cluster, RSC）和内部生产集群（这两个集群均配备NVIDIA A100 GPU）上进行LLaMA2模型的预训练。

　　预训练期间的 CO2 排放

　　2、GPT-4预训练数据集

　　GPT-4的训练数据集包括约13万亿个token。在训练过程中，对基于文本的数据进行2个epoch的训练，对基于代码的数据进行4个epoch的训练。此外，使用来自ScaleAI和内部的数百万行微调数据，对模型进行进一步的优化和调整。这些多样化的数据来源为GPT-4的训练提供丰富的素材，并有助于提高其在各种任务上的性能和泛化能力。

　　三、任务性能

　　1、LLaMA2 任务性能

　　LLaMA2是经过全面评估的语言模型，其性能在多个任务和基准测试中显著提升。在代码理解和生成方面，模型在HumanEval和MBPP基准上的平均pass@1分数表现出色。在常识推理方面，LLaMA2在PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge、OpenBookQA以及CommonsenseQA等多个项目上表现优异。

　　在阅读理解能力方面，LLaMA2在SQuAD、QuAC和BoolQ等基准上的0-shot平均成绩也表现出色，这对于衡量模型在阅读理解任务中的能力非常重要。在数学能力方面，LLaMA2在GSM8K（8-shot）和MATH（4-shot）基准上的平均成绩得到评估，并取得令人满意的结果。此外，LLaMA2在其他热门综合基准如MMLU（5-shot）、Big Bench Hard（BBH）（3-shot）和AGI Eval（3-5 shot）上也取得令人瞩目的成绩。

　　通过对比数据观察到，LLaMA2在多个方面优于LLaMA1，尤其是与LLaMA1-65B模型相比，LLaMA2-70B在MMLU和BBH基准上的成绩分别提高5分和8分。此外，在除代码基准外的所有测试中，LLaMA2-7B和30B模型都优于同规模的MPT模型。在与Falcon模型的对比中，LLaMA2-7B和34B在所有基准测试中的表现均优于Falcon-7B和40B模型。LLaMA2-70B模型在所有开源模型中也展现出优势。

　　MPT 、Falcon 、LLAMA1 和 LLAMA2 模型对比

　　2、LLaMA2任务性能与 GPT-4 任务性能对比

　　Meta团队还对LLaMA2-70B进行了与闭源模型的比较。结果显示，LLAMA2-70B在MMLU和GSM8K基准上的得分接近于GPT-3.5，但在编码基准上存在明显差距。与PaLM 540B相比，LLaMA2-70B在几乎所有基准测试中表现更为优越。然而，与GPT-4和PaL2-L相比，LLaMA2-70B仍然存在较大的性能差距。

　　与闭源模型的比较

　　3、LLaMA2 监督微调

　　Meta团队采用监督微调（SFT）的方法对LLaMA2进行优化。为确保模型在对话式指令相关任务中的一致性，专注于收集高质量的SFT数据示例。通过这些示例，有效地引导模型的微调过程，提高在特定任务上的性能和泛化能力。在微调过程中，每个样本由一个提示和一个回答组成，通过特殊的分隔符进行区分。利用自回归目标将用户提示的token损失设为零，仅对答案token进行反向传播，以提高生成回答的准确性和合理性。

　　SFT 注释

　　4、LLaMA2模型奖励

　　在模型奖励方面，研究团队采用奖励模型来评估模型生成回复，并生成一个标量分值来衡量生成质量。奖励模型的初始化使用预训练聊天模型检查点，并将原本的下一个token预测分类器替换为标量奖励值回归器。在训练过程中，采用带有边际约束的二元排序损失函数，以提高奖励模型的准确性。

　　训练参数设置方面，对于70B模型，最大学习率为5e-6，其他模型为1e-5。采用余弦学习率下降策略，将最低学习率设为最大学习率的10%，并进行总步数的3%进行预热（最少5步）。同时，训练批次大小设置为1024，以提高训练效率和稳定性。

　　用于奖励建模的人类偏好数据统计

　　5、LLaMA2模型奖励结果

　　有用性奖励模型在元有用性测试集上取得非常好的成绩，而安全性奖励模型则在元安全性测试集上表现非常好的。这些结果证明Meta团队在奖励模型开发和优化方面的显著成果，为LLaMA2-Chat在对话式指令相关任务中的成功提供有力支持。这种自主开发的奖励模型为LLAMA2在各个领域的应用奠定坚实的基础，并展现进一步提升模型性能的巨大潜力。

如图片无法显示，请刷新页面

　　模型奖励结果

　　6、LLaMA2与 GPT-4 模型奖励对比

　　研究人员不仅评估Meta团队自行开发的奖励模型，还对其他公开的替代方案进行评估，包括基于FLAN-T5-xl的SteamSHP-XL、基于DeBERTa V3 Large的Open Assistant的奖励模型以及GPT4。更多的训练数据和更大的模型通常会提高模型的准确性。目前结果显示，Meta的模型还没有达到从训练数据中学习的饱和点，仍具备进一步提升的潜力。下图展示相关结果：

　　奖励模型的扩展趋势

　　随着持续的研究和发展，Meta的模型有望在更多任务和领域上展现出卓越的性能。在RLHF的结果中，Meta的研究人员采取一系列策略从RLHF-V1到V5的每个版本中选择每次迭代中表现非常好的的模型。

　　接下来，通过综合考量的方法，Meta团队有效地选择优秀的模型版本，不断优化LLaMA2-Chat的性能，使其在不断发展的研究领域中保持竞争力，为实际应用中提供更强大和高效的语言生成能力。

　　奖励模型的扩展趋势

　　在图的左侧，Meta团队开发的奖励模型作为裁判，对比LLaMA2-Chat和ChatGPT。而在图的右侧，GPT-4作为裁判，对比LLaMA2-Chat和ChatGPT。GPT-4是一个独立的闭源模型，其结果应该相对中立，因为不受Meta团队的影响。

　　通过将LLaMA2-Chat与GPT-4进行对比，可以更客观地评估LLaMA2-Chat在特定任务上的性能和优势。这样的对比演变图有助于全面了解LLaMA2-Chat在不同阶段的改进和表现，同时也反映了Meta团队在模型优化和微调方面的不懈努力。

如图片无法显示，请刷新页面

　　人工评价结果

　　通过人工评估，研究人员能够更准确了解模型在生成回答时的实际表现以及其在特定任务上的优势和不足。评估过程中，将LLaMA2-Chat模型与闭源模型（ChatGPT）在超过4000个单轮和多轮的提示上进行了比较。提示涵盖不同领域和难度级别的任务，旨在全面考察模型的性能。

　　根据图表结果，可以观察到在LLaMA2-Chat最大模型与ChatGPT进行对比时，70B版本的胜率为36%，平局率为31.5%。这意味着在一定数量的测试样本中，LLaMA2-Chat在某些任务上取得胜利，并且与ChatGPT平局。然而，仍有一部分任务在LLaMA2-Chat的表现上相对较弱。

　　四、多语种支持

　　从语言角度来看，LLaMA2 模型在支持中文输入方面具有一定的能力，即可以接受中文作为输入，但其回答大多数情况下都采用英文。这表明 LLaMA2在中文理解和生成方面的能力相对有限。

　　相较于LLaMA2模型在中文处理方面的有限性，GPT-4 展现出更强大的中文语言处理能力。 GPT-4 支持中文输入输出，并且能够完成流利的中文对话。

　　五、可解释性和抗偏见性

　　1、GPT-4的缺陷

　　尽管GPT-4在处理自然语言方面具有先进性，但仍然面临一些局限和挑战。其中包括社会偏见、幻觉和对抗性提示等问题，这些都是需要解决的重要方面。

　　GPT-4 校准图

　　左图展示了GPT-4模型在MMLU子集上的校准图，显示出良好的校准性，预测置信度与实际正确的概率接近。右图展示了经过PPO训练后的GPT-4模型的校准图，显示出训练流程对模型的校准性造成了较大损害，预测的置信度与实际正确的概率偏离较大。校准性是模型评估中的重要指标，反映了模型预测结果的可信度和置信度。模型的校准性对于确保可靠的输出在实际应用中非常重要。

　　2、GPT-4 的安全性与合规性

　　OpenAI经过长达6个月的努力以提高GPT-4的安全性和一致性。在内部评估中，GPT-4相较于GPT-3.5在回应不允许内容的请求方面的可能性降低82% 。同时，在生成真实回应方面，GPT-4相较于GPT-3.5提高40% 。此外，对于政策响应敏感的请求（如医疗建议和自我伤害），GPT-4的回应频率较GPT-3.5提高29% 。

　　其结果显示，OpenAI对GPT-4进行有效的改进，使其更好地遵循内容限制，减少不适当或不当回应的产生。同时，GPT-4在生成真实回应方面表现更加准确和可靠，有助于提供更有价值的信息和服务。

　　禁止和敏感内容的不正确行为率

　　3、LLaMA2 的安全性与合规性

　　为了评估LLaMA2的安全性，Meta团队使用TruthfulQA、ToxiGen和BOLD三个基准来评估其在真实性、有害内容生成和偏见等方面的表现。

如图片无法显示，请刷新页面

　　预训练数据的毒性

　　通过图表展示了预训练语料库中英文数据的有害内容生成情况，使用ToxiGen基准和HateBERT分类器进行评估。在安全微调方面，采用监督安全微调、安全RLHF和安全上下文蒸馏技术。在LLAMA2-Chat的开发阶段，模型能够从安全示范中获得经验，迅速学会撰写详细的安全回复、解决安全问题，并解释可能涉及敏感话题的原因，提供更多有用的信息。值得注意的是，模型输出的安全回复通常比普通注释者写得更详细。因此，在收集几千个有监督示范之后，完全转向使用RLHF来指导模型生成更加细致入微的回复。

　　奖励模型得分分布对 RLHF 安全性的影响

　　Meta采用一种称为RLHF的方法来提高模型的安全性。首先，收集人类对安全性的偏好数据，其中注释者编写可能引发不安全行为的提示。然后将多个模型的回应与这些提示进行比较，并根据一系列准则选择最安全的回应。接下来使用人类偏好数据来训练安全奖励模型，并在RLHF阶段重新利用对抗性提示来从模型中进行采样。

　　奖励模型得分分布对 RLHF 安全性的影响

　　Meta使用平均奖励模型得分来评估模型在安全性和有用性方面的表现。通过增加安全数据的比例，模型在处理风险和对抗性提示时的性能显著提高。

　　上下文蒸馏分析

　　最后，采用一种上下文蒸馏的方法来完善RLHF（强化学习和人类反馈）流程。这种方法是在提供回应之前添加安全前置提示，例如「你是一个安全且负责任的助手」，以生成更安全的模型回应。然后，在没有前置提示的情况下微调模型，以将安全前置提示（上下文）的信息融入模型中。Meta选择性地应用上下文蒸馏，模型可以灵活地决定是否对每个样本使用上下文蒸馏，Meta能够更准确地控制上下文蒸馏的应用，从而进一步提升模型的安全性。

　　图表展示单轮和多轮对话中违规百分比的比较。有趋势表明，多轮对话更容易引发不安全的响应。具体来说，相较于基线模型，LLaMA2在多轮对话中表现良好。

　　单圈和多圈违规率

　　在测试中，LLaMA2模型遇到一些问题。其中一个主要问题是由于频繁的RLHF训练，导致模型过于守规矩，对用户的查询做出过于保守的回应。此外，LLAMA2在安全性方面过度敏感，可能会错误解读用户的查询。例如，当用户要求写一首诗时，模型回答说不能赞扬暴力。这些问题揭示了模型在处理多样化用户请求时的限制和不足之处。

　　LLaMA2 本地部署教程

　　尽管LLaMA2在处理中文方面仍有待提升，但整体表现令人瞩目。下面与大家分享一下如何在Linux环境下部署LLaMA2模型，并且如何利用YourChat在团队中共享模型。

　　一、下载注册模型

　　访问以下网址：https://ai.meta.com/resources/models-and-libraries/llama-downloads/。在该网页上，填写一些基本信息（姓名、电子邮箱、国家和公司）进行注册。完成注册后，就会收到Meta发来邮件，内容如下：

　　在邮件中会收到一个密钥（key），通常是以图片的形式呈现其中的一部分被涂黑。这个密钥实际上是一个网址，但直接访问该网址无效，而需要将密钥复制下来（将在后续的步骤中用到）。

　　二、下载LLaMA2

　　目前，LLaMA2已经推出6种不同的模型：7B、13B、70B、7B-chat、13B-chat、70B-chat。值得一提的是，Chat版本采用RLHF进行微调，这在当前的大语言模型中非常前沿。

　　访问LLaMA的GitHub仓库（链接：https://github.com/facebookresearch/llama）并克隆该项目库。完成克隆后，在项目库中找到并运行download.sh脚本，按照提示输入之前复制的key，并选择需要的模型进行下载。

　　刚刚下载的模型文件夹以"LLaMA2"开头，可以根据需要选择其中一个进行使用。以下是官方对硬件的要求：

　　三、转换模型

　　根据官方指南，有两种部署方式可供选择：transformers和oobabooga的text-generation-webui。需要进行实际部署，所以选择text-generation-webui。需要注意的是刚刚下载的模型是.pth格式，而text-generation-webui默认使用huggingface格式的模型。因此，需要进行一次转换操作。

　　目前，Transformer库还没有提供针对LLaMA2的转换脚本。不过，可以先借用第一代LLaMA的转换脚本进行转换。

　　首先，需要将这个repo https://github.com/huggingface/transformers.git 克隆到本地。转换脚本的路径是：src/transformers/models/llama/convert_llama_weights_to_hf.py。

　　在进行转换之前，需要进行一些操作以使模型能够按照脚本预设的目录结构运行。LLaMA提供4种不同规模的模型：7b、13b、30b、65b。因此，为了使用第一代LLama的转换脚本，需要将下载的模型文件夹名称更改为这些名称，以便脚本能够正确识别。

　　完成重命名后，可以运行convert_llama_weights_to_hf.py脚本来进行模型转换。以下是具体的参数设置：

　　python src/transformers/models/llama/convert_llama_weights_to_hf.py \

　　--input_dir [llama repo所在路径] \

　　--model_size [7B,13B] \

　　--output_dir [huggingface格式模型输出文件夹]

　　转换完成后，在output_dir（即huggingface格式模型输出文件夹）中找到以下文件：

　　config.json

　　pytorch_model-00001-of-00002.bin

　　pytorch_model-00002-of-00002.bin

　　tokenizer_config.json

　　generation_config.json

　　tokenizer.model

　　special_tokens_map.json

　　pytorch_model.bin.index.json

　　拥有这些文件，就可以进行下一步操作了。

　　四、搭建text-generation-webui

　　text-generation-webui是一个在GitHub上的开源项目，也是目前广泛用于运行开源模型的软件之一。

　　text-generation-webui的安装非常简单，只需从GitHub上克隆项目：https://github.com/oobabooga/text-generation-webui/。克隆完成后，将之前转换好的huggingface格式的模型文件夹完整地放入"models"文件夹中，目录结构如下所示：

　　将刚才生成好huggingface格式的模型文件夹整个放入models中，文件结构如下图：

　　在上一步中，将转换后的huggingface格式的模型文件夹命名为"llama-2-7b-chat"。完成这一步后，模型部署就基本完成。现在，可以运行text-generation-webui来与LLama2模型进行对话。具体的命令如下：

　　python server.py --model [output_dir中指定的huggingface输出文件夹名字] --api --listen

　　五、分发模型

　　现在，已经成功搭建Llama2模型，接下来可以通过YourChat来与朋友或同事分享。YourChat是一个聊天客户端，支持text_generation_webui的API，并适配Android、iOS、Windows和MacOS等多个平台。以下以Windows版本为例，其他平台操作类似。

　　在上一步中，在启动text_generation_webui时添加了一个--api参数，这使得text_generation_webui支持API调用。如果想使用YourChat，API功能必须开启。

　　首先，将刚刚搭建的text_generation_webui添加到YourChat的服务中。

　　如果之前已经下载YourChat，那么在YourChat的"服务"界面中，点击右下角的"+"按钮，添加一个新的服务。在"名称"栏中，输入你的服务名称，例如模型名称"llama-2-7b-chat"。在"Host"栏中，填写你的模型服务器的地址，比如"192.168.2.2"。

　　然后点击右上角的保存按钮，Llama2模型就成功地被添加到了YourChat中，现在可以开始和Llama进行聊天了。

　　YourChat还支持OpenAI的API，使得一键分发变得非常便捷。操作步骤很简单：进入"设置"->"订阅链接"界面，点击"新建订阅链接"。在弹出页面中输入订阅名称（例如"llama"），并勾选刚刚设置的Llama2服务。点击"发布服务到我的链接"后，将获得一个订阅链接，其中包含一个8位数的密码，只需将该链接分享给你的同事们即可。

　　同事在收到你的订阅链接后，下载个yourchat，用浏览器访问下链接，就可以访问你的llama2了。

　　至此，就完成了llama2模型的搭建和分发。虽然目前只在局域网中进行分发，但如果需要在公网中发布，还可以配合使用text_gernation_webui的public-api功能。

　　Llama 2对硬件的要求

　　大型语言模型（LLM）是一种强大的工具，可以生成各种任务和领域的自然语言文本。其中一种非常先进的LLM是由Facebook的研究部门Meta AI开发的LLaMA（大型语言模型Meta AI），包含650亿个参数。那么要运行LLaMA模型，需要什么样的服务器可以运行呢？下面将从硬件方面为大家展开详细的介绍。

　　在消费级硬件上运行LLaMA模型有多种方法可选，其中最常见的方法是使用单个NVIDIA GeForce RTX 3090 GPU。该GPU拥有24GB内存，足以运行LLaMA模型。RTX 3090可以运行4位量化的LLaMA 30B模型，每秒大约处理4到10个令牌。在消费级台式电脑上，拥有24GB VRAM似乎是使用单个GPU的非常好的选择。

　　如果想运行更大的模型，那么则需要使用双GPU设置。这样可以将模型权重放入VRAM中。还可以选择使用高级GPU，比如NVIDIA A100。虽然这个GPU价格昂贵，但它拥有80GB内存，可以更好地运行模型。

　　也可以在CPU上运行LLaMA模型。为了使用CPU，需要使用GGML版本的模型（LLaMA、Vicuna、Alpaca和GPT4All），以及名为llama.cpp的软件。适合运行LLaMA的CPU包括Core i7 12900K和Ryzen 9 5900X。需要注意的是，训练或微调LLaMA模型所需的VRAM比运行模型时更多，因为训练过程需要将模型和训练数据存储在VRAM中。训练所需的VRAM量取决于模型的大小和训练数据量。如果想在台式电脑上使用LLaMA模型，请确保满足以下硬件要求：

　　一、运行 LLaMA 的 GPU要求

　　在消费级机器上运行LLaMA时，GPU是最重要的计算机硬件，因为承担了模型大部分处理的任务。GPU的性能将直接影响推理速度和准确性。不同变体和实现的模型可能对较低性能的硬件有一定的要求，但GPU仍然是系统中最关键的组件。对于4位量化的LLaMA模型，以下是GPU的要求：

　　1、LLama-7B

　　建议使用至少具有6GB VRAM的GPU。适合这个模型的GPU示例是提供8GB VRAM版本的RTX 3060。其他GPU，如GTX 1660、2060、AMD 5700 XT或RTX 3050，也具有6GB VRAM，可以作为支持LLaMA-7B的良好选择。

　　2、LLaMA-13B

　　使用至少具有10GB VRAM的GPU。满足此要求的GPU示例包括AMD 6900 XT、RTX 2060 12GB、3060 12GB、3080或A2000。

　　3、LLaMA-30B

　　建议使用至少具有20GB VRAM的GPU。RTX 3080 20GB、A4500、A5000、3090、4090、6000或Tesla V100是提供所需VRAM容量的GPU示例。

　　4、LLaMA-65B

　　LLaMA-65B模型在与至少具有40GB VRAM的GPU配合使用时，能够实现非常好的性能。适用于该模型的GPU示例包括A100 80GB、A800、H100、H800、2x3090、2x4090、A40、RTX A6000或8000。这些GPU提供充足的VRAM容量，能够处理与LLaMA-65B相关的密集计算任务。每个LLaMA模型都有特定的VRAM要求，建议选择GPU时要考虑其是否满足或超过这些要求，以确保相应的LLaMA模型能够平稳高效地运行。

　　二、运行LLaMA 的 CPU要求

　　在选择适合 GPU 的模型时，除需要一块支持 GPU 的显卡，还需要一颗能够处理其他任务（如数据加载和预处理）的 CPU。与针对 CPU 优化的模型相比，基于 GPU 的模型对 CPU 的要求较低。推荐的适用于 LLaMA 的 CPU 包括 Intel Core i9-10900K、i7-12700K 和 Ryzen 9 5900x。然而，为获得更好的性能，可能需要选择更强大的 CPU，如拥有 64 核和 128 线程的 AMD Ryzen Threadripper 3990X。然而，重要的是 CPU 的速度，在选择昂贵的服务器 CPU 和高端游戏 CPU 时，后者往往更具优势。

　　三、运行LLaMA 的内存要求

　　除 GPU 和 CPU，用于存储模型参数和数据的RAM（随机存取存储器）和存储空间也是必需的。对于 4 位的 LLaMA-30B 模型，最低要求的 RAM 容量为 32 GB，可以将整个模型保存在内存中，无需进行磁盘交换。然而，对于较大的数据集或较长的文本，可能需要更多的 RAM，例如 64 GB 或 128 GB。

　　每生成一个令牌，整个模型都需要从内存中读取一次。例如，如果使用的是 Core i9-10900X（支持 4 通道）和 DDR4-3600 内存，那么带宽吞吐量为 115 GB/s，而模型大小为 13 GB。在这种情况下，理论上的限制约为每秒 8.8 个令牌，无论 CPU 的速度有多快或有多少个并行核心。RAM 的大小取决于GGML 量化的类型和所使用的模型（如 LLaMA、Alpaca、Wizard、Vicuna 等）。

　　以下是在 CPU 上使用 LLaMA 模型所需的内存（RAM）要求的总结：

　　在 CPU 上运行时基于内存 (RAM) 速度的模型 (8GB) 推理速度：

　　速度为理论最大值，取决于操作系统和系统负载

　　四、运行LLaMA的存储要求

　　LLaMA模型的最低存储要求为1TB的NVMe SSD，这种高速存储设备可以快速读写模型文件和数据文件。如果需要更多的存储空间或进行数据备份，则需要选择更大容量的存储设备，如2TB或4TB的NVMe SSD。在选择存储设备时，建议选择具有出色顺序读写速度的PCIe 4.0 NVMe SSD，以便实现存储和系统RAM之间的快速数据传输。

　　五、模型量化如何影响 GPU 的选择？

　　量化LLM使用较少的位数来存储和处理模型的权重和激活值，从而使得在GPU上的部署更快速、更高效。例如，4位量化LLM仅使用4位来表示每个权重或激活值，相比于全精度模型，占用更少的内存和计算时间。

　　而8位量化LLM每个权重或激活值使用8位表示，减少了内存和计算成本，但不如4位量化那么显著。需要更多的GPU内存和计算能力才能良好运行，因此更适合具有高VRAM容量和计算能力的GPU。

　　LLaMA模型的精度直接影响其对GPU内存和计算能力的需求。原生（32位）LLaMA模型需要最多的GPU内存和计算能力，而4位量化LLaMA模型需要最少。

　　如果只需要在少数特定任务上运行小型LLaMA模型，那么可以使用具有较小容量的VRAM和较低计算能力的GPU。需要注意的是，降低精度会导致模型准确性下降，因为精度降低可能导致模型预测出现错误。选择最适合需求的量化级别是关键。如果需要一个小而高效的模型，可以考虑使用4位或8位量化模型；如果需要高度准确的模型，可能需要使用16位模型。

　　六、双GPU是否有效提升 LLaMA性能？

　　添加GPU 可能不会像预期的那样显著提高文本生成速度。瓶颈问题似乎阻碍简单增加计算能力的解决方案。一些测试结果令人惊讶地显示，低端 GPU 每秒生成令牌的速度比高端 GPU 更快。

　　目前还不清楚原因，可能需要更好的优化才能充分利用双 GPU 设置。双 GPU 设置虽然具有更多的 VRAM，但每个 GPU 仍然受到其自身的 VRAM 限制。30B LLaMA 需要大约 20GB VRAM，所以即使有两个带有 24GB VRAM 的 RTX 3090 GPU，可用的 VRAM 仍然只有 24GB。

　　该模型需要适应单个 GPU 的 VRAM 才能正常运行。但是，如果模型太大而无法容纳单个 GPU 的 VRAM，并且需要利用系统 RAM，使用多个 GPU 确实可以加快处理速度。在这种情况下，每个 GPU 可以处理模型的一部分，并且计算负载在它们之间分配，可以提高大型模型的速度，超过单个 GPU 的 VRAM 容量限制。

　　将像65B LLaMA 这样的大型语言模型拆分到具有模型并行性的多个 GPU 上可能会很困难，并且可能会导致通信延迟。通过 GPU 拆分和同步模型的参数和计算需要仔细编码，并且可能并不总是能够显著提高性能。双 GPU 设置可能不适用于某些软件。某些机器学习框架或库可能无法充分利用多个 GPU，并且可能需要额外的工作来设置和优化系统以使用双 GPU。这些限制意味着，在考虑使用双 GPU 设置的同时，需要权衡其潜在优势、困难和可能的问题。有时，获得更强大的单个 GPU 或尝试其他优化方法可能是更好的选择。

　　七、为 LLaMA 选择 PC 硬件的技巧

　　1、围绕 GPU 构建

　　创建一个包含主板、CPU 和 RAM 的平台。 GPU 处理训练和推理，而 CPU、RAM 和存储管理数据加载。选择支持 PCIe 4.0（或 5.0）、多个 NVMe 驱动器插槽、x16 GPU 插槽和充足内存 DIMM 的主板。建议使用单线程速度较高的 CPU，例如 Ryzen 5000 或 Intel 第 12/13 代。

　　2、型号选择和 VRAM

　　为了在响应质量方面获得非常好的性能，建议在具有至少 20GB VRAM 的 GPU 上运行 8 位 13B 模型或 4 位 30B 模型。两种型号都提供相似的质量响应，VRAM 可用性应该是决定因素。投资具有张量核心的 Nvidia GPU 以增强性能。建议考虑 RTX 30 或 RTX 40 系列等，例如 RTX 3090 24GB、RTX 4090 24GB，以获得非常好的性能。

　　3、速度比较

　　就每秒生成的令牌而言，13B 模型通常比30B 模型运行得更快。虽然确切的速度差异可能有所不同，但与 30B 模型相比，13B 模型往往会在生成速度方面提供显着的改进。

　　4、内存要求

　　目标是至少 1.5 倍 VRAM 容量或两倍 VRAM 以获得非常好的性能。当使用 128GB 或更多 RAM 时，主板和 CPU 的选择变得至关重要。

　　5、PCIe 4.0 NVMe 固态硬盘

　　PCIe 4.0 NVMe SSD 的重要性主要在于将初始模型加载到 VRAM 中。模型加载后，SSD 对生成速度（令牌/秒）的影响很小。

　　6、足够的常规 RAM

　　拥有足够的RAM（最好是 VRAM 容量的两倍）对于初始模型加载至关重要。模型一旦加载，对实际生成速度的影响是有限的。确保初始加载期间有足够的常规 RAM 对于流畅的体验至关重要。

　　7、CPU单线程速度

　　CPU 的单线程速度主要对于初始模型加载非常重要，而不是在生成期间运行模型。CPU的作用在数据预处理、模型加载和其他不依赖GPU的操作等任务中更加突出。

　　8、扩展以提高速度

　　如果你需要将文本生成速度从 15个令牌/秒提高到 30个令牌/秒，设置整个 PC 的文字克隆可能比添加第二个 3090 卡更有效。对整体系统资源（包括 CPU 和 RAM）加倍可能会在提高文本生成速度方面产生更好的结果。

　　9、单GPU性能

　　由于 GPU 本身的内部带宽优势，单个 GPU 通常比多 GPU 设置提供更快的性能。

　　10、电源及机箱

　　投资具有足够容量为所有组件供电的高质量电源。选择通风良好的宽敞机箱以获得非常好的散热效果。

　　蓝海大脑大模型训练平台

　　蓝海大脑大模型训练平台提供强大的算力支持，包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑，满足大模型训练中张量并行的通信需求。支持高性能I/O扩展，同时可以扩展至万卡AI集群，满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术，当BMC收到PSU故障或错误警告（如断电、电涌，过热），自动强制系统的CPU进入ULFM（超低频模式，以实现最低功耗）。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI及大数据等领域。

v2-6a883ba7d5614d8fa9b34792b37d6fc8_1440w-恢复的

　　一、为什么需要大模型？

　　1、模型效果更优

　　大模型在各场景上的效果均优于普通模型

　　2、创造能力更强

　　大模型能够进行内容生成（AIGC），助力内容规模化生产

　　3、灵活定制场景

　　通过举例子的方式，定制大模型海量的应用场景

　　4、标注数据更少

　　通过学习少量行业数据，大模型就能够应对特定业务场景的需求

　　二、平台特点

　　1、异构计算资源调度

　　一种基于通用服务器和专用硬件的综合解决方案，用于调度和管理多种异构计算资源，包括CPU、GPU等。通过强大的虚拟化管理功能，能够轻松部署底层计算资源，并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力，以加快模型的运行速度和生成速度。

　　2、稳定可靠的数据存储

　　支持多存储类型协议，包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通，提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制，确保模型和数据的安全稳定运行。

　　3、高性能分布式网络

　　提供算力资源的网络和存储，并通过分布式网络机制进行转发，透传物理网络性能，显著提高模型算力的效率和性能。

　　4、全方位安全保障

　　在模型托管方面，采用严格的权限管理机制，确保模型仓库的安全性。在数据存储方面，提供私有化部署和数据磁盘加密等措施，保证数据的安全可控性。同时，在模型分发和运行过程中，提供全面的账号认证和日志审计功能，全方位保障模型和数据的安全性。

　　三、常用配置

　　目前大模型训练多常用H100、H800、A800、A100等GPU显卡，以下是一些常用的配置。

　　1、H100服务器常用配置

　　英伟达H100 配备第四代 Tensor Core 和 Transformer 引擎（FP8 精度），与上一代产品相比，可为多专家 (MoE) 模型提供高 9 倍的训练速度。通过结合可提供 900 GB/s GPU 间互连的第四代 NVlink、可跨节点加速每个 GPU 通信的 NVLINK Switch 系统、PCIe 5.0 以及 NVIDIA Magnum IO™ 软件，为小型企业到大规模统一 GPU 集群提供高效的可扩展性。

　　搭载 H100 的加速服务器可以提供相应的计算能力，并利用 NVLink 和 NVSwitch 每个 GPU 3 TB/s 的显存带宽和可扩展性，凭借高性能应对数据分析以及通过扩展支持庞大的数据集。通过结合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™，NVIDIA 数据中心平台能够以出色的性能和效率加速这些大型工作负载。

　　CPU：英特尔至强Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

　　内存：动态随机存取存储器64GB DDR5 4800兆赫 *24

　　存储：固态硬盘3.2TB U.2 PCIe第4代 *4

　　GPU ：Nvidia Vulcan PCIe H100 80GB *8

　　平台：HD210 *1

　　散热：CPU+GPU液冷一体散热系统 *1

　　网络：英伟达IB 400Gb/s单端口适配器 *8

　　电源：2000W(2+2)冗余高效电源 *1

　　2、A800服务器常用配置

　　NVIDIA A800 的深度学习运算能力可达 312 teraFLOPS（TFLOPS）。其深度学习训练的Tensor 每秒浮点运算次数（FLOPS）和推理的 Tensor 每秒万亿次运算次数（TOPS）皆为NVIDIA Volta GPU 的 20 倍。采用的 NVIDIA NVLink可提供两倍于上一代的吞吐量。与 NVIDIA NVSwitch 结合使用时，此技术可将多达 16 个 A800 GPU 互联，并将速度提升至 600GB/s，从而在单个服务器上实现出色的应用性能。NVLink 技术可应用在 A800 中：SXM GPU 通过 HGX A100 服务器主板连接，PCIe GPU 通过 NVLink 桥接器可桥接多达 2 个 GPU。

　　CPU：Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

　　内存：DDR4 3200 64G *32

　　数据盘：960G 2.5 SATA 6Gb R SSD *2

　　硬盘：3.84T 2.5-E4x4R SSD *2

　　网络：双口10G光纤网卡（含模块）*1

　　双口25G SFP28无模块光纤网卡（MCX512A-ADAT ）*1

　　GPU：HV HGX A800 8-GPU 8OGB *1

　　电源：3500W电源模块*4

　　其他：25G SFP28多模光模块 *2

　　单端口200G HDR HCA卡(型号:MCX653105A-HDAT) *4

　　2GB SAS 12Gb 8口 RAID卡 *1

　　16A电源线缆国标1.8m *4

　　托轨 *1

　　主板预留PCIE4.0x16接口 *4

　　支持2个M.2 *1

　　原厂质保3年 *1

　　3、A100服务器常用配置

　　NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景，在不同规模下实现出色的加速，有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构，是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍，并可划分为七个 GPU 实例，以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本，A100 80GB 将 GPU 显存增加了一倍，并提供超快速的显存带宽（每秒超过 2 万亿字节 [TB/s]），可处理超大型模型和数据集。

　　CPU：Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

　　RAM：64GB DDR4 RDIMM服务器内存 *16

　　SSD1：480GB 2.5英寸SATA固态硬盘 *1

　　SSD2：3.84TB 2.5英寸NVMe固态硬盘 *2

　　GPU：NVIDIA TESLA A100 80G SXM *8

　　网卡1：100G 双口网卡IB 迈络思 *2

　　网卡2：25G CX5双口网卡 *1

　　4、H800服务器常用配置

　　H800是英伟达新代次处理器，基于Hopper架构，对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800相比，H800的性能提升了3倍，在显存带宽上也有明显的提高，达到3 TB/s。

　　虽然论性能，H800并不是最强的，但由于美国的限制，性能更强的H100无法供应给中国市场。有业内人士表示，H800相较H100，主要是在传输速率上有所差异，与上一代的A100相比，H800在传输速率上仍略低一些，但是在算力方面，H800是A100的三倍。

　　CPU：Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2

　　内存：64GB 3200MHz RECC DDR4 DIMM *32

　　系统硬盘： intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

　　GPU： NVIDIA Tesla H800 -80GB HBM2 *8

　　GPU网络： NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

　　存储网络：双端口 200GbE IB *1

　　网卡：25G网络接口卡双端口 *1

互联网

相关文章

相关文章

分享到