注意 of deprecation
Thank you for developing with Llama models. As part of the Llama 3.1 release, we’ve consolidated GitHub repos 并且 added some additional repos as we’ve expanded Llama’s functionality into being an e2e Llama Stack. Please use the following repos going forward:
- llama-models - 基础模型的中央仓库,包括基本工具、模型卡片、许可证及使用政策
- PurpleLlama - Llama Stack 的关键组件,专注于安全风险和推理时间的缓解措施
- llama-toolchain - 模型 development (inference/fine-tuning/safety shields/synthetic data generation) interfaces and canonical implementations
- llama-agentic-system - 端到端的Llama堆栈系统,搭配有主见的基础接口,能够创建应用
- llama-cookbook - 社区驱动的脚本和集成
如果您有任何问题,请随时在上述任何一个仓库中提交问题,我们将尽力及时回复。
谢谢!
(已弃用)Llama 2
我们正在释放大型语言模型的力量。 Llama 2 现在对所有个人、创作者、研究人员和企业开放,使他们能够负责任地实验、创新和扩展他们的想法。
本次发布包含预训练和微调Llama语言模型的模型权重和初始代码——参数范围从7B到70B。
这个仓库旨在作为加载的最小示例 Llama 2 模型和运行推理。 如需更多利用Hugging Face的详细示例,请参见 llama-cookbook.
上市后的更新
看见 UPDATES.md另外,如需查看经常被问到的问题的运行列表,请参见 here.
下载
为下载模型权重和分词器,请访问以下链接 Meta website and accept our 授权许可.
一旦您的请求获得批准,您将通过电子邮件收到一个已签名的URL。 然后运行 download.sh 脚本, passing the URL provided when prompted to start the download.
前置条件:请确保您已具备 wget and md5sum 已安装。然后运行脚本: ./download.sh.
请注意,链接在24小时后过期,并且有一定的下载次数限制。 如果你开始看到类似以下的错误 403: Forbidden你可以随时重新请求链接。
访问Hugging Face
我们也在提供下载 Hugging Face您可以通过接受许可协议并在仓库模型卡片中的表单中填写申请访问这些模型。 在完成上述操作后,您应在1小时内获得该版本(Code Llama、Llama 2 或 Llama Guard)的所有 Llama 模型的访问权限。
快速入门
您可以按照以下步骤快速开始使用Llama 2模型。 这些步骤将让你***一个快速的本地推理。 查看更多示例,请参见 Llama 2 cookbook repository.
-
在一个安装了PyTorch/CUDA的conda环境中克隆和下载此仓库。
-
在顶层目录运行:
1pipinstall-e . -
参观 Meta website 并注册以下载模型/。
-
注册后,您将收到一封包含下载模型链接的电子邮件。 你需要这个URL当你在进行操作时***un the download.sh 脚本。
-
收到邮件后,前往您下载的llama仓库并运行以下命令 download.sh script.
- 确保授予执行权限给该文件 download.sh script
- 在此过程中,您将被提示输入来自电子邮件的网址。
- 不要使用“复制链接”选项,而是确保手动从邮件中复制链接。
-
在您下载好所需的模型后,可以使用以下命令在本地运行模型:
1234 torchrun --nproc_per_node 1 example_chat_completion.py \ --ckpt_dir llama-2-7b-chat/ \ --tokenizer_path tokenizer.model \ --max_seq_len 512 --max_batch_size 6
Note
- 替换
llama-2-7b-chat/带有您检查点目录的路径tokenizer.model通往你分词器模型的路径。 - 的
–nproc_per_node应该设置为 MP 您所使用的模型的值。 - 调整
max_seq_lenandmax_batch_size按需参数。 - 这个例子运行了 example_chat_completion.py 在此仓库中找到,但你可以将其更改为不同的.py文件。
推理
不同的模型需要不同的模型并行(MP)值:
| Model | MP |
|---|---|
| 7B | 1 |
| 13B | 2 |
| 70B | 8 |
所有模型均支持最多4096个token的序列长度,但我们根据 max_seq_len and max_batch_size 值。因此,请根据您的硬件进行设置。
预训练模型
这些模型并未针对聊天或问答进行微调。应通过提示使预期答案成为提示的自然延续。
See example_text_completion.py 例如。 例如,查看下面的命令以使用llama-2-7b模型运行它(nproc_per_node 需要设置为 MP 值):
1234 torchrun --nproc_per_node 1 example_text_completion.py \ --ckpt_dir llama-2-7b/ \ --tokenizer_path tokenizer.model \ --max_seq_len 128 --max_batch_size 4
微调的聊天模型
经过微调的模型是为对话应用进行训练的。 为了获得这些功能和它们的预期性能,需要采用在以下部分中定义的特定格式 chat_completion
需要遵守,包括的 INST and <> 标签, BOS and EOS 标点符号以及其中的空格和换行符(我们建议调用) strip() 在输入中避免双空格。
You can also deploy additional classifiers for filtering out inputs and outputs that are deemed unsafe. 看看这个 llama-cookbook repo for an example 如何在推理代码的输入和输出中添加安全检查器。
使用llama-2-7b-chat的例子:
1234 torchrun --nproc_per_node 1 example_chat_completion.py \ --ckpt_dir llama-2-7b-chat/ \ --tokenizer_path tokenizer.model \ --max_seq_len 512 --max_batch_size 6
Llama 2 是一项新技术,其使用可能带来潜在风险。 到目前为止进行的测试并未——也不可能——涵盖所有场景。
为了帮助开发人员应对这些风险,我们创建了 Responsible Use Guide更多细节也可以在我们的研究论文中找到。
问题
请通过以下任一种方式报告任何软件“错误”或其他模型问题:
- 报告模型的问题: github.com/facebookresearch/llama
- 报告模型生成的有害内容: developers.facebook.com/llama_output_feedback
- 报告错误和安全问题: facebook.com/whitehat/info
模型卡片
See MODEL_CARD.md.
License
我们的模型和权重既面向研究人员也面向商业实体授权,坚持开放的原则。 我们的使命是通过这一机会赋能个人和行业,同时营造一个促进发现和伦理AI进步的环境。
See the LICENSE 文件,以及我们的配套材料 Acceptable Use Policy
参考文献
常见问题可以在FAQ中找到 here 这些内容将随着时间的推移和新问题的出现而不断更新。
原始 llama
原始llama发布仓库位于 llama_v1 分支。
免责声明 © 2025 - 虚宝阁
本站部分源码来源于网络,版权归属原开发者,用户仅获得使用权。依据《计算机软件保护条例》第十六条,禁止:
- 逆向工程破解技术保护措施
- 未经许可的分发行为
- 去除源码中的原始版权标识
※ 本站源码仅用于学习和研究,禁止用于商业用途。如有侵权, 请及时联系我们进行处理。