本文最后更新于66 天前,其中的信息可能已经过时,如有错误请发送邮件到big_fw@foxmail.com
AI 大模型概念
什么是 AI 大模型?
AI 大模型是指具有超大规模参数(通常为数十亿到数万亿)的深度学习模型,通过对大规模数据的训练,能够理解、生成人类语言,处理图像、音频等多种模态数据,并展示出强大的推理和创作能力。
大模型的强大之处在于它的 涌现能力 —— 随着模型参数量和训练数据量的增加,模型会展现出训练过程中未明确赋予的新能力,比如逻辑推理、代码编写、多步骤问题解决等。

AI 大模型的分类
了解 AI 大模型的分类有助于我们进行大模型的技术选型,可以从模态、开源性、规模、用途等角度进行划分。
1、按模态分类
- 单模态模型:仅处理单一类型的数据,如纯文本(早期的 GPT-3)
- 多模态模型:能够处理多种类型的信息
- 文本 + 图像:GPT-4V、Gemini、Claude 3
- 文本 + 音频 + 视频:GPT-4o
2、按开源性分类
- 闭源模型:不公开模型权重和训练方法
- 代表:GPT-4、Claude、Gemini
- 特点:通常通过API访问,付费使用
- 开源模型:公开模型权重,允许下载和自行部署
- 代表:Llama系列、Mistral、Falcon
- 特点:可以本地部署,自由调整,但通常性能略逊于同等规模闭源模型
3、按规模分类
- 超大规模模型:参数量在数千亿到数万亿
- 代表:GPT-4 (1.76T 参数)
- 特点:能力强大,但需要大量计算资源
- 中小规模模型:参数量在几十亿到几百亿
- 代表:Llama 3 (70B 参数)、Mistral 7B
- 特点:能在较普通的硬件上运行,适合特定任务的精调
4、按用途分类
- 通用模型:能处理广泛的任务
- 代表:GPT-4、Claude 3、Gemini
- 特定领域模型:针对特定领域优化
- 医疗:Med-PaLM 2
- 代码:CodeLlama、StarCoder
- 科学:Galactica







