Awesome pretrained chinese nlp models
Awesome Pretrained Chinese NLP Models,高质量中文预训练模型&大模型&多模态模型&大语言模型集合
在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型、中文多模态模型、中文大语言模型等内容(感谢分享资源的大佬),并将持续更新...... The project is written primarily in Python, distributed under the MIT License license, first published in 2019. It has gained significant community traction with 5,565 stars and 513 forks on GitHub. Key topics include: bert, chinese, dataset, ernie, gpt.
Awesome Pretrained Chinese NLP Models

在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型、中文多模态模型、中文大语言模型等内容(感谢分享资源的大佬),并将持续更新......
国内下载HuggingFace仓库模型推荐使用HuggingFace镜像地址: https://hf-mirror.com/
📑 目录导航
📚 模型分类索引
🤖 大模型系列
| 分类 | 说明 | 链接 |
|---|---|---|
| 通用基础大模型 | 参数 >7B 的基础语言模型 | 查看 |
| 垂直基础大模型 | 金融、医疗、法律等垂直领域 | 查看 |
| 通用对话大模型 | 对话式通用语言模型 | 查看 |
| 垂直对话大模型 | 垂直领域对话模型 | 查看 |
| 多模态对话大模型 | 图文等多模态模型 | 查看 |
| 推理类大模型 | 数学、逻辑推理模型 | 查看 |
🔧 预训练模型系列
| 系列 | 代表模型 | 链接 |
|---|---|---|
| NLU系列 | BERT · RoBERTa · ALBERT · ERNIE · MacBERT · ELECTRA | 查看全部 29 个 |
| NLG系列 | GPT · GPT-3 · T5 · BART · CPM · RWKV | 查看全部 18 个 |
| NLU-NLG系列 | UniLM · GLM · CPT · SimBERT | 查看全部 9 个 |
| 多模态系列 | WenLan · CogView · Chinese-CLIP · OFA | 查看全部 13 个 |
📦 资源与工具
📊 大模型评估基准 · 📦 开源模型库平台 · 📚 开源数据集库 · 📝 中文指令数据集 · 🎯 Embedding · 🔗 Other-Awesome
📌 备注说明
ND: Non-Causal Decoder (非因果解码器) | CD: Causal Decoder (因果解码器) | ED: Encoder-Decoder (编码器-解码器)
Base-LLM
大规模基础模型:表格中只罗列出参数量
大于7B以上模型。查看完整列表 →
| 模型 | 大小 | 时间 | 语言 | 架构 | 下载 | 项目 | 机构 | 备注 |
|---|---|---|---|---|---|---|---|---|
| XVERSE-MoE | 255B / A36B | 2024-09 | 中英 | MoE | 🤗HF | GitHub | xverse-ai | - |
| Qwen-2.5 | 0.5~72B (7档) | 2024-09 | 中英 | CD | 🤗HF | GitHub | QwenLM | Blog |
| Tele-FLM | 52B / 102B / 1TB | 2024-07 | 多语 | CD | 🤗HF | - | CofeAI | Paper |
| meta-llama-3.1 | 8B / 70B / 405B | 2024-07 | 多语 | CD | 🤗HF | GitHub | meta-llama | - |
| internlm2.5-Base | 7B | 2024-07 | 中英 | CD | 🤗HF | GitHub | InternLM | Technical Report |
<p align="right">[<a href="#top">Back to Top</a>]</p>📋 查看全部 40+ 个模型请访问 Base-LLM 完整列表 →
Domain-Base-LLM
各个垂直领域开源基础模型。查看完整列表 →
| 模型 | 大小 | 时间 | 语言 | 领域 | 下载 | 项目地址 | 机构/个人 | 架构 | 文献 | 备注 |
|---|---|---|---|---|---|---|---|---|---|---|
| Qwen-2.5 | 1.5/7B | 2024-09 | 中英 | 代码 | 🤗HF | Qwen2.5 | QwenLM | CD | Blog | |
| Qwen-2.5 | 1.5/7/72B | 2024-09 | 中英 | 数学 | 🤗HF | Qwen2.5 | QwenLM | CD | Blog | |
| Tongyi-Finance-Base | 14B | 2023-11 | 中文 | 金融 | ModelScope | 通义金融-14B | 通义金融大模型 | CD | ||
| ChiMed-GPT | 13B | 2023-10 | 中文 | 医疗 | [🤗HF] | ChiMed-GPT | 中国科学技术大学 | CD | Paper | |
| CodeShell-base | 7B | 2023-10 | 中英 | 代码 | [🤗HF] | codeshell | WisdomShell | CD |
<p align="right">[<a href="#top">Back to Top</a>]</p>📋 查看全部 13 个模型请访问 Domain-Base-LLM 完整列表 →
ChatLLM
具备问答和对话等功能的大型语言模型。查看完整列表 →
| 模型 | 大小 | 时间 | 架构 | 下载 | 项目 |
|---|---|---|---|---|---|
| GLM-4.6 | A32/355B | 2025-10 | MoE | 🤗HF | GLM-4.5 |
| Ling-1T | 1T | 2025-10 | CD | 🤗HF | / |
| Qwen3-Next | A3/80B | 2025-09 | MoE | 🤗HF | Qwen3 |
| Kimi-k2 | A32B/1T | 2025-08 | MoE | HF | Kimi-K2 |
| ERNIE-4.5 | A47/300B A3/21B | 2025-07 | MoE | 🤗HF | / |
| Qwen-3 | 4/14/30/235B | 2025-05 | CD/MoE | 🤗HF | Qwen3 |
| MiMo | 7B | 2025-05 | CD | 🤗HF | MiMo |
| deepseek-v3 | 671B | 2024-12 | MoE | 🤗HF | DeepSeek-V3 |
| Hunyuan-Large | A52/389B | 2024-11 | MoE | 🤗HF | Tencent-Hunyuan-Large |
| Qwen-2.5 | 0.5/1.5/3/7/14/32/72B | 2024-09 | CD | 🤗HF | Qwen2.5 |
| MiniCPM3 | 4B | 2024-09 | CD | 🤗HF | MiniCPM |
📋 查看全部 180+ 个模型请访问 ChatLLM 完整列表 →
Domain-ChatLLM
各个垂直领域开源对话模型。查看完整列表 →
| 模型 | 大小 | 时间 | 领域 | 下载 | 项目 |
|---|---|---|---|---|---|
| Qwen3-Coder-Next | / | 2026-02 | 代码 | 🤗HF | Qwen3 |
| Skywork-SWE | 32B | 2025-06 | 软件工程 | 🤗HF | / |
| Kimi-Dev | / | 2025-06 | 代码 | 🤗HF | / |
| Qwen3-Coder | / | 2025-08 | 代码 | 🤗HF | Qwen3 |
| DeepSeek-Coder-V2 | A21/236B | 2024-06 | 代码 | 🤗HF | DeepSeek-Coder-V2 |
| CodeGeeX4 | 9B | 2024-07 | 代码 | 🤗HF | CodeGeeX4 |
| Yi-Coder | 1.5/9B | 2024-09 | 代码 | 🤗HF | Yi-Coder |
| OpenCoder | 1.5/8B | 2024-11 | 代码 | 🤗HF | OpenCoder |
📋 查看全部 60+ 个模型请访问 Domain-ChatLLM 完整列表 →
MultiModal-ChatLLM
收集包含中文的多模态大模型,具备对话等功能。查看完整列表 →
| 模型 | 大小 | 时间 | 领域 | 下载 | 项目 |
|---|---|---|---|---|---|
| HY-World-2.0 | 1.2B | 2026-04 | 3D世界 | 🤗HF | HY-World-2.0 |
| Gemma-4-IT | E2B~31B | 2026-04 | 通用 | 🤗HF | - |
| Qianfan-OCR | 4B | 2026-03 | 文档 | 🤗HF | GitHub |
| AutoGLM-Phone | 9B | 2025-12 | Agent | 🤗HF | Open-AutoGLM |
| Dolphin-v2 | 3B | 2025-12 | 文图 | 🤗HF | Dolphin |
| DeepSeek-OCR | 3B | 2025-10 | 文图 | 🤗HF | DeepSeek-OCR |
| Qwen-Image | 20B | 2025-08 | 文图 | 🤗HF | Qwen-Image |
| InternVL 2.5 | 2~78B | 2024-12 | 文图 | 🤗HF | InternVL |
| Qwen2-VL | 2/7/72B | 2024-08 | 图文视 | 🤗HF | Qwen2-VL |
| MiniCPM-V 2.6 | 8B | 2024-08 | 文图视 | 🤗HF | MiniCPM-V |
📋 查看全部 90+ 个模型请访问 MultiModal-ChatLLM 完整列表 →
ReasoningLLM
收集推理能力比较突出的中文大模型。查看完整列表 →
| 模型 | 大小 | 时间 | 架构 | 下载 | 项目 |
|---|---|---|---|---|---|
| DeepSeek-V4-Pro | A49/1.6T | 2026-04 | MoE | 🤗HF | DeepSeek-V4 |
| MiMo-V2.5-Pro | A42/1.02T | 2026-04 | MoE | 🤗HF | MiMo |
| Kimi-K2.6 | A32/1T | 2026-04 | MoE | 🤗HF | Kimi-K2.6 |
| Qwen3.6 | A3/35B | 2026-04 | MoE | 🤗HF | Qwen3.6 |
| DeepSeek-V3.2 | / | 2025-12 | MoE | 🤗HF | DeepSeek-V3.2-Exp |
| QwQ-32B | 32B | 2025-03 | CD | 🤗HF | / |
| DeepSeek-R1 | A37/671B | 2025-01 | MoE | 🤗HF | DeepSeek-R1 |
| MiniMax-M1 | A46/456B | 2025-06 | MoE | 🤗HF | MiniMax-M1 |
📋 查看全部 50+ 个模型请访问 ReasoningLLM 完整列表 →
Embedding
MTEB排行榜: https://huggingface.co/spaces/mteb/leaderboard 镜像 查看完整列表 →
| 模型 | 大小 | 时间 | 语言 | 领域 | 下载 | 项目地址 | 机构/个人 | 文 |
|---|---|---|---|---|---|---|---|---|
| Qwen3-Embedding | 0.6/4/8B | 2025-06 | 多语 | 通用 | [🤗HF] | Qwen3-Embedding | QwenLM | Arxiv |
| JinaColBERT V2 | large | 2024-08 | 多语 | 通用 | [🤗HF] | / | Jina AI | Paper |
| Conan-embedding-v1 | large | 2024-08 | 中文 | 通用 | [🤗HF] | / | TencentABC | Paper |
| xiaobu-v2 | large | 2024-07 | 中文 | 通用 | [🤗HF] | / | lier007 | |
| zpoint_large | Large | 2024-06 | 中文 | 通用 | [🤗HF] | / | yang |
📋 查看全部 15 个模型请访问 Embedding 完整列表 →
大模型评估基准
1. C-Eval
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,查看论文了解更多细节。
2. FlagEval
FlagEval是一个面向AI基础模型的评测工具包。我们的目标是探索和集合科学、公正、开放的基础模型评测基准、方法及工具,对多领域(如语言、语音、视觉及多模态)的基础模型进行多维度(如准确性、效率、鲁棒性等)的评测。我们希望通过对基础模型的评测,加深对基础模型的理解,促进相关的技术创新及产业应用。
3. SuperCLUElyb
SuperCLUE琅琊榜,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。在本文中,我们发布了初步的结果和基于Elo评级系统的排行榜,Elo评级是国际象棋和其他竞技游戏中广泛使用的评级系统。我们邀请整个社区加入这项工作,贡献新的模型,并通过提问和投票选出你最喜欢的答案来评估它们。
4. XiezhiBenchmark
该基准包括来自13个不同学科的516个学科的220,000个多项选择题,以及15,000个来自单一学科和多个学科的问题。我们对47个最新的大型语言模型在Xiezhi上进行了评估,结果表明在科学、工程、农学、医学和艺术等领域,大型语言模型的表现超过了人类的平均水平,但在经济学、法学、教育学、文学、历史和管理学等领域,人类的表现仍然远远超过了大型语言模型。
5. Open LLM Leaderboard
由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型,以英文为主。主要目标是跟踪、排名和评估最新的大语言模型和聊天机器人,让所有人方便的观察到开源社区的进展和评估这些模型。这个排行榜有一个关键优势,社区中的任何成员都可以提交模型,并在 Hugging Face 的 GPU 集群上自动评估。
[官方网站]
6. 中文大模型安全评测平台
大模型安全测评依托于一套系统的安全评测框架,涵盖了仇恨言论、偏见歧视言论、犯罪违法、隐私、伦理道德等八大类别,包括细粒度划分的40余个二级安全类别。
7. OpenCompass大语言模型评测
OpenCompass 是一款开源、高效、全面的评测大模型体系及开放平台。我们提供完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测。利用分布式技术,即使面对千亿参数模型也能在数小时内完成评测。基于多个不同维度的高认可度数据集开放多样化的评测方式,包括零样本评测、小样本评测和思维链评测,全方位量化模型各个维度能力。
开源模型库平台
- 🤗HuggingFace: The AI community building the future.
- 模型下载地址: https://huggingface.co/models
- ModelScope: ModelScope平台是以模型为中心的模型开源社区
- 模型下载地址:https://modelscope.cn/models
- flagopen: flagopen飞智大模型技术开源体系
- 模型下载地址: https://model.baai.ac.cn/models
- 始智AI: 中国AI开源创新社区
- 模型下载地址: https://wisemodel.cn/models
开源数据集库
- huggfaceing数据集仓库: https://huggingface.co/datasets
- 包含了自然语言处理、计算机视觉、语音、多模态等数据集,内置100多个多语言公共数据集下载
- ModelScope数据集仓库:https://modelscope.cn/datasets
- 提供了覆盖自然语言处理、计算机视觉、语音、多模态等数据集,更有阿里巴巴集团贡献的专业领域数据集,
- flagopen数据集仓库: https://data.baai.ac.cn/data
- 内置公共数据集下载,可下200G大规模预训练语料WuDaoCorpora
- cluebenchmarks数据集仓库:https://www.cluebenchmarks.com/dataSet_search.html
- 多个中英文NLP数据集,并可申请下载100GB的高质量中文预训练语料CLUECorpus2020
- MNBVC: Massive Never-ending BT Vast Chinese corpus
- 超大规模中文语料集
- OpenDataLab数据集仓库: https://opendatalab.com/
- OpenDataLab 是有影响力的数据开源开放平台,公开数据集触手可及。
- OSCAR: Open Super-large Crawled Aggregated coRpus, 多语言数据集
- 最新版本包含1.4T的中文语言数据集
🔧 预训练模型系列
中文预训练语言模型系列,涵盖 NLU、NLG、NLU-NLG 和多模态四大类。
| 系列 | 说明 | 代表模型 | 详情 |
|---|---|---|---|
| NLU系列 | 自然语言理解 | BERT · RoBERTa · ALBERT · ERNIE · MacBERT · ELECTRA 等 29 个 | 查看完整列表 → |
| NLG系列 | 自然语言生成 | GPT · GPT-3 · T5 · BART · CPM · RWKV 等 18 个 | 查看完整列表 → |
| NLU-NLG系列 | 理解与生成 | UniLM · GLM · CPT · SimBERT 等 9 个 | 查看完整列表 → |
| 多模态系列 | 多模态预训练 | WenLan · CogView · Chinese-CLIP · OFA 等 13 个 | 查看完整列表 → |
Other-Awesome
其他优质 Awesome 资源列表
| 名称 | 说明 | 作者/组织 | 地址 |
|---|---|---|---|
| Awesome-OPD | 使用 On-Policy Distillation (OPD) 和 On-Policy Self-Distillation (OPSD) 训练 LLM/VLM/Agent/Draft Model 的开源仓库和论文精选列表 | thinkwee | GitHub |
| Awesome-Claude-Skills | Claude技能、资源和工具 | ComposioHQ | GitHub |
| Awesome-Claude-Code | Claude Code相关技能和工具 | hesreallyhim | GitHub |
| Awesome-OpenClaw-Skills | OpenClaw社区构建的技能 | VoltAgent | GitHub |
| Awesome-Agents | 开源AI Agent工具和产品 | kyrolabs | GitHub |
更新
- 2026.05.03 增加Ring-2.6-1T、Ling-2.6-1T、Ling-2.6-flash,Ring-2.6-1T 是万亿参数旗舰推理模型,支持 Agent 执行、Reasoning Effort 机制和异步强化学习训练;Ling-2.6-1T 是万亿参数旗舰模型,采用 MLA+Linear Attention 混合架构,Fast Thinking 机制;Ling-2.6-flash 是 104B 总参数/7.4B 激活参数的推理效率优化模型,面向高频 Agent 场景
- 2026.04.24 增加DeepSeek-V4-Pro, DeepSeek-V4-Flash、MiMo-V2.5-Pro,DeepSeek-V4-Pro 总参数 1.6T/激活 49B,V4-Flash 总参数 284B/激活 13B,均支持 1M 超长上下文;MiMo-V2.5-Pro 是小米开源的 1.02T 总参数 MoE 推理模型,激活 42B 参数,支持 1M 上下文
- 2026.04.21 增加Qwen3.6-35B-A3B、Kimi-K2.6、HY-World-2.0
- 2026.04.12 增加MiniMax-M2.7,MiniMax 开源的推理大模型,230B 总参数 MoE 架构,激活 10B 参数
- 2026.04.06 增加Gemma-4,Google DeepMind 开源的多模态大模型
- 2026.02.16 增加Step-3.5-Flash, GLM-5, MiniMax-M2.5, Kimi-K2.5, Ring-2.5-1T、GLM-OCR, Ace-Step1.5, HunyuanImage-3.0-Instruct
📋 查看完整更新日志请访问 更新日志 →
Contributors
<a href="https://github.com/eryajf/learn-github/graphs/contributors"> <img src="https://contrib.rocks/image?repo=lonePatient/awesome-pretrained-chinese-nlp-models" /> </a>Misc
↳ Stargazers
↳ Forkers
↳ Star History
<div align="center"> [](https://star-history.com/#lonePatient/awesome-pretrained-chinese-nlp-models&Date) </div>Contributors
Showing top 7 contributors by commit count.