Day 5：模型选择与模型路由

学习目标

今天要解决的是一个很实际的问题：面对市面上几十个大模型，你怎么选？

这个问题比它看起来复杂得多。不是选”最强的”就行——最强的模型最贵、最慢，而且不是所有任务都需要最强能力。也不是选”最便宜的”就行——最便宜的模型可能无法完成复杂任务，输出的质量达不到要求。

你需要学会的是：根据任务的需求，选择最合适的模型。有时候需要大模型做复杂的推理，有时候小模型就够完成简单的分类，有时候需要专门的模型做特定的工作（比如 Embedding、Rerank、语音识别）。在同一个应用中，不同的环节可能使用不同的模型。

更进一步，你需要学会”模型路由”——设计一套机制，让系统自动根据任务类型选择合适的模型，在成本和效果之间找到最佳平衡。

完成今天的学习后，你应该能说明不同模型的适用场景，能根据任务选择模型组合，能理解模型选择不是越强越好。

核心概念

一、通用对话模型

通用对话模型是大模型中的”全能选手”，能处理各种类型的任务——问答、写作、翻译、分析、编程等。

代表性模型包括 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、LLaMA 3 等。它们都有很大的参数量、广泛的训练数据、经过指令微调和 RLHF 对齐。

通用对话模型的特点：

能力全面。一个模型能处理多种任务，不需要为每种任务训练专门的模型。这降低了系统复杂度。

使用简单。只需要发送文本消息，不需要特殊的输入格式。

适应性强。通过不同的 Prompt，同一个模型可以扮演不同角色、完成不同任务。

但也有局限性：

不是所有任务都做得一样好。通用模型在某些领域（比如代码、数学）可能不如专门优化的模型。

成本较高。大参数量意味着每次推理需要更多计算资源，调用费用较高。

速度有限。生成速度受模型大小限制，对于需要快速响应的场景可能不够快。

在企业应用中，通用对话模型通常承担核心的文本理解和生成任务——理解用户意图、分析业务数据、生成报告内容、设计解决方案等。

二、推理模型

推理模型是专门针对复杂推理任务优化的模型。

代表性模型包括 OpenAI 的 o1、o3 系列，以及 DeepSeek-R1 等。它们的特点是在回答之前会进行一段”内部思考”——模型会先分析问题、拆解步骤、验证推理过程，然后再给出最终答案。

推理模型适合以下场景：

数学和逻辑推理。需要多步推理的数学问题、逻辑谜题、复杂计算。

复杂规划。需要考虑多个变量和约束条件的任务规划。

科学分析。需要基于已知条件推导结论的科学问题。

代码调试。需要分析代码逻辑、定位 bug 原因的场景。

推理模型和通用模型的区别在于：通用模型倾向于快速给出答案（有时候是”快但错”），推理模型倾向于慢慢想清楚再回答（“慢但对”）。

在企业应用中，推理模型适合处理需要深度思考的任务。但要注意，推理模型的调用成本通常远高于通用模型，因为”内部思考”也消耗 Token。不适合用于简单任务。

三、代码模型

代码模型是专门在大量代码数据上训练的模型，擅长代码生成、代码理解、代码调试、代码解释等任务。

代表性模型包括 GPT-4 的代码能力、Claude 的代码能力、Codex、DeepSeek-Coder、CodeLlama 等。

代码模型的特点：

理解编程语言语法和语义。不只是把代码当成普通文本，而是理解代码的逻辑结构。

能生成可运行的代码。输出的代码通常语法正确、逻辑合理。

能理解和解释代码。能读懂已有代码并解释其功能。

能发现代码中的 bug。通过分析代码逻辑找到潜在问题。

在企业应用中，代码模型的应用场景包括：AI 辅助编程工具、代码审查自动化、技术文档生成、脚本自动生成等。但要注意，对于你的核心业务逻辑（比如行业分析、岗位拆解），代码模型帮不上忙——这些是通用对话模型的工作。

四、Embedding 模型

Embedding 模型是专门做文本向量化的模型。

代表性模型包括 OpenAI 的 text-embedding-ada-002 和 text-embedding-3 系列、BGE 系列、E5 系列、GTE 系列等。

Embedding 模型的核心功能是把一段文本转换成一个固定维度的数学向量。这个向量捕捉了文本的语义信息——语义相近的文本，向量也相近。

Embedding 模型不能用来生成文本，它只做一件事：把文本变成向量。但这一件事是 RAG 系统的基础——没有 Embedding，就无法做语义检索。

选择 Embedding 模型时要考虑的维度：

向量维度。维度越高，语义信息越丰富，但存储和计算成本也越高。常见的维度有 768、1024、1536、3072 等。

多语言支持。如果需要处理中文，要选择对中文支持好的模型。不是所有 Embedding 模型都能很好地处理中文。

语义捕捉能力。不同模型在语义理解上的精度不同。通常通过基准测试（比如 MTEB 排行榜）来比较。

处理速度和成本。Embedding 操作在 RAG 系统中会频繁调用（每次用户提问都需要做一次），所以速度和成本很重要。

在企业应用中，Embedding 模型主要用于 RAG 系统的文档向量化和查询向量化。它是 RAG 的基础设施，选对了能让检索质量显著提升。

五、Reranker 模型

Reranker 模型是对检索结果进行重新排序的模型。

在 RAG 系统中，初始检索（通过向量相似度）可能返回很多结果，其中一些虽然和查询在语义上相近，但并不真正相关。Reranker 模型会对这些结果做更精确的相关性判断，然后重新排序，把最相关的结果排到前面。

Reranker 模型的工作方式和 Embedding 不同。Embedding 是把文本独立地转成向量，然后比较向量的距离。Reranker 是把查询和候选文档放在一起，直接判断它们之间的相关性。这种”放在一起判断”的方式更精确，但也更慢、更贵。

代表性 Reranker 模型包括 Cohere Rerank、BGE-Reranker、bce-reranker 等。

在 RAG 系统中，Reranker 通常放在初始检索之后：先用向量检索召回一批候选（比如 top-20），然后用 Reranker 对这批候选重新排序（选出 top-5），最后把排好序的结果传给大模型。这种两阶段检索策略兼顾了效率（向量检索快）和精度（Reranker 准）。

六、多模态模型

多模态模型能同时处理文本、图片、音频、视频等多种类型的数据。

代表性模型包括 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro 等最新一代模型，它们都支持图文混合输入。

多模态模型的应用场景：

图片理解。识别图片中的内容、读取图片中的文字、分析图表数据。

文档解析。直接把 PDF 页面作为图片传给模型，让它读取内容，比传统的 PDF 解析更灵活。

视觉问答。用户上传图片并提问，模型基于图片内容回答。

在企业应用中，多模态模型特别适合处理非结构化数据——扫描件、照片、图表、复杂排版的文档等。传统方法需要 OCR + 文本处理的场景，多模态模型可以一步搞定。

但多模态模型的调用成本通常高于纯文本模型（因为图片需要更多的处理），而且对图片的理解能力仍有局限（复杂图表可能理解错误）。

七、语音模型

语音模型分为两类：语音识别（把语音转文字，ASR）和语音合成（把文字转语音，TTS）。

代表性产品包括 OpenAI 的 Whisper（语音识别）和 TTS API（语音合成）、 ElevenLabs（高质量语音合成）等。

语音模型在企业应用中的场景：

客服系统。用户通过语音提问，系统转成文字后交给大模型处理，再把回答转成语音返回。

会议记录。自动把会议录音转成文字，然后用大模型做总结和分析。

语音助手。类似 Siri 但更强大的语音交互系统。

语音模型本身不做”智能”，它只是完成语音和文字之间的转换。真正的”智能”仍然来自大语言模型。但语音模型是连接语音交互和文本处理的桥梁。

八、图像模型

图像模型是生成或编辑图片的模型。

代表性模型包括 DALL-E 3、Midjourney、Stable Diffusion、Flux 等。

图像模型在企业应用中的场景：

营销素材生成。自动生成广告图、社交媒体配图。

产品设计辅助。快速生成设计概念图。

报告配图。给分析报告添加可视化图表或示意图。

图像模型和大语言模型是两个不同的技术方向，但它们可以在应用层面协同工作。比如大语言模型根据用户需求生成一段图像描述提示词，然后图像模型根据提示词生成图片。

九、本地模型与云模型

模型部署方式有两种：调用云端的 API（云模型）和在本地服务器上运行（本地模型）。

云模型的代表是 OpenAI API、Anthropic API、Google AI API 等。你不需要自己部署模型，只需要调用 API。优点是使用简单、模型能力强、不需要管理基础设施。缺点是数据要发送到第三方（可能有隐私合规问题）、按调用量计费（大量使用时成本高）、依赖网络（断网不可用）。

本地模型的代表是 LLaMA、Qwen、ChatGLM、Mistral 等开源模型。你需要自己的 GPU 服务器来运行模型。优点是数据不出本地（隐私安全）、不按调用量计费（只有硬件和电费）、可以离线使用。缺点是需要 GPU 硬件（成本不低）、开源模型能力通常不如顶级商业模型、需要自己维护和更新。

在企业应用中，选择本地还是云模型通常取决于以下因素：

数据敏感度。如果涉及高度敏感的数据（比如医疗、金融），可能要求数据不能离开企业网络，只能用本地模型。

使用量。如果调用量很大（每天几万次以上），本地模型的总成本可能低于云模型。如果调用量小，云模型更划算。

性能要求。顶级商业模型（GPT-4、Claude）的能力目前仍优于最好的开源模型。如果对输出质量要求很高，云模型是更好的选择。

团队技术能力。运行本地模型需要 GPU 运维、模型部署、性能调优等技术能力。

在很多时候，企业会选择混合方案：核心敏感任务用本地模型，一般任务用云模型。这也就是后面要讲的”模型路由”。

十、模型选择决策树

模型选择不是一个拍脑袋的决定，它应该有一个清晰的决策过程。

第一步：明确任务类型。是文本理解和生成？是代码相关？是需要深度推理？是做向量化？是做重排序？是处理图片？是处理语音？不同的任务类型对应不同的模型类别。

第二步：确定质量要求。输出需要多高的准确率？允许偶尔的格式错误吗？用户对等待时间有多大的容忍度？质量要求决定了你是否需要最贵的模型。

第三步：评估成本约束。每次调用的预算是多少？每天的总预算是多少？成本约束决定了你能用什么级别的模型。

第四步：考虑数据敏感性。数据能发送到第三方吗？是否需要本地部署？数据敏感性决定了你能用云模型还是本地模型。

第五步：考虑延迟要求。用户能等多久？毫秒级响应还是秒级响应就可以？延迟要求决定了你能用多大的模型。

第六步：做出选择并验证。选定模型后，用实际数据测试效果。如果效果不达标，调整选择或者调整 Prompt。

十一、模型路由策略

模型路由是指在一个应用中，根据任务的特征自动选择合适的模型。

为什么需要模型路由？因为在实际应用中，不是所有任务都需要最贵最强的模型。一个行业分析系统可能同时处理以下任务：

简单分类（判断用户输入属于哪种类型）——可以用小模型，成本是 GPT-4 的十分之一，速度也更快。

文本生成（生成行业分析报告）——需要大模型的深度理解能力，必须用 GPT-4 级别的模型。

向量化（把文档转成向量）——需要专门的 Embedding 模型，不是通用大模型的工作。

重排序（对检索结果重新排序）——需要专门的 Reranker 模型。

如果所有任务都用最贵的模型，成本会非常高。模型路由的目标是让每个任务都用到最合适的模型，在不牺牲关键质量的前提下最小化成本。

常见的模型路由策略：

基于任务类型路由。根据任务类型（分类、生成、检索等）选择对应的模型。这是最简单也最常见的策略。

基于复杂度路由。评估任务的复杂程度，复杂任务用大模型，简单任务用小模型。复杂度可以通过输入长度、任务类型、历史数据等来判断。

基于成本路由。设置成本预算，优先选择成本最低的模型，只有当低成本模型无法满足要求时才升级到更贵的模型。

基于延迟路由。对延迟敏感的任务用轻量模型（响应快），对延迟不敏感的任务用重量模型（质量高）。

动态路由。根据实时的模型负载、成本预算、质量指标等动态调整路由策略。

十二、成本与效果权衡

模型选择的核心问题就是成本与效果的权衡。

一个简单的成本模型：每次模型调用的成本等于输入 Token 单价乘以输入 Token 数量加上输出 Token 单价乘以输出 Token 数量。

以 GPT-4o 为例，输入大约每百万 Token 2.5 美元，输出大约每百万 Token 10 美元。一次典型的行业分析调用（输入 2000 Token、输出 3000 Token）成本大约是 0.035 美元，约合人民币 0.25 元。看起来不多，但如果每天有 1000 次调用，一个月就是 7500 元。如果每次分析需要调用 5 次模型（多次处理），成本就变成了 37500 元/月。

这就是为什么需要认真考虑成本优化：

用小模型处理简单任务。一个分类任务用 GPT-4o-mini 可能只要 0.002 美元，用 GPT-4o 要 0.035 美元，差了 17 倍。

设计缓存机制。相似的问题不重复调用模型，直接返回缓存的结果。

批量处理。把多个小任务合并成一次调用，减少调用次数。

控制输出长度。在 Prompt 中明确限制输出长度，避免模型生成过长的内容浪费 Token。

选择合适的模型级别。不是所有场景都需要最好的模型。用 A/B 测试来找到”够用”的模型级别。

概念关系图

模型选择全景图

+----------------------------------------------------------+
|                    任务类型                                |
|                                                          |
| +----------+ +----------+ +----------+ +----------+      |
| | 文本生成 | | 深度推理 | | 代码生成 | | 向量化   |      |
| +----+-----+ +----+-----+ +----+-----+ +----+-----+      |
|      |            |            |            |             |
|      v            v            v            v             |
| +----------+ +----------+ +----------+ +----------+      |
| | GPT-4o   | | o1/o3    | | Claude   | | Embedding|      |
| | Claude   | | DeepSeek | | CodeLlama| | BGE/E5   |      |
| | Gemini   | | R1       | |          | |          |      |
| +----------+ +----------+ +----------+ +----------+      |
|                                                          |
| +----------+ +----------+ +----------+ +----------+      |
| | 重排序   | | 图片理解 | | 语音识别 | | 图像生成 |      |
| +----+-----+ +----+-----+ +----+-----+ +----+-----+      |
|      |            |            |            |             |
|      v            v            v            v             |
| +----------+ +----------+ +----------+ +----------+      |
| | Cohere   | | GPT-4o   | | Whisper  | | DALL-E   |      |
| | BGE-Re   | | Claude   | |          | | Flux     |      |
| +----------+ +----------+ +----------+ +----------+      |
+----------------------------------------------------------+

模型路由策略
+----------------------------------------------------------+
|                                                          |
|  用户请求                                                 |
|      |                                                   |
|      v                                                   |
|  +--------+                                              |
|  | 任务   |                                              |
|  | 分析器 |                                              |
|  +---+----+                                              |
|      |                                                   |
|      +-------+--------+---------+---------+              |
|      |       |        |         |         |              |
|      v       v        v         v         v              |
|  +------+ +------+ +------+ +------+ +------+          |
|  | 小模型| | 大模型| | 推理  | | 嵌入  | | 重排  |          |
|  | 分类 | | 生成 | | 模型  | | 模型  | | 模型  |          |
|  +------+ +------+ +------+ +------+ +------+          |
|      |       |        |         |         |              |
|      +-------+--------+---------+---------+              |
|                      |                                   |
|                      v                                   |
|               +-----------+                              |
|               | 结果整合  |                              |
|               +-----------+                              |
+----------------------------------------------------------+

成本与效果权衡
+----------------------------------------------------------+
|                                                          |
|  效果高                                                   |
|    ^                                                     |
|    |    * GPT-4o                                         |
|    |           * Claude 3.5                              |
|    |                    * GPT-4o-mini                    |
|    |                              * 小模型               |
|    +-----------------------------------------> 成本高    |
|                                                          |
|  目标：在满足效果要求的前提下，选择成本最低的模型          |
+----------------------------------------------------------+

实战分析

做模型选择决策树

决策树应该覆盖所有常见的任务类型。从任务类型开始分支，每个分支考虑质量要求、成本约束、数据敏感性、延迟要求，最终指向具体的模型推荐。

为 20 个 AI 应用场景选择模型

这 20 个场景应该覆盖不同的任务类型和复杂度。每个场景的分析应该包含：场景描述、任务类型、质量要求、推荐的模型、推荐理由、预计成本。

设计低成本模式和高质量模式

同一个应用可以有两种运行模式。低成本模式用小模型 + 简单流程，牺牲一些质量来换取低成本和快速响应。高质量模式用大模型 + 完整流程，追求最高质量。两种模式的对比应该包含：使用的模型、调用的步骤、预计成本、预计效果、适用场景。

分析半导体 AI 场景需要哪些模型

半导体 AI 场景涉及多种任务：工艺文档检索（Embedding + Reranker + 通用模型）、良率数据分析（推理模型）、报告生成（通用模型）、设备异常图片识别（多模态模型）。每个场景需要哪些模型，它们怎么组合，成本大概多少。

当日产物说明

《模型选择决策树》

一张清晰的决策流程图，从任务类型出发，经过质量、成本、数据、延迟等维度的判断，最终指向具体的模型推荐。质量标准：覆盖所有主要任务类型，决策逻辑清晰，非技术人员也能跟着做选择。

《20 个场景模型选择表》

一个详细的表格，包含 20 个 AI 应用场景的模型选择分析。每个场景包括：场景描述、任务类型、输入输出特征、推荐模型、推荐理由、预计成本估算。质量标准：场景覆盖面广，从简单到复杂都有，模型选择合理有据。

《模型路由策略草案》

一份描述如何在应用中实现模型路由的文档。包含：路由决策逻辑、模型配置表、成本控制策略、降级策略。质量标准：路由逻辑清晰可执行，覆盖主要的任务类型和异常情况。

《低成本版 / 高质量版模型方案》

同一应用在两种模式下的模型配置对比。包含：每个步骤用什么模型、每次调用的成本、完整流程的总成本、效果对比、适用场景说明。质量标准：两种模式的差异清晰，成本估算合理，能帮助客户根据预算做出选择。

常见误区与避坑

误区一：所有任务都用最贵的模型

这是最浪费的做法。很多任务（分类、提取、格式化）用便宜的小模型就足够了。把 GPT-4 级别的模型用来做”判断这段文字是正面还是负面”这种简单任务，就像用大炮打蚊子。学会区分任务的复杂度，按需选模型。

误区二：过度追求开源免费

开源模型免费但不是没有成本。运行开源模型需要 GPU 服务器，一块 A100 GPU 的月租费可能就要几万元。加上运维人力、模型更新、性能调优的成本，总拥有成本可能比调用商业 API 还高。要算总账，不要只看表面价格。

误区三：忽视模型组合的价值

很多人只关注选哪个”主模型”，忽视了 Embedding 模型、Reranker 模型等专业模型的价值。在 RAG 系统中，一个好的 Embedding 模型 + 一个好的 Reranker 模型，对最终效果的影响可能比换一个更好的主模型更大。

误区四：不关注模型的实际成本

很多人在设计系统时不计算成本，等到上线后才发现调用费用远超预算。在设计阶段就要做成本估算——每个功能的模型调用次数、每次调用的 Token 量、对应的费用。这能帮你在设计阶段就做出合理的取舍。

误区五：模型选好后就不变了

模型的性价比在不断变化。新的模型发布、价格调整、能力提升都可能影响你的选择。应该定期重新评估模型选择，看看有没有更好的方案。

延伸思考

今天的模型选择和路由策略为后续的成本优化（Week 5）打下了基础。在 Week 5 中，你会深入学习如何精细化地管理模型调用成本——缓存策略、Token 优化、批量处理、动态路由等。

从架构角度看，模型路由是 AI 应用架构设计中的重要一环。一个好的模型路由层应该把模型选择的复杂性封装起来，让上层业务代码只需要说”我要做什么”，而不需要关心”用哪个模型”。这种解耦让系统更灵活——当有新模型发布时，只需要调整路由层的配置，不需要修改业务代码。

从商业角度看，理解模型成本能帮你做出更准确的报价。一个 AI 应用的运行成本中，模型调用费用通常占大头。如果你不知道成本结构，报价就只能是拍脑袋。如果你能精确计算出每个功能模块的模型调用成本，就能做出既合理又有利润的报价。

自测问题

通用对话模型和推理模型的核心区别是什么？各适合什么场景？
Embedding 模型在 RAG 系统中扮演什么角色？选择 Embedding 模型要考虑哪些因素？
Reranker 模型和向量检索有什么区别？为什么 RAG 系统通常两者都用？
云模型和本地模型各有什么优缺点？什么情况下应该选择本地模型？
什么是模型路由？为什么一个应用需要使用多个模型？
设计模型选择决策树时，需要考虑哪些维度？
如果一个企业 AI 应用的月度模型调用预算是 5000 元，你会怎么分配？
为什么说”模型选择不是越强越好”？请从成本、速度、适用性三个角度分析。
一个 RAG 系统通常需要哪些类型的模型？它们各自负责什么？
多模态模型在企业应用中的价值是什么？举两个具体场景。

关键词

通用对话模型：能处理多种任务的通用大语言模型
推理模型：专门优化复杂推理能力的模型，如 o1、DeepSeek-R1
代码模型：专门在代码数据上训练的模型
Embedding 模型：专门做文本向量化的模型
Reranker 模型：对检索结果重新排序的模型
多模态模型：能同时处理文本、图片等多种数据类型的模型
语音模型：处理语音识别和语音合成的模型
图像模型：生成或编辑图片的模型
本地模型：在自有服务器上部署的开源模型
云模型：通过 API 调用的商业模型服务
模型路由：根据任务特征自动选择合适模型的机制
成本与效果权衡：在输出质量和调用成本之间找到最佳平衡点

MindCarver Blog

MindCarver

探索

Day05-模型选择与模型路由