大模型处理29个NLP任务的39种prompt策略总结：兼看2024上半年大模型发展回顾

今天是2024年7月20日，星期六，北京，天气晴。

我们来看看大模型NLP-prompt工程总结：29个NLP任务下的39种方法。

实际上，关于prompt这块的工作，已经有2个了，包括：《The Prompt Report: A Systematic Survey of Prompting Techniques》(https://arxiv.org/abs/2406.06608)

《A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications》（https://arxiv.org/abs/2402.07927）

我们今天来看第三个，一方面为了加深印象，另一方面还是看看其差异性，从NLP经典任务出发做了调研，对我们的实际生产的技术选型有实际意义。

另一个的，我们来面向社区成员进行社区第26讲，来回顾下过去半年的大模型进展，然后再看看对应这半个月的一些新鲜事儿，感兴趣的可以参加。

知其然，更知其所以然，尽可能不要碎片化阅读。

供大家一起思考并参考。

一、大模型NLP-prompt工程总结：29个NLP任务下的30种方法

我们来看看大模型在特定任务上的雕花，来看个NLP里面的prompt工程总数，《A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks》(https://arxiv.org/abs/2407.12994)，阅读并呈现了44篇研究论文的综述，其中讨论了29个不同NLP任务上的39种不同的提示方法

这对于增强我们对大模型prompt工程的理解是有帮助的，我们可以看看其提示工程方法与NLP任务的分类体系，以及其对这些工作进行的分析和比较结结论。

如针对每类NLP任务，都以表格的形式整理出了其对应的sota方案。

1、39种不同的提示方法

在具体量化指标上，论文列举了39种不同的提示方法。

Basic/Standard/Vanilla Prompting: 直接向LLMs提出查询，不进行任何提示工程。
Chain-of-Thought (COT): 生成一系列中间推理步骤来增强LLMs的复杂推理能力。
Self-Consistency: 通过不同的推理路径选择最一致的答案。
Ensemble Refinement (ER): 在COT和Self-Consistency的基础上，通过多次生成和投票选择最终答案。
Automatic Chain-of-Thought (Auto-COT): 自动生成推理链，减少对训练数据点的依赖。
Complex COT: 选择复杂数据点提示以增加LLMs的推理性能。
Program-of-Thoughts (POT): 生成Python程序，将计算部分交给Python解释器。
Least-to-Most: 解决CoT在解决比示例更难的问题时的不足。
Chain-of-Symbol (COS): 使用符号表示推理步骤，以改善空间问题的表达。
Structured Chain-of-Thought (SCOT): 使用程序结构来组织中间推理步骤，以更准确地生成代码。
Plan-and-Solve (PS): 解决CoT的计算错误、遗漏步骤错误和语义理解错误。
MathPrompter: 针对数学问题解决任务，通过生成代数表达式和Python函数来提高有效性。
Contrastive CoT/Contrastive Self-Consistency: 提供正面和负面示例来增强LLMs的推理能力。
Federated Same/Different Parameter Self-Consistency/COT (FED-SP/DP-SC/COT): 使用同义词众包查询来提高推理能力。
Analogical Reasoning: 利用类比推理，使用相关经验解决新问题。
Synthetic Prompting: 使用LLMs生成合成示例，增强现有手工示例。
Tree-of-Thoughts (TOT): 通过树状结构搜索组合空间，每个节点代表部分解决方案。
Logical Thoughts (LOT): 使用逻辑等价来改善零样本推理能力。
Maieutic Prompting: 使用深度递归推理来引出各种假设的演绎解释。
Verify-and-Edit (VE): 后编辑CoT生成的推理链，以获得更符合事实的输出。
Reason + Act (REACT): 结合推理和行动，解决多样化的语言推理和决策任务。
Active-Prompt: 通过识别最相关的数据点作为示例，帮助LLMs适应不同任务。
Thread-of-Thought (THOT): 处理长混乱上下文，保持信息流的连贯性。
Implicit Retrieval Augmented Generation (Implicit RAG): LLM自己检索给定上下文中的重要部分，然后回答问题。
System 2 Attention (S2A): 两步提示策略，解决LLMs因不相关上下文而做出错误判断的问题。
Instructed Prompting: 明确指示语言模型忽略问题描述中的不相关信息。
Program Prompting: 通过编写Python程序来解决问题，并通过外部Python解释器运行代码以获得最终答案。
Chain-of-Verification (COVE): 通过生成验证查询来检查基线响应中的错误，并修正这些错误。
Chain-of-Knowledge (COK): 通过动态知识适应和答案整合来解决幻觉问题，提高准确性。
Chain-of-Code (COC): 使LLM的代码导向推理更好，生成伪代码并模拟解释器的输出。
Program-Aided Language Models (PAL): 使用LLM读取自然语言问题并生成混合自然语言和编程语言语句的推理步骤。
Binder: 一种无需训练的神经符号技术，将输入映射到程序中，以增加对语法的覆盖范围并解决更广泛的查询。
Dater: 探索LLMs在少样本学习中的表基推理，通过分解证据和查询来提高效率。
Chain-of-Table: 将CoT技术应用于表格设置，通过多步骤表格提示方法提高表格理解的准确性。
Decomposed Prompting (DECOMP): 将复杂问题分解为更简单的子问题，然后由特定于子问题的LLMs解决。
Three-Hop Reasoning (THOR): 模仿人类情感/情绪理解任务的推理过程。
Metacognitive Prompting (MP): 基于元认知概念，包括理解输入文本、初步判断、批判性评估、做出最终决定和评估整个过程的置信度。
Chain-of-Event (COE): 用于摘要任务，通过提取特定事件并按时间顺序整合它们。
Basic with Term Definitions: 在基本提示指令中添加医学术语定义，以帮助LLM在回答问题时获得更多上下文。