加载中...

prompt工程学习

发表于2025-03-10|更新于2025-07-16|prompt

|总字数:628|阅读时长:2分钟|浏览量:

前置知识：

1.轻松搞懂 Zero-Shot、One-Shot、Few-Shot - 知乎

Zero-Shot零样本学习：测试集中出现了训练集中没有的类别。需要模型通过对这个类别的描述，对没见过的类别进行分类。
One-Shot一次性学习：给出一个样例，可以理解为用一条数据fine-tune模型。属于Few-Shot学习的特例。
Few-Shot少样本学习：对于只有少量样本的类别，希望模型在学习了一定类别的大量数据后，只需要少量的样本就能快速学习。

2.大模型「幻觉」，看这一篇就够了 | 哈工大华为出品 - 知乎

大模型幻觉问题：模型生成的内容与现实世界事实或用户输入不一致的现象。

CoT思维链

参考链接：一文读懂：思维链 CoT（Chain of Thought） - 知乎

在从输入到输出的过程中加入详细的推理小步骤有助于提升推理能力。

完整包含 CoT 的 Prompt 由指令（Instruction），逻辑依据（Rationale），示例（Exemplars）三部分组成。模型规模小、任务简单的情况下，CoT无效。

不添加示例而仅仅在指令中添加一行经典的“Let’s think step by step”，就可以“唤醒”大模型的推理能力。

构造CoT：

PoT：P 指 Programm 即程序，让模型生成代码在解释器中运行。
Tab-CoT：Tab 指 Tabular 表格，让大模型在每一步的推理中记录一个“∣步数∣子问题∣过程∣结果∣”的推理表格，并让大模型在推理时从生成的表格中提取答案。
ToT：T指Tree即树形结构。
GoT：G指Graph即图形结构。

结构化生成

利用Prompt

参考链接：LLM结构化生成（Structured Generation） - 知乎

利用Prompt是最简单的结构化生成方式，就是在prompt中说明输出的格式（如JSON）。

存在问题：不稳定（格式错误、含义错误）

简单的解决方案：生成——检查——修复

指定规则检查输出，不符合要求则生成报错信息给模型，不断重新输出，直到输出符合要求。

限制解码Constrained Decoding

就是控制输出的可能性，减少生成也有利于加速模型。

将方案转化为正则表达式

待写

支持多图推理的模型 eg.internvl模型上下文模型告诉实例，QA问法
decoding structure 输出结构化 structured generation，方便交互，parserable prompt

文章作者: MugaiAshe

文章链接: https://mugaiashe.github.io/posts/285f5460.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 MugaiAshe's Blog！

相关推荐

深度学习花书笔记（待更新中）

现存疑问1. 数学知识线性代数生成子空间一组向量的生成子空间：原始向量线性组合能抵达的点的集合。用于判断方程是否有解。范数${ L^p }$ 范数定义：$$\left | x_p \right | = \left (\displaystyle\sum_{i}|x_i|^p \right )^{\frac{1}{p}}$$${ L^0 }$范数：向量中非零元素的个数。 ${ L^1 }$范数：向量中所有元素绝对值之和。 ${ L^2 }$范数（欧几里得范数）：向量元素绝对值的平方和再开方，计算向量长度。 ${ Frobenius}$范数：所有元素的平方和再开方，衡量矩阵大小。$${\left | A \right |}F = \sqrt{\sum{i,j}A_{i,j}^{2} }$$${ L^ \infty }$范数：向量中所有元素中最大的绝对值。奇异值分解特征分解：$$A = Vdiag(\lambda )V^{-1}$$奇异值分解：$$A = UDV^T$$ ${ A_{m\times n}, U_{m\times...

大模型自学笔记（待更新中）

1.NLP基础知识1.1 文本处理基础Tokenizer：分词器Tokenizer是一个用于向量化文本，将文本转换为序列的类。当前tokenization主要分为：word，sub-word， charlevel 三个类型。Subword处于word和char level两个粒度级别之间。 word级别面临问题：超大的vocabulary size, 比如中文的常用词可以达到20W个通常面临比较严重的OOV问题（Out-Of-Vocabulary：测试集中出现的词汇未在训练集中出现，导致模型无法识别或处理这些词汇） vocabulary 中存在很多相似的词。以及char level存在的以下问题：文本序列会变得很长，想象以下如果是一篇英文文章的分类，char level级别的输入长度可以达到上万无法对语义进行比较好的表征 subword 不会对高频的词进行拆分，仅拆分一些低频的词，比如”boy”和”boys”这两个词，将”boys”拆分为”boy”和”s”两个更高频的词，其中”boy”表示的是词根，模型通过”boy”去学习”boys”的语义。 BPE：Byte...

评论