YC 聊 Prompt,讲述他们与数百位使用 LLMs 构建产品的创始人合作中所学到的经验:为什么提示仍然重要,它在哪些地方会失效,以及团队如何使其在生产中更加可靠。
链接:www.youtube.com/watch?v=DL82mGde6wo
以下要点由 Gemini 2.5 Pro 整理:
1. 元提示(Metaprompting)的重要性:Garry Tan开场提到,元提示是一个非常强大的工具,尽管目前的工具尚不成熟,感觉像1995年的编程。他还将其比作学习如何管理一个人——需要教会AI如何正确决策。
2. Parahelp的提示工程实践:
Jared Friedman分享了AI客服公司Parahelp(服务于Perplexity, Replit等)的真实提示(链接:parahelp.com/blog/prompt-design)。Diana Hu详细解析了这个长达6页的提示:
- 角色设定:明确LLM的角色(如“你是客服座席的经理”)。
- 任务分解:将任务细化为步骤(如“批准或拒绝一个工具调用”)。
- 结构化输出:使用类似XML的标签(如accept)来规范输出格式,这有助于LLM遵循,因为许多LLM的训练数据包含这类结构化文本。
- 示例学习(Few-shot):提供具体场景和期望输出的示例。
- Markdown格式:使提示更像编程文档,易于理解和维护。
- 整体而言,提示更像编程而非简单地写英文。
3. 提示的层级与定制化:
- 讨论了系统提示(定义公司通用API和操作)、开发者提示(为特定客户定制,如Perplexity的RAG处理方式)和用户提示(用户的实际查询)。
- 对于垂直AI代理公司,挑战在于如何在为每个客户提供定制化工作流的同时,构建一个通用的产品。这涉及到提示的“分叉与合并”管理。
4. 元提示与LLM自我改进:
- Tropir公司使用“提示折叠”(prompt folding)技术,让一个提示动态生成更优化的自身版本。
- 可以将现有提示和失败案例反馈给LLM,让其帮助改进提示,因为LLM“了解自己”。
5. LLM的“逃生舱”与评估(Evals):
- Tropir发现LLM有时会为了“取悦”用户而胡乱猜测。因此,需要给LLM一个“逃生舱”,允许它在信息不足时承认并请求更多信息,而不是强行输出。
- YC内部甚至用LLM为开发者生成待办事项。
- 评估数据集(Evals)被认为是AI公司的真正核心资产,甚至比提示本身更重要。
6. “前置部署工程师”(Forward-Deployed Engineer, FDE)模式的应用:
- 借鉴Palantir的经验,AI初创公司的创始人需要像FDE一样,深入一线,理解用户(如拖拉机销售区域经理、FBI探员)的真实工作流程和需求,并快速迭代产品。这要求创始人集人种志学者(ethnographer)、设计师和产品经理于一身。
- 这种深度理解和快速迭代是AI初创公司的“护城河”。
7. 不同LLM的“个性”:
- 不同的LLM(如Anthropic的Claude、Meta的Llama 4、Google的Gemini 1.5 Pro)有不同的“个性”和响应方式。
- Claude更“快乐”和“人性化”,易于引导。
- Llama 4因RLHF较少,更像和开发者对话,需要更明确的指令。
- Gemini 1.5 Pro在遵循评分标准(rubrics)时表现出更大的灵活性和推理能力,能理解并处理例外情况,而Opus则更严格地遵循规则。
因此,需要为不同模型和任务定制提示策略。有时甚至可以用更强大的模型来生成或优化用于更小、更快模型的提示(模型蒸馏)。
