《跨境电商+AGI实战之五:跨境老张的一些思考(附上AI帮忙整理的提示词Prompt)》
======================背景知识====================
1。大家看我的微博名就知道按目前互联网的标准,我已经是个老登了。我学电脑的时候大概是在98年的样子,当时还是先学的DOS系统,Windows系统也是从Win95开始学的,学打字的时候,直接学的五笔输入法。
2。 99年帮家里摆地摊卖对联的时候,在隔壁书摊上看到一本《ASP入门》研究了半天没研究明白,后来就跟着我老哥学HTML,但是也是三天打鱼两天晒网,我老哥都能跑程序扫那些废弃的6位QQ号的时候,我还止步于拿个marquee标签弄个文字跑马灯效果。
3。后来高中三年一心只读圣贤书,就基本没时间捣鼓电脑了。高三暑假拿到大学录取通知书,就开始在大学的论坛里天天泡着,和各个版主混得很熟悉。其中的很多版本都是学生网站的学长们,所以一进大学,便通过学长的关系进入到学校勤工助学网站兼职打工,还能学习一些网站知识。当时的工资还能覆盖大学期间的生活费。
4。大一暑假的时候提前给家里打了电话没有回老家,就在学校旁边的出租屋里跟着一个学长学当时最新的ASP.Net和SQL,煞有介事地学起了代码的三层结构,另外日常网站工作也经常用网络三剑客(Dreamweaver, Fireworks,Flash),虽然学得都不精通,但是也基本上能跑起来。大二就自己做前端页面,自己写代码帮学院做了官网,另外还要维护服务器,一直到大学毕业。
5。大学毕业之后开始为生活四处奔波的10几年时间里,基本没再碰过编程,直到通过各种渠道了解到孩子可以学信奥走强基,才和孩子一起又折腾了一段时间C++,但是到了背包问题,动态规划的时候,孩子理解不了,文科背景的我也没办法理解和指导了,再加上各种大模型已经铺天盖地了,于是和孩子一起放弃了这个东西。
6。这两年时间里各种模型基本都有尝试过,但是也只是拿来替代搜索引擎,查点东西。真正和日常工作结合起来,还是今年(2026年)三月开始的小龙虾(openclaw)。最近一段时间正值财务在集中处理税务申报问题,很多PDF的数据要取出来,于是拿小龙虾去尝试了一下,也就是大家前面看到的几篇东西。在专业人事眼里,可能看起来会比较幼稚和初级,但这个也是基于我目前的认知做出得最好尝试。而也是在这个尝试的过程当中,逐渐理解了一些AI Agent的能力和弊端。
7。之前有评论区问我说公司只有几个店铺,手工统计也很快。其实我还是建议能去尝试一下用这个AI Agent实地操作一下,因为理解一种新工具最好的办法,就是用一个真实的使用场景去实现。而这个实现的过程,也可以加深对工具的理解,进而把这种技能再应用到其他场景当中去。
==============老张的一些感悟================
1。大家看到我似乎有一些技术背景,但是在AI时代,我那点所谓的“技术背景”约等于0,所以完全不要有任何心理压力。
2。不管是创业者,还是打工人,都值得去尝试AI Agent,然后和自己的工作、生活相结合去感受AI带来的变革能力,跟上时代发展的步伐。
3。Openclaw或者其他AI Agent只是个有一定记忆能力(memory.md)的身体,真正的大脑还是对接的大模型(Kimi, Deepseek, Claude等),只是它在和大模型沟通时候,会把自己记忆里的东西+你新发出的指令一并发给大模型,所以你看到的返回文件,似乎是AI拥有了记忆。
4。不管是直接用大模型聊天,还是通过AI Agent帮我们直接产出一些可交付产品,都需要用好提示词(prompt),也就是给大模型的指令。因此最近已经出现了一门新学问叫Prompt Engineering, 提示词工程。这就是以后我们与AI打交道的通用语言了。因为AI会根据我们给出的提示词,产出相应的结果。
5。那么如何学习这个Prompt Engineering,让自己的提示词更高效? 那么我最深刻的体会就是,在AI时代,不要再抱着书本去啃这个概念,一定要借助AI去学习AI,也就是让AI告诉你怎么样写好Prompt, 让它帮你生成Prompt,然后你再去修改完善。(后面附上的提示词,就是AI写的)
6。前面有提到一个61岁的人在学习AI,还是教身边的人学AI。大家不要慌张,只要今天开始拿AI去学习怎么写好Prompt,你也是在你这个岁数学习AI了。不管屏幕前的你是18岁,还是25岁,亦或是65岁。这个东西并不难,难的是持续不断地应用到工作,生活,学习当中。
7。AI Agent能用好,那最近比较流行的OPC(Once Person Company)就有了可能性,我最近也在琢磨着在一个小范围内拿一两个人试行一下用这种OPC的方式推动一个项目。后续如果有进展,也会和大家分享。
=============之前那个提取财务数据的Prompt==============
# 训练亚马逊PDF财务报表提取工具的Prompt
## 背景
我需要训练一个Python工具,用于自动提取亚马逊卖家中心PDF报表中的财务数据。财务同事每个月需要汇总多个店铺、多个站点的报表来报税,人工统计费时费力还容易出错。目标是实现自动化提取,再由人工核对,提升效率。
## 需求描述
请帮我编写一个Python脚本,实现以下功能:
### 1. 输入
- 一个文件夹路径,包含多个亚马逊PDF报表文件
- 文件名格式示例:KL-StoreName-US-7月.pdf、JN-StoreName-DE-March.pdf、GM-StoreName-FR-2025-07.pdf
- 支持多种文件名变体(不同前缀、不同月份格式、不同语言月份名)
### 2. 输出
- 一个Excel文件,包含以下字段:
- 月份(从PDF内容或文件名提取)
- 团队名(从文件名前缀解析,如KL/JN/GM)
- 店铺名(从文件名解析)
- 站点(US/CA/MX/DE/FR/ES/IT/UK等)
- 币种(从PDF内容或站点自动匹配)
- Display Name(亚马逊店铺显示名)
- Legal Name(公司法定名)
- Income(收入汇总)
- Expenses(费用汇总)
- 平台费用(Selling Fees合计)
- 派送费(FBA Transaction Fees合计)
- 广告费(Advertising合计)
- Transfers(转账金额)
- Amazon Tax(Amazon代扣税费,多语言支持)
- Tax Debits Subtotal
### 3. 核心要求
**多语言支持(必须实现)**:
- 英语、德语、法语、西班牙语、意大利语
- 荷兰语、波兰语、瑞典语、土耳其语、巴西葡萄牙语
- 所有费用科目、Amazon Tax关键词、Display Name/Legal Name标签都需要支持多语言
**数据提取逻辑**:
- 优先从PDF内容直接提取月份和币种,不要依赖文件名
- 使用pdfplumber库读取PDF(不要用pdftotext,会有合并行问题)
- Amazon Tax提取要使用精确多语言短语匹配,提取关键词后面的金额
- 明细费用需要求和计算(平台费用、派送费、广告费都有多行明细)
- 添加验证机制:检查明细加总是否等于合计数,标记异常
**健壮性要求**:
- 处理不同团队的文件夹命名不规范问题(7月/七月/2025-07/July等)
- 处理PDF文件名各种缩写和变体
- 欧洲数字格式处理(逗号作为小数点,点作为千分位)
- 添加安静模式参数,控制日志输出级别
### 4. 技术栈
- Python 3.8+
- pdfplumber(PDF读取)
- pandas(数据处理)
- openpyxl(Excel输出)
### 5. 迭代优化方向
**第一版**:先实现基础功能,支持英语US站,能提取Income/Expenses/Tax/Transfers四大区数据
**第二版**:增加多语言支持,处理德语、法语、西班牙语站点
**第三版**:优化Amazon Tax提取逻辑,解决欧洲站点Tax提取错误问题
**第四版**:改用pdfplumber替代pdftotext,解决多行合并导致的金额提取错误
**第五版**:增加从PDF直接提取月份和币种功能,不依赖文件名
**第六版**:增加验证机制,自动标记明细不等于合计、时间周期异常的记录
**第七版**:添加安静模式,支持批量处理时减少日志输出
## 示例调用
```bash
python3 extract_amazon_pdf.py "/path/to/pdf/folder" "/path/to/output.xlsx" --store StoreName -q
```
## 关键踩坑提示(给AI的提示)
1. **不要依赖文件名提取月份**,运营经常导错时间周期,必须从PDF内容读取
2. **Amazon Tax在欧洲站点和北美表述完全不同**,需要精确多语言短语匹配
3. **pdftotext会把多行合并成一行**,导致金额提取错误,必须用pdfplumber
4. **欧洲数字格式**用逗号作为小数点,需要特殊处理
5. **明细求和时要防重复计算**,跳过包含订单号的明细行
6. **Display Name/Legal Name标签各国写法不同**,需要维护多语言映射表
## 预期效果
- 处理几十个店铺PDF,耗时从几小时缩短到1-2分钟
- 准确率95%以上,异常记录自动标记供人工核对
- 支持20+站点、10+语言
- 成本从云端大模型的按Token收费,降到本地运行的电费
---
**使用建议**:把这个Prompt扔给Kimi/Claude/DeepSeek,让它帮你一步步实现。遇到具体报错,把错误信息贴回去继续问。整个过程就是不断迭代优化Prompt和代码的过程。
发布于 湖南
