春节后又请假出去玩了一周,这周我终于开工啦,新年新气象,大家进入学习状态了吗?
经过接近一个春节的假期,大家是不是也有以下这样的感觉......
反正我还在努力克服节后综合症,所以开启一篇文章记录自己最近学的关于Agent如何进行落地的关键知识点,也和大家分享一下。
什么叫拿着锤子找钉子?就是说试图用AI去做Excel已经做得很好的事情。
关于这个误区,我有一个自己曾经遇到过的例子:
我在去年跟我的领导汇报AI产品规划的时候,我提到了一个场景,我想用AI知识问答的方式做下单。
我认为解决的痛点是:
1、解决我们客户反复说到的我们平台内产品查询效果不佳的问题;
2、解决在商城内下单只能单个查询、单个加购的问题。
我当时给出的解决方案:让客户直接将他需要的所有产品发给AI,AI实现语义理解后快速且精准的找到产品清单,并且和用户进行确认,明确无误后进行下单。
我的老板只问了我一个问题“你如果只是解决这两个问题,为什么不选择进行功能的交互优化、和做一个可以批量下单的功能呢?”
他提出这个问题后,我突然意识到我其实在“为了AI而AI”,我不能保证AI的效果一定比传统的工程化产品设计更好,那我用一个无法保证效果的工具去替代掉一个经过验证、成熟稳定的工程化方案,就是杀鸡用牛刀。
我确实在拿着锤子找钉子,而且找的还是一颗原本用扳手就能拧紧的螺丝。
很多公司在上智能体的第一件事都是先做一个知识问答,不管回答得对不对先把知识问答上了。(至少我们公司就是这样的)
仿佛只要把AI问答对话做了,就进入AI智能化了。
但是,这样直接上线的AI智能体只是一个工具,如何将他作为AI员工拿到业务结果才是重点。
从 “工具” 到 “员工” 的转变,才是企业 AI 落地从 “尝鲜” 走向 “创造价值” 的关键一步。
什么是场景?
某个事情在脑子里面有强烈的画面感,什么人做什么事情,需要达成什么结果。
而且场景的颗粒度要足够细致,从大到小进行拆分。
以下是我用最近在做的AI数据分析举的例子:
为什么要找场景?
场景划小是降低问题复杂度的最好手段,在未拆分的时候看到的全是问题,拆分到细的颗粒度更容易找到解决方案。
当你说"我要做智能客服",这很虚;但当你说"我要解决用户半夜查快递单号但找不到人工客服"这个具体场景,价值点立马就扎进来了。
寻找MVP使用拆分微小的场景的方法,更容易找到MVP。找那个最小的、能闭环的、用户愿意买单的场景切口。
怎么找场景?
1.关注槽点
把耳朵立起来,听用户的槽点。 不是听用户想要什么功能,而是听他们在抱怨什么——"每次都要"、"太麻烦了"、"又得从头来"、"点了五次还没找到"。这些带着情绪的不满,才是真需求。
用户通常不会告诉你他们想要什么AI,但他们一定会告诉你什么让他们不爽。比如销售人员抱怨"每次写跟进记录都要花半小时",这就是一个场景;财务人员吐槽"月底对账要手动匹配几百条流水",这又是一个场景。这些"不高兴的点",才是AI可以介入的价值点。
2.找产品里用户"不愿意做但不得不做"的事。
什么是用户不愿意做的事?重复枯燥的、需要记忆大量规则的、跨系统来回切换的、需要在多个页面复制粘贴的...这些反人性的操作,用户做起来痛苦,但业务又要求必须做。这种"不得不做的苦差事",就是AI最好的切入点。
让AI去做那些帮人扛住枯燥、重复、有明确规则但耗时的 dirty work。
分场景建库,别让AI大海捞针
传统做法是把所有文档塞进一个库里,AI检索时就像在无差别扫描整个硬盘,既慢又容易跑偏。更好的办法是按业务场景切分模块。
比如企业内部知识库,可以切成产品、客户、项目、订单这几个独立模块。当员工问"XX产品怎么完成调试",系统先识别出这是产品类问题,直接把搜索范围限定在产品模块里,而不是去客户或项目文档里瞎翻。这样精度立马上去,也减少了AI"张冠李戴"的可能性。
将知识点按照主题来进行构建
以前NLP时代喜欢搞问答对(QA ),"问:XX系统中,XX屏作为网关如何接线?答:①XX屏需要搭配XX底座; ②XX底座采用XX总线与其它总线设备手拉手连接,同时布网线至交换机(或连接WIFI)。"。这种太碎了,AI经常缺上下文。
大模型适合改成主题式知识单元。
以上关于产品使用的例子:以前拆成五六个独立的QA对,接线、联网、通讯,各是各的。现在应该整理成一篇【设备使用说明】,里面把知识全部写在一起。AI检索到这一条,就等于拿到了完整的手册,不需要拼凑多个片段。
给专业术语加"人话注释",填平语义鸿沟
原始业务数据往往只有专业字段名,但AI不懂这些缩写背后的业务含义。你得在数据里加上场景化的解释。
比如:一个公司内的产品名称都是由硬件产品经理定义的名称,但是真实B端的客户会喜欢用自己常用的词汇或者行业黑话来进行查找,通过这种方式查询到对应产品的效果较差。
图片里的信息,得用文字"翻译"出来
很多操作手册是图文混排的,但AI看图片里的箭头、颜色、位置描述起来很吃力。把视觉信息转化成文字指令更有利于大模型理解。
说白了,给AI准备数据就是降熵的过程——把原本面向人设计的、零散的、有歧义的文档,转化成结构清晰、语义明确、路径简短的机器友好型知识。
这是什么?
判断你的AI输出结果是否满足效果,以及在对大模型修改了内容(微调、修改工作流、优化提示词、增加规则等)后,是否有优化和提升的评判标准。
为什么需要?
1.从"拍脑袋"到"可量化"的上线指标
AI 产品的输出具有不确定性,不能像传统软件那样只看功能有无 bug。需要建立量化的上线标准——比如特定测试集的通过率、幻觉率控制、多轮对话稳定性等指标。没有标准,上线决策就会陷入"感觉差不多可以了"的模糊地带。
2. 防止"修 A 坏 B":系统性回归风险控制变量
大模型应用依赖提示词工程、RAG 知识库和复杂工作流,这些组件之间存在高度耦合。局部优化可能破坏整体稳定性——你为了解决某个场景调整了 prompt,却导致原本正常的场景输出异常。这本质是缺乏回归测试机制,需要测试集来确保每次改动不会引入连带损伤。
3. 突破"人眼局限":从抽样到全覆盖
人工测试本质是抽样检查,而 AI 面对的用户输入是开放域的。几个测试用例通过不代表系统真的健壮。系统性测试集能够覆盖边缘 case(edge cases)、边界条件和复杂语境,避免"看起来正常,实则暗藏风险"的盲区。