用 AI coding,最绝望的事情是什么?

如果只给世超一票,我会投给,停在一半。

干了半小时,项目刚起好框架,它停在一半。

弹出十个细节 bug,修了三个,它停在一半。

程序动了上百行,测试没跑完,它停在一半。


而面对这些半成品,无能的人类,却连下一句 prompt 都憋不出来,只会搁那 “ 继续继续,你改了啥,回滚回滚,让我们说中文。”

那么问题来了,到底有没有什么办法,能把人类彻底清出 AI 的工作流,让它自己从头干到尾,别再难为还不如豆包聪明的我了?

有的兄弟,有的。最近,小龙虾的创始人 Peter Steinberger 提出了一个新概念,叫 loop engineering。

这玩意儿简单来说,就是人提前给 AI 写一份无脑执行说明书,之后啥也不用管,AI 自己来循环工作。

只不过这份说明书动辄几十页 pdf,里面包含了 AI 实操的各种细节要求,堪称 prompt engineering 的 plus ultra pro max 版。


从写代码,到测试,查 bug,修复,再测试,再修复。。。总之,什么时候结束条件达成了,比如 “ 所有测试通过,benchmark 提升 xx%,循环 20 回合 ”,AI 才能停止工作。

然而,作为又一横空出世的 AI 黑话,世超看到,大部分人其实对 loop engineering 是持怀疑态度的。

有人觉得它看似简单,实际操作难如登天;有人担心燃烧的 token,试错一次原地破产;还有人说这不过是新瓶装旧酒,这些概念以前软件开发早有了。


但光这么说大伙儿可能觉得还是太抽象。所以,世超干脆搭了一个简单的 loop engineering 项目,给各位差友看看实验过程,也顺便验证一下这到底是新玩法,还是真炒作。

全流程体验下来,世超感觉,全自动化解放人类双手的想法是好的,但真用起来,没那么轻松流畅。

咱们这回实验的目标,是通过 loop engineering,让 AI 用尽各种方法,调教 stable diffusion v1.5 模型的输出,让它的图片生成更稳定,更好看。

各位差友可能对 stable diffusion 有点印象,但不多。作为图片生成模型的元老级存在,它早期的效果放现在 GPT、midjourney 的面前,可以说是完全依托,差到有点诡异吓人。


可正是这种又差又不稳定的表现,才让它有很大的优化空间。

即使不动基础模型,只是通过提示词修改,模型参数修改(推理步数,scheduler,seed 等),局部重画等等各种手段,stable diffusion 都有可能抽出更好看的图片。

像是下面这个例子,润一润提示词,效果完全不一样。

这要是用上 loop engineering,自动化尝试更多的方法和案例,岂不是更加未来可期?


为了让AI好好干活,工具方面,世超精挑细选了开源编程 Agent OpenCode,接上 DeepSeek V4 Pro,让它们来修改代码。

测试部分,我们引入第三方模型,让 Qwen 3.5 Plus 来评价最终生成的图片质量,保证公平。


接下来开搓 AI 说明书,几十页的文档,和 GPT 老师三轮对话,也是手到擒来。

整个过程简单来说,就是 DeepSeek 改模型,生图 -> Qwen 锐评 -> DeepSeek 根据评语继续改模型,继续调。


一切准备就绪,世超亲自从头到尾过了一遍,自我感觉十分良好,放心地按下了启动键。

然而,现实却没想象的那么顺利。。。

给大伙儿看看最终实验结果之一,同样的提示词下,感觉 loop 后还远不如 loop 前。


在反复调整实验的过程中,世超发现,loop engineering 的坑确实不少。

首先,写一份合理的说明书,真的很难。

人能处理的信息带宽有限,几十页的说明书文档,有时候调优手段设置不合理,有时候 loop 终止条件没想到。

可任何一个细节没处理好,都可能导致大量时间和 token 的浪费。loop 半天一查报告,欸嘿,开始就错了。

而即使你反复优化说明书,修改实验,折腾一通下来,可能只是浪费了钱和时间。

世超第一次实验跑了一小时,第二次实验跑了五个小时,结果都很一般,没有达到预期的优化图片效果。


其次,没有中途调整机会的 loop engineering,很容易越走越偏。

传统的人机 prompt 回合制虽然烦,至少人还能一轮一轮盯着看。图崩了,可能是某个参数没调好,手崩了,就改改 prompt,主打一个对症下药。

虽然写代码人类已经不行了,但拼经验,AI 还是不如人。

可 loop engineering 不一样,它的核心就是提前把规则写死,然后让 AI 在规则里自己循环。

所以,一旦中间哪里出了岔子,比如评价模型不大聪明,把 “ 画面不够精致 ” 当成主要问题,DeepSeek 就可能一轮轮加柔光,加细节,加色彩,最后反而人物失真,人类没有任何插手纠错的机会。

红线左侧为 loop 前样片,右侧为 loop 20 轮后样片


最后,并不是所有类型的项目都适合 loop engineering。

举个最简单的例子,如果在上面的实验中,我们每次生成一张图片要耗时半小时,用 loop 来迭代拼运气,很显然是不划算的。

所以一般来说,loop engineering 只适合那些,测试目标明确,迭代验证迅速,错误代价低,上下文不太复杂的任务,非常局限。

但你要说,这么多大佬都在吹的 loop engineering,难道就没有什么优点吗?

我只能说,按下启动键的那一刻真的很爽。


带着一种盲目的信任,把所有压力抛给 AI,不用盯着干活,不用动脑子,坐等结果和报告,这绝对是每一个开发者的梦想。

但这玩意儿实在太不可控,如果你有无限 token,无限算力,可以同时开一堆炉子赛博炼丹,那也许有机会短时间炼出一个好结果。

可对于普通人来说,世超建议,还是不要轻易踏进这个 token 的火葬场了。

对了,如果你是AI、互联网行业的从业者,希望能和业内差友一起讨论新鲜的内部行业资讯、聊聊热乎的行业八卦、找靠谱的内推丢丢简历,或者是分享有价值的合作需求,那就识别下方的二维码来申请加入我们的行业群吧~

这里头都是有意思的业内差友,没事来一起摸摸鱼也是极好的!(狗头

撰文:莫莫莫甜甜

编辑:江江 & 面线

美编:焕妍

图片、资料来源:

https://addyosmani.com/blog/loop-engineering/

https://learnprompting.org/docs/image_prompting/fix_deformed_generations?srsltid=AfmBOooFXWJ64UP3M67iHWe6cwOpuclQoV6JVZ1pNAHJbqUSLr66oTcA

小红书、莫莫实测