战略
如何在签约前评估开发机构的人工智能工作流程
90% 的开发团队现在使用 AI 编码工具(GitHub 2025 调查)。 AI 辅助工程师交付样板文件的速度提高了 30-50%。 AI 生成的拉取请求还包含错误比人类编写的代码多 1.7 倍(GitClear 2025)。 问题不在于你的机构是否使用人工智能。 问题是如何。
2026 年,你接触到的每个机构都会提到人工智能。 他们会告诉你这会让他们更快、更便宜、更好。 其中一些是对的。 其他人则在没有审查流程、没有安全扫描、也没有高级监督的情况下发布人工智能生成的代码。 你无法从销售平台上看出区别。
您可以从十个具体问题中看出区别。
为什么在您签署之前机构的人工智能工作流程很重要
使用人工智能且无需审核流程的机构一开始发货速度更快。 然后返工开始。 AI 工具会产生不存在的 API 调用的幻觉。 他们生成的代码可以通过基本测试,但在现实条件下会失败。 他们从训练数据中重现安全漏洞。 如果高级工程师没有发现这些模式,你就需要支付两次费用:一次用于初始构建,另一次用于修复人工智能出错的地方。
拒绝人工智能的机构将速度放在桌面上。 搭建 CRUD 接口、生成样板、编写标准表单验证; 这些是人工智能每周可以节省时间的任务。 一家坚持手写每一行的机构正在将您的预算花在工具在几分钟内处理的工作上。
您需要中间立场:具有高级审查门的人工智能加速。 下面的十个问题可以帮助您确定哪些机构已经发现了它,哪些机构正在猜测。
向任何机构询问其人工智能工作流程的 10 个问题
1. 您的团队使用哪些人工智能工具,用于哪些任务?
这个问题将拥有真正人工智能工作流程的机构与那些在宣传材料中使用流行语的机构区分开来。 具有结构化流程的机构将为特定任务指定特定工具:用于搭建新组件的 Cursor、用于重构遗留功能的 Claude Code、用于结对编程期间自动完成建议的 GitHub Copilot。
绿旗:特定工具到任务的映射。 “我们使用 Cursor 来生成 React 组件,并使用 Claude Code 来分解大型函数。”红旗:模糊的答案,例如“我们将人工智能用于一切”或无法命名他们的工具。 两者都表明该团队尚未定义人工智能使用的界限。
2. 人工智能生成的代码与人工编写的代码的百分比是多少?
这个问题揭示了该机构对人工智能输出的依赖程度。 健康的比例介于20-40% 人工智能生成的代码,每一行都经过人工审核。 这个范围意味着团队使用人工智能来执行重复性任务,而工程师拥有架构、业务逻辑和边缘情况处理。
绿旗:结合上下文的具体百分比。 “我们大约 30% 的代码以 AI 输出开始,集中于 CRUD 操作和表单验证。工程师在审查期间重写了其中 10-15%。”红旗:“我们的大部分代码都是人工智能生成的”或“我们不跟踪它”。 第一个意味着他们将工程判断外包给语言模型。 第二个意味着他们根本没有流程。
3. AI 生成的代码在发布前由谁进行审查?
代码审查是任何人工智能增强工作流程中最重要的质量关卡。 每个拉取请求,无论是人类编写的还是人工智能生成的,都应该经过相同的审查流程。 审阅者需要足够的经验来发现通过测试但在生产中出现故障的细微错误。
绿旗:高级工程师审核每一个 PR。 该机构将人工智能输出视为与初级开发人员输出相同; 它需要了解系统的人签字。红旗:没有审查流程,也没有初级开发人员审查人工智能生成的代码。 初级工程师通常缺乏上下文来识别人工智能工具自信地生成的幻觉 API 调用或已弃用的模式。
4.如何处理代码中的AI幻觉?
AI 工具生成看似合理的代码,这些代码调用不存在的 API、引用已弃用的方法或发明配置选项。 这些幻觉会编译并且有时会通过基本测试。 当不存在的 API 返回 404 或已弃用的方法在下一个框架更新中被删除时,它们就会在生产中中断。
绿旗:该机构为您提供了他们所发现的幻觉的具体例子。 “上个月,Copilot 建议了一种在 v2023-08 中删除的 Stripe API 方法。我们的审阅者发现了它,因为类型签名与我们的 SDK 版本不匹配。”红旗:“我们的工具不会发生这种情况。” 每个人工智能编码工具都会发生这种情况。 一个声称并非如此的机构没有足够仔细地调查。
5. 你们对人工智能生成的代码的安全扫描流程是怎样的?
人工智能工具从训练数据中重现易受攻击的模式。 斯坦福大学 2024 年的一项研究发现,使用 AI 编码助手的开发人员产生了存在 2.74 倍安全漏洞的代码与没有人工智能的开发人员相比。 人工智能不会标记自己的易受攻击的输出。 您需要在 CI 管道中进行自动扫描,以发现人工审核遗漏的内容。
绿旗:每次提交时运行自动化 SAST(静态应用程序安全测试)和 DAST(动态应用程序安全测试)工具。 Snyk、Semgrep 或 SonarQube 等工具集成到 CI 管道中,因此易受攻击的代码在未经安全审查的情况下无法合并。红旗:“我们依靠人工审查”或“我们相信人工智能能够编写安全的代码”。 仅手动审查会错过自动扫描仪在几秒钟内捕获的注入模式和不安全的反序列化。
6. 你能给我看一份最近的带有人工智能辅助代码的 PR 吗?
这就是透明度测试。 拥有成熟人工智能工作流程的机构将引导您完成真正的拉取请求。 他们会向您展示人工智能生成的内容、审阅者更改的内容以及原因。 他们会指出工程师标记了幻觉依赖性或重写了人工智能过于复杂的功能的评论。
绿旗:愿意分享。 该机构打开 PR,显示差异,并解释他们的审查意见。 这需要五分钟,比任何幻灯片都更能告诉您他们的流程。红旗:“我们的流程是专有的”或断然拒绝。 如果他们无法向您展示一个示例,那么他们要么没有值得展示的流程,要么隐藏了人工智能辅助输出的质量。
7. 人工智能如何影响您的项目时间表和定价?
人工智能工具可以节省特定任务的时间。 搭建数据模型、生成测试样板、创建标准 API 端点。 这些节省是真实且可衡量的:重复代码的速度提高了 30-50%。 优秀的代理机构可以在相同的预算内通过降低成本或扩大范围来为您节省一些费用。
绿旗:与特定任务相关的特定主张。 “人工智能在 CRUD 脚手架上的每个冲刺为我们节省了 8-12 个小时。这让我们可以将管理仪表板纳入您的初始范围,而不是将其推到第二阶段。”红旗:“人工智能让一切变得更快”,没有任务级别的细节。 这通常意味着该机构尚未衡量其人工智能影响,并将该声明用作营销手段。
8. 哪些任务你不使用人工智能?
这个问题比问他们使用人工智能做什么更能说明问题。 经验丰富的团队知道人工智能在哪里会产生风险。 架构决策需要了解整个系统的权衡。 安全关键代码需要了解威胁模型的人员。 如果人工智能生成不正确的回滚脚本,数据库迁移可能会破坏生产数据。 商业逻辑编码你的竞争优势; 将其交给经过公共代码训练的模型是一个糟糕的选择。
绿旗:一份明确的无人工智能区域列表。 “我们不会将人工智能用于架构决策、数据库迁移、身份验证流程、支付处理逻辑或任何涉及 PII 的内容。”红旗:“我们将人工智能用于一切。” 一家将人工智能应用于每项任务的机构并没有考虑人工智能在哪些方面创造的风险大于价值。
9. 您如何利用人工智能工具处理知识产权?
一些人工智能编码工具会将您的代码发送到第三方服务器进行处理。 GitHub Copilot Business 会保留用于模型改进的代码片段,除非您的组织选择退出。 Claude Code 将代码上下文发送到 Anthropic 的 API。 Cursor 通过他们的服务器路由代码。 如果您的项目涉及专有算法、商业秘密或受监管数据,您需要知道代码的去向。
绿旗:该机构有书面的数据政策。 他们知道哪些工具向外部发送数据,他们在可能的情况下选择不收集训练数据,并且避免将专有业务逻辑发送到公共模型。红旗:没有政策。 如果该机构在将代码粘贴到人工智能工具中时没有考虑到您的代码最终会出现在哪里,那么他们就会在未经您同意的情况下暴露您的 IP。
10. 当人工智能工具在我的项目中产生错误的输出时会发生什么?
AI会产生不正确的输出。 这是确定性的,而不是风险。 问题是谁支付修复费用。 如果该机构使用人工智能来加快工作速度,那么人工智能错误的成本就属于该机构。 您雇用他们是为了提供工作软件,而不是让您付费调试他们的工具。
绿旗:该机构承担了人工智能错误造成的返工成本。 他们的固定报价说明了人工智能输出需要修正的现实。 您的发票不包含“调试 AI 生成的代码”的行项目。红旗:调试 AI 输出的计费时间。 如果你按小时付费聘请工程师来修复人工智能出现的问题,那么你就是在补贴一种有利于机构效率的工具,同时增加了你的成本。
红旗与绿旗一览
| 绿旗 | 红旗 |
|---|---|
| 为特定任务命名特定的人工智能工具 | 模糊的声称:“我们将人工智能用于一切” |
| 20-40% 人工智能生成的代码带有跟踪指标 | “我们的大部分代码都是人工智能生成的”或没有跟踪 |
| 资深工程师审核每一个PR | 没有审查流程,或者初级人员审查人工智能输出 |
| 举例说明捕捉人工智能幻觉的例子 | “我们的工具不会发生这种情况” |
| CI 管道中的自动 SAST/DAST 扫描 | 仅人工审核,或“我们信任人工智能” |
| 使用 AI 代码引导您完成真正的 PR | 拒绝举例; “专有流程” |
| 人工智能节省与特定任务和时间表相关 | “人工智能让一切变得更快”,但没有具体细节 |
| 未使用人工智能的任务的清晰列表 | 安全或架构方面没有无 AI 的区域 |
| AI 工具的记录数据政策 | 没有关于代码去向的政策 |
| 机构承担人工智能返工成本 | 调试人工智能错误的计费时间 |
29%的信任差距
Stack Overflow 的 2025 年开发者调查发现只有 29% 的开发者信任未经审查的人工智能生成的代码。 剩下的 71% 将人工智能输出视为需要人工验证的初稿。 最优秀的机构也持有这种怀疑态度。
想想这对您的项目意味着什么。 如果 71% 的专业开发人员不信任未经审查的人工智能输出,那么未经审查流程就发布人工智能生成的代码的机构的运作就低于大多数个人开发人员所坚持的标准。 他们效率不高。 他们跳过了将工作软件与生产中损坏的代码分开的步骤。
值得雇用的机构将人工智能视为起草工具。 AI 编写了第一个版本。 高级工程师重写重要的部分,捕捉幻觉,修复安全漏洞,并进行架构调用,以确定您的软件在 10 倍流量的复杂性下是否会扩展或崩溃。
Savi 如何在客户项目中使用人工智能
每个 Savi 项目都配备了1-2名拥有全栈的高级工程师。 这些工程师使用 Cursor 和 Claude Code 进行脚手架、样板生成和机械重构。 人工智能输出的每一行都经过与人类编写的代码相同的 PR 审查流程。 如果人工智能生成了它,高级工程师会在它触及主要分支之前对其进行审查。
AI 处理 60% 的重复性工作:CRUD 端点、表单验证、数据模型支架、测试样板。 工程师负责处理架构、安全性、业务逻辑以及需要了解系统如何组合在一起的集成工作。 在ZestAMC 的5 门户金融平台,人工智能为投资者和子经纪商仪表板处理 CRUD 脚手架,而高级工程师则构建支付计算引擎和合规审计跟踪。 结果:资产管理规模超过 1000 万美元的平台在 30 天内发货,生产中安全事件为零。
您直接与您的工程师沟通。 没有项目经理层。 在电话游戏中,您的需求在有人编写代码之前会被翻译三遍。 该直线意味着您可以询问上述十个问题中的任何一个,并从工作人员那里得到答案。 要更深入地了解人工智能编码工具可以做什么和不能做什么,请阅读我们的细分2026 年人工智能编码助手。 如果您对团队完全跳过审核步骤时会发生什么感到好奇,我们的帖子vivi 编码的真正成本详细介绍了故障模式。
常见问题
我应该聘请使用人工智能编码工具的机构吗?
是的,如果他们有结构化的审查流程。 将人工智能工具与高级工程师配对的机构可以将样板文件的审核速度提高 30-50%,而不会增加错误率。 危险信号是那些在没有代码审查门的情况下使用人工智能的机构,或者无法解释人工智能处理哪些任务以及人类拥有哪些任务。
我如何知道机构的人工智能工作流程是否安全?
问三个问题:谁审查人工智能生成的代码? CI 管道中运行哪些安全扫描? 他们将您的代码发送到第三方 AI API 的政策是什么? 安全机构运行自动 SAST/DAST 扫描,让高级工程师审查每个拉取请求,并使用具有明确数据保留策略的 AI 工具。
人工智能生成的代码是否存在更多错误?
GitClear 的 2025 年分析发现,人工智能生成的拉取请求包含的错误比人类编写的代码多 1.7 倍。 主要原因是幻觉的 API、不推荐使用的方法调用以及缺少边缘情况处理。 高级代码审查会在这些问题进入生产之前发现它们。
人工智能会让我的软件项目更便宜吗?
AI 降低了 CRUD 脚手架、样板生成和标准 UI 组件等重复任务的成本。 对于典型项目,这些节省范围为 10-25%。 人工智能不会降低架构决策、安全设计、业务逻辑或集成工作的成本。 声称人工智能可将项目总成本降低 50% 或更多的机构在审查中却在偷工减料。
2026 年专业开发者会使用哪些 AI 编码工具?
最常见的工具是 GitHub Copilot(自动完成)、Cursor(AI 辅助编辑)和 Claude Code(重构和代码生成)。 专业团队将这些工具用于特定任务,例如脚手架和样板,而不是用于架构决策或安全关键代码。 90% 的开发团队表示至少使用一种 AI 编码工具(GitHub 2025 调查)。