AI 安全合规与治理

大模型落地不只是技术问题，还要过「合规与治理」这一关——数据合规、内容安全、监管要求、伦理责任。这是企业级 AI 项目的红线，也是越来越被问到的方向。技术性攻防见大模型安全，面试中如何把数据分类、外发、删除和取证落到系统设计，见 LLM 数据分级、外发治理与审计证据面试题；需要回答企业如何用资产台账、策略和审计账本统一治理时，见企业 AI 安全、合规与审计控制面系统设计面试题。

一、安全 vs 合规 vs 治理

安全（Security）：防越狱、防注入、防数据泄露等技术攻防（见大模型安全）。
合规（Compliance）：满足法律法规要求（数据保护、算法备案、内容审核）。
治理（Governance）：组织内部的制度、流程、责任划分，确保 AI 被负责任地使用。

本文聚焦后两者——企业落地大模型绕不开的「非技术红线」。

二、数据合规

数据是大模型的命脉，也是合规的高风险区：

隐私保护：训练/使用数据中的个人信息（PII）需脱敏、最小化收集、获得授权。涉及国际业务还要看 GDPR（欧盟）、个人信息保护法（PIPL）（中国）等。
数据来源合法：训练数据的版权与授权（爬取的网页、书籍、代码许可证）——这是当前大量诉讼的焦点。
数据本地化与跨境：某些数据不得出境，私有化部署常因此被需要。
数据隔离：多租户系统中严格隔离各租户数据（RAG 知识库尤其要做权限控制）。

三、内容安全与审核

生成式 AI 必须管控输出内容：

有害内容过滤：暴力、违法、歧视、色情、危险操作指引等。
输入输出双向审核：用规则 + 分类器 + 护栏模型（如 Llama Guard、各家 Moderation API）做二次审查。
价值观对齐：符合社会主流价值、避免偏见歧视（见 RLHF 的对齐）。
未成年人保护、深度伪造（Deepfake）防范：尤其语音克隆、换脸等高风险能力。

四、监管要求（中国视角）

国内大模型服务有明确监管框架，企业落地需了解：

算法备案 / 大模型备案：面向公众提供生成式 AI 服务需按《生成式人工智能服务管理暂行办法》等做备案。
内容标识：AI 生成内容需可识别/标注（防止误导）。
安全评估：上线前的安全评估与持续监测。

海外则有欧盟 AI Act（按风险分级监管）等。监管在快速演进，落地前务必查最新法规。

五、可信 AI 的其他维度

可解释性（Explainability）：能否说明模型为何这样输出（高风险场景如医疗、金融尤其重要）。
公平性（Fairness）：避免对特定群体的系统性偏见。
可追溯（Accountability）：出问题能追责，需日志审计、版本管理。
鲁棒性与可靠性：对抗攻击下的稳定、幻觉的控制。

六、企业落地的治理实践

分级管控：按场景风险分级（内部工具 vs 对外服务、辅助 vs 决策）施加不同管控。
Human-in-the-loop：高风险决策保留人工审核。
审计日志：记录 prompt、输出、调用，便于追溯与合规检查。
红队与持续监测：上线前红队测试，上线后监控滥用与异常（见大模型安全）。
责任划分：明确数据、模型、应用各环节的责任主体。

七、面试专项：RAG/Agent 合规评审清单

企业面试里问“这个 AI 系统怎么过合规”，不要只说脱敏和审核，要给出可检查的证据链。

审查项	RAG / Agent 要回答的问题	证据
数据分级	哪些数据可进知识库、可出现在 prompt、可发给外部模型	数据分类表、模型通道白名单
授权来源	文档、日志、用户数据是否有合法来源和使用授权	数据源 owner、授权记录、版权说明
权限隔离	tenant/user/role 是否贯穿检索、工具和缓存	ACL 测试集、trace、越权拦截日志
PII 处理	输入、检索结果、输出、日志是否脱敏	脱敏规则、抽检报告
数据出境	外部模型 API 是否接触敏感数据	路由策略、私有化通道、审批记录
保留期限	prompt、trace、memory、评估样本保存多久	retention policy、自动清理任务
删除链路	用户或文档删除后，向量、倒排、缓存、记忆是否同步删除	删除审计日志、回归测试
高危动作	Agent 写操作是否经过人审、幂等、可回滚	HITL 记录、业务单号、审计日志
安全评估	越狱、间接注入、数据泄露、误拒是否测试	红队报告、adversarial set 指标
责任归属	出问题谁负责、谁审批、谁回滚	RACI、发布审批单、事故预案

合规面试答法

我会把 RAG/Agent 合规拆成数据、模型、工具、日志四层。数据层做分类、授权、ACL 和删除；模型层按敏感度路由到外部 API 或私有化模型；工具层做最小权限、人审、幂等和审计；日志层做脱敏、保留期和可追溯。上线前用权限测试集、注入对抗集、PII 抽检和高危动作演练作为证据，而不是口头保证。

八、高频追问

Q：AI 安全和 AI 合规有什么区别？ 安全偏技术攻防（防越狱、注入、泄露）；合规偏法律法规（数据保护、内容审核、备案）；治理是组织层面的制度流程。落地大模型三者都要管，缺一不可。

Q：企业用大模型的主要合规风险？ 数据隐私（PII、GDPR/PIPL）、训练数据版权、数据跨境、内容安全（有害/违规输出）、监管备案、多租户数据隔离。其中数据合规和内容安全是最常见的红线。

Q：为什么很多企业要私有化部署大模型？ 数据合规与安全是主因——敏感数据不出内网、满足数据本地化要求、避免第三方 API 的数据泄露顾虑，同时获得可控性和长期成本优势。详见 AI 系统设计。

Q：AI 生成内容为什么要标识？ 防止 AI 内容被当作真实信息误导公众（假新闻、深度伪造），多国监管已要求对 AI 生成内容做可识别标注，是内容安全治理的一部分。

Q：怎么在产品里落地内容安全？ 输入输出双向审核（规则 + 分类器 + 护栏模型）、价值观对齐训练（RLHF）、高风险操作人工确认、滥用监控与红队测试、保留审计日志，多层防御并持续迭代。

Q：RAG 系统的数据合规要注意什么？ 多租户严格数据隔离与权限控制（用户只能检索到有权访问的文档）、知识库数据来源合法授权、敏感信息脱敏、检索/回答可溯源、防间接 Prompt 注入导致的数据泄露。

AI 安全合规与治理 ​

一、安全 vs 合规 vs 治理 ​

二、数据合规 ​

三、内容安全与审核 ​

四、监管要求（中国视角） ​

五、可信 AI 的其他维度 ​

六、企业落地的治理实践 ​

七、面试专项：RAG/Agent 合规评审清单 ​

合规面试答法 ​

八、高频追问 ​