科普：AI安全到底在干些啥

我们经常听到的AI安全方面的新闻，总是感觉到AI安全比我们想象的更难控制。那么AI安全说到底在干些什么？为什么那么复杂和难于控制？
今天我们谈谈AI安全核心要做的几个事：

第一是对齐与可控性（Alignment & Controllability）

简单说就是“AI是否真的按照人类意图行动”，而不是“表面听话但目标跑偏”。

当前大模型主要工作是在预测“人类可能说什么”，而不是“人类真正想要什么”
所以对齐问题不是“加规则”，而是解决：
* 目标函数不完整（underspecification）
* 奖励模型被投机（reward hacking）
* 分布外行为不可控

主流技术路线主要是：

* RLHF / RLAIF（人类/AI反馈强化学习）
* Constitutional AI（宪法式约束）
* Direct Preference Optimization（DPO）
* Scalable Oversight（用更强模型监督弱模型）

第二是对抗鲁棒性与模型安全
（Robustness & Adversarial Security）

简单说就是“AI被攻击或诱导，是否容易出错”

主要攻击面

* Prompt Injection（提示注入）
* Jailbreak（越狱）
* 多轮对话渐进诱导
* 工具调用污染（agent攻击）
* RAG数据源注入攻击

主要防护手段

* 输入过滤 + 分类器（但很容易被绕过）
* system prompt隔离（但仍可被语义污染）
* 对抗训练（adversarial training）
* red teaming自动化
* sandbox执行环境（尤其是agent）

第三是数据与训练供应链安全（Data / Model Supply Chain Security）

简单说就是“模型源头是否被污染或后门控制”

主要攻击方式

* 训练数据投毒（data poisoning）
* 后门触发（backdoor triggers）
* 微调模型植入隐性行为
* 开源权重篡改
* embedding / RAG知识库污染

主要防御手段：

* 数据溯源（data provenance tracking）
* influence functions / 数据贡献分析
* 模型行为异常检测（trigger scanning）
* 权重签名 / checksum
* federated / secure training

难点

* 规模太大（TB级数据无法完全审计）
* 后门可以非常隐蔽（rare trigger）
* 开源生态增加攻击面

第四是滥用风险控制（Misuse Prevention & Dual-use Risk）

一句话概括“模型能力是否被用于网络攻击、诈骗、生物研究等危险方向”

主要被泛用方向

* 自动生成攻击脚本
* 诈骗与社会工程
* 生物/化学风险知识辅助
* 黑产自动化、规模化（spam / phishing / malware）

技术手段

* 能力分级释放（capability gating）
* classifier + policy model 双层过滤
* tool-use权限系统（agent sandbox）
* sensitive capability detection（能力探测）
* usage anomaly detection（行为风控）

第五是可解释性与可审计性（Interpretability & Auditing）

简单说就是“是否可以追踪大模型的决策路径”
主要解决：机制可解释性、行为追踪、模型日志、合规评估等

可解释性技术手段

* 机制可解释性（mechanistic interpretability）
* attention head分析
* feature neuron tracing
* circuit discovery
* probing methods（线性探针）
* activation steering（激活操控）
* attribution / saliency mapping

可审计性技术手段

* 行为日志（agent trace）
* 决策路径重建
* 黑盒 auditing
* safety evaluation benchmarks

资讯来源：微信公众号

标签：综合产业资讯

亚洲财经

科普：AI安全到底在干些啥

第一是对齐与可控性（Alignment & Controllability）

第二是对抗鲁棒性与模型安全
（Robustness & Adversarial Security）

第三是数据与训练供应链安全（Data / Model Supply Chain Security）

第四是滥用风险控制（Misuse Prevention & Dual-use Risk）

第五是可解释性与可审计性（Interpretability & Auditing）

编辑推荐

亚洲财经

科普：AI安全到底在干些啥

第一是对齐与可控性（Alignment & Controllability）

第二是对抗鲁棒性与模型安全（Robustness & Adversarial Security）

第三是数据与训练供应链安全（Data / Model Supply Chain Security）

第四是滥用风险控制（Misuse Prevention & Dual-use Risk）

第五是可解释性与可审计性（Interpretability & Auditing）

相关文章

编辑推荐

第二是对抗鲁棒性与模型安全
（Robustness & Adversarial Security）