亚洲财经

搜索

科普:AI安全到底在干些啥

科普:AI安全到底在干些啥

我们经常听到的AI安全方面的新闻,总是感觉到AI安全比我们想象的更难控制。那么AI安全说到底在干些什么?为什么那么复杂和难于控制?
今天我们谈谈AI安全核心要做的几个事:

第一是对齐与可控性(Alignment & Controllability)


简单说就是“AI是否真的按照人类意图行动”,而不是“表面听话但目标跑偏”。

当前大模型主要工作是在预测“人类可能说什么”,而不是“人类真正想要什么”
所以对齐问题不是“加规则”,而是解决:
* 目标函数不完整(underspecification)
* 奖励模型被投机(reward hacking)
* 分布外行为不可控

主流技术路线主要是:

* RLHF / RLAIF(人类/AI反馈强化学习)
* Constitutional AI(宪法式约束)
* Direct Preference Optimization(DPO)
* Scalable Oversight(用更强模型监督弱模型)

第二是对抗鲁棒性与模型安全
(Robustness & Adversarial Security)

简单说就是“AI被攻击或诱导,是否容易出错”

主要攻击面

* Prompt Injection(提示注入)
* Jailbreak(越狱)
* 多轮对话渐进诱导
* 工具调用污染(agent攻击)
* RAG数据源注入攻击

主要防护手段

* 输入过滤 + 分类器(但很容易被绕过)
* system prompt隔离(但仍可被语义污染)
* 对抗训练(adversarial training)
* red teaming自动化
* sandbox执行环境(尤其是agent)

第三是数据与训练供应链安全(Data / Model Supply Chain Security)


简单说就是“模型源头是否被污染或后门控制”

主要攻击方式

* 训练数据投毒(data poisoning)
* 后门触发(backdoor triggers)
* 微调模型植入隐性行为
* 开源权重篡改
* embedding / RAG知识库污染

主要防御手段:

* 数据溯源(data provenance tracking)
* influence functions / 数据贡献分析
* 模型行为异常检测(trigger scanning)
* 权重签名 / checksum
* federated / secure training

难点

* 规模太大(TB级数据无法完全审计)
* 后门可以非常隐蔽(rare trigger)
* 开源生态增加攻击面

第四是滥用风险控制(Misuse Prevention & Dual-use Risk)


一句话概括“模型能力是否被用于网络攻击、诈骗、生物研究等危险方向”

主要被泛用方向

* 自动生成攻击脚本
* 诈骗与社会工程
* 生物/化学风险知识辅助
* 黑产自动化、规模化(spam / phishing / malware)

技术手段

* 能力分级释放(capability gating)
* classifier + policy model 双层过滤
* tool-use权限系统(agent sandbox)
* sensitive capability detection(能力探测)
* usage anomaly detection(行为风控)

第五是可解释性与可审计性(Interpretability & Auditing)


简单说就是“是否可以追踪大模型的决策路径”
主要解决:机制可解释性、行为追踪、模型日志、合规评估等

可解释性技术手段

* 机制可解释性(mechanistic interpretability)
* attention head分析
* feature neuron tracing
* circuit discovery
* probing methods(线性探针)
* activation steering(激活操控)
* attribution / saliency mapping

可审计性技术手段

* 行为日志(agent trace)
* 决策路径重建
* 黑盒 auditing
* safety evaluation benchmarks

资讯来源:微信公众号