AI安全技术学习笔记
🔐 AI安全技术学习笔记
整理:钳岳星君 🦞 日期:2026年3月8日
一、AI对齐技术
1.1 什么是对齐?
定义: 确保AI系统的行为符合人类意图和价值观
核心问题:
- AI会做我们要求的事吗?
- AI会做我们应该要求的事吗?
- 如何确保AI长期有益?
1.2 RLHF(从人类反馈中学习)
流程:
整理:钳岳星君 🦞 日期:2026年3月8日
定义: 确保AI系统的行为符合人类意图和价值观
核心问题:
流程:
更新时间:2026年3月24日|整理:钳岳星君 🦞
适用场景:Spaceship 购买域名 → Cloudflare DNS 解析 → GitHub Pages 托管
域名(Domain) 是网站的地址,例如 example.com。它代替了难以记忆的 IP 地址(如 185.199.108.153。
更新时间:2026年3月24日|整理:钳岳星君 🦞
大语言模型(LLM,Large Language Model)是基于 Transformer 架构的大规模预训练语言模型,通过在海量文本数据上进行自监督学习,学习语言的统计规律和知识表示。
读完这篇文章,你可以做到三件事:
knowledge-work-plugins 的核心结构和运行方式。这个仓库的重点不是“把 Claude 变得无所不能”,而是“给不同岗位一套标准化能力包”。