好资源和短想法
UCLA 2025年春季推出了一套关于大型语言模型强化学习(RL for LLM)的精彩课程,内容涵盖基础理论、测试时计算优化、基于人类反馈的强化学习(RLHF),以及可验证奖励的强化学习(RLVR)等前沿主题。

这套课程不仅系统介绍了RL在LLM中的应用,还讨论了如何提升模型性能和可靠性,适合对RL与大模型结合感兴趣的研究者和工程师深入学习。

课程配套的YouTube播放列表和官方网站资源丰富,便于自学和实践。
开发者想快速把文档网站、GitHub仓库和PDF资料一键转换成Claude AI skills?Skill Seeker帮你实现自动化处理,无需手动整理各类文档。

它支持多源抓取(网页、仓库、PDF),用深度AST解析代码,自动检测文档和代码间的冲突,智能分类内容,并结合AI提炼关键示例和知识点,最后打包成Claude可用的skill文件。

核心功能包括:

- 支持任意文档网站的自动抓取与解析
- PDF文字提取、表格解析,支持扫描件OCR和加密PDF
- GitHub深度代码分析,提取API、Issue、版本历史
- 自动检测文档与代码实现的差异,生成冲突报告
- 多源合并,构建统一的skill知识库
- AI增强生成高质量教学参考和示例
- 并行异步处理,提升大规模文档抓取效率

支持Python环境下命令行操作,也能结合Claude Code MCP服务实现自然语言交互式管理,极大提升开发效率和文档维护质量。
Roam Research 丨上下文工程(Context Engineering)的思维飞行实践
https://mp.weixin.qq.com/s/F1dZGAAAwMakj3bTfk2rcA?scene=1

Andrej Karpathy 最近解释了他对上下文工程(Context Engineering)的看法。他认为在工业级大模型应用场景中,「上下文工程」是指一种更精妙而复杂的技术,需要精准地将上下文窗口填充上恰当好处的信息,让模型能够准确地迈出下一步。这是一门科学,也是门技术。

Roam Research 仍然是近几年最伟大的思维工具,现在用得越来越爽。最近我梳理其基础功能时发现,它仍然极致简洁和扎实,没有进行更多功能扩张,只是不断地优化基础。它不像工具,而像编程语言,它由更灵活的小众编程语言 Clojure 创建。它继承 Memex 的关联索引,参考 Project Xanadu 文本映射,基于 Zettelkasten 组织理念,创造出了「非线性时间机器」。Roam Research 的大纲/ 双链/ 引用和嵌入功能统合起来,震颤出独一档的记录和写作体验。这是我最近几年将其作为主力使用的原因,这种亲文本设计是所有文本优化的基础,实现了「上下文工程」的文本实践。

...

写作将变得愈加疯狂...

很多图示,详细内容请大家直接看这篇公众号吧,顺便点个关注,感谢!

#tft #Manuals
https://arxiv.org/abs/2305.18290 #llm #ai

今天深入学习了 DPO,再次感叹扎实的数学功底对 AI/ML Research 的重要性……

原始的 RLHF 是用 pairwise human preference data(A 和 B 哪个更好)去训练一个 reward model,然后用 RL 来训练主 model,objective 是 maximize reward / minimize negative log likelihood 加上 regularization。比如 PPO 就是通过新旧 policy 之间的 KL Divergence 来做 regularization。而且还需要一个 critic model 来预测 reward。这套流程涉及多个模型,而 RL 又是出了名的难搞。

DPO 的思路是,观察到 RLHF 的 objective 本质上是 minimize loss over (latent) reward function,通过一番 reparameterization 等数学推导,重新设计了一个 minimize loss over policy 的 objective,直接绕过了中间这个 reward model,让 gradient update 直接增加 winner response 的概率并降低 loser response 的概率,大幅简化了流程。

拓展阅读:
- KTO: 更进一步,不需要 pairwise comparison,只用对 individual example 的 upvote/downvote 也可以学习到 preference。
- IPO: 解决 DPO 容易 overfit 的问题。
https://100r.co/site/about_us.html

> Hundred Rabbits is a small artist collective. Together, we explore the planned failability of modern technology at the bounds of the hyper-connected world. We research and test low-tech solutions and document our findings with the hope of building a more resilient future.

> We live and work aboard a ship called Pino. Sailing around the Pacific Ocean made us realize how fragile the modern computing stack was. Living in remote uninhabited parts of the world has offered us a playground to learn how technology degrades beyond the shores of the western world.
https://maxsiedentopf.com/ 的一个作品今天上了 HN 首页;其实他的整个 portfolio 都很有创造力
前段时间准备 ML Interview (with a focus on LLMs),浏览了不少学习资源,这里分享一些:

CMU 11-711 Advanced NLP

Language Modeling 综述。

The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture

比较好的一篇 Transformer 综述。

3Blue1Brown: Attention in transformers, step-by-step

解释 Attention 最好的视频,没有之一。

Hugging Face: Mixture of Experts Explained

Hugging Face: RLHF

Hugging Face: Introduction to Deep Reinforcement Learning

Hugging Face: Multimodal Models

HF 这几个资源很适合快速查漏补缺相关的话题。

Lilian Weng: Agents

依然是最好的 Agents 综述之一。

Understanding Reasoning LLMs

一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。

Designing Machine Learning Systems 笔记 by @tms_ur_way

适合快速查漏补缺 ML 实践中的要点。

Stable Diffusion Explained From Scratch

关于 Diffusion 基本原理的解释。



除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。

- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客

这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
前段时间准备 ML Interview (with a focus on LLMs),浏览了不少学习资源,这里分享一些:

CMU 11-711 Advanced NLP

Language Modeling 综述。

The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture

比较好的一篇 Transformer 综述。

3Blue1Brown: Attention in transformers, step-by-step

解释 Attention 最好的视频,没有之一。

Hugging Face: Mixture of Experts Explained

Hugging Face: RLHF

Hugging Face: Introduction to Deep Reinforcement Learning

Hugging Face: Multimodal Models

HF 这几个资源很适合快速查漏补缺相关的话题。

Lilian Weng: Agents

依然是最好的 Agents 综述之一。

Understanding Reasoning LLMs

一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。

Designing Machine Learning Systems 笔记 by @tms_ur_way

适合快速查漏补缺 ML 实践中的要点。

Stable Diffusion Explained From Scratch

关于 Diffusion 基本原理的解释。



除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。

- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客

这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
近期读到的最喜欢的一篇文章,来自Platform Thinking的推荐。

步入中年之后,男性心理状态会经历剧烈的变化,从二十多岁认为一切皆有可能的状态切换为要接受不完美,越来越现实的状态。这个阶段非常痛苦,且很容易感觉到虚无。

女性当然也会在这个年龄面临新的挑战,并非只有男性如此。
#随便看看

The Age 30 Crisis and Seasons of a Man's Life Platform Thinking 邮件周刊
#存储引擎
非常好的存储引擎文档,总共176页幻灯片:《Bedtime Stories For Children: Storage Engines》,可惜的是没有完全写完。
#方法论
写技术博客时,我很喜欢画图来表达原理。也因为自己画的图多了,有了一层感悟:但凡能把技术原理通过画图清晰表达出来的,一般文章内容也不会太差。这是因为,画图不同于文字和简单的贴代码,是经过作者理解了原理再翻译成图形语言的。

按照这个推论,得到一个搜索优质技术文章的技巧:使用Google搜索技术文章时,以前是根据关键字搜索相信搜索引擎的排名,现在可以试一下切换到Google搜索中“图片”那一栏看看。图片这一栏可以在不用点击文章的情况下马上看到文章中的一些缩略图,根据画的缩略图能大体判断文章的质量。
#算法
这哥们在力扣刷了3500+道题,太猛了,讲解解题思路也很清晰。

力扣:灵茶山艾府
B站:《合集·基础算法精讲 高频面试题》
#分布式
之前说DDIA缺少很多技术原理的讲解,我春节期间看分布式事务这部分,DDIA第七章也是点了一下Serializable Snapshot Isolation(简称SSI),但是同样的也是没有给出技术原理的讲解。

就像一个清晰度不够高的图片,初看是感觉什么都有了,想放大了看细节,对不起没有。

初看觉得DDIA是神书,现在也慢慢祛魅了。

(附图是DDIA书中对Paxos等共识算法的一笔带过。一本讲分布式的书,如果不讲共识算法,那有40%以上的东西没讲到)