好资源和短想法
Roam Research 丨上下文工程(Context Engineering)的思维飞行实践
https://mp.weixin.qq.com/s/F1dZGAAAwMakj3bTfk2rcA?scene=1
Andrej Karpathy 最近解释了他对上下文工程(Context Engineering)的看法。他认为在工业级大模型应用场景中,「上下文工程」是指一种更精妙而复杂的技术,需要精准地将上下文窗口填充上恰当好处的信息,让模型能够准确地迈出下一步。这是一门科学,也是门技术。
Roam Research 仍然是近几年最伟大的思维工具,现在用得越来越爽。最近我梳理其基础功能时发现,它仍然极致简洁和扎实,没有进行更多功能扩张,只是不断地优化基础。它不像工具,而像编程语言,它由更灵活的小众编程语言 Clojure 创建。它继承 Memex 的关联索引,参考 Project Xanadu 文本映射,基于 Zettelkasten 组织理念,创造出了「非线性时间机器」。Roam Research 的大纲/ 双链/ 引用和嵌入功能统合起来,震颤出独一档的记录和写作体验。这是我最近几年将其作为主力使用的原因,这种亲文本设计是所有文本优化的基础,实现了「上下文工程」的文本实践。
...
写作将变得愈加疯狂...
很多图示,详细内容请大家直接看这篇公众号吧,顺便点个关注,感谢!
#tft #Manuals
https://mp.weixin.qq.com/s/F1dZGAAAwMakj3bTfk2rcA?scene=1
Andrej Karpathy 最近解释了他对上下文工程(Context Engineering)的看法。他认为在工业级大模型应用场景中,「上下文工程」是指一种更精妙而复杂的技术,需要精准地将上下文窗口填充上恰当好处的信息,让模型能够准确地迈出下一步。这是一门科学,也是门技术。
Roam Research 仍然是近几年最伟大的思维工具,现在用得越来越爽。最近我梳理其基础功能时发现,它仍然极致简洁和扎实,没有进行更多功能扩张,只是不断地优化基础。它不像工具,而像编程语言,它由更灵活的小众编程语言 Clojure 创建。它继承 Memex 的关联索引,参考 Project Xanadu 文本映射,基于 Zettelkasten 组织理念,创造出了「非线性时间机器」。Roam Research 的大纲/ 双链/ 引用和嵌入功能统合起来,震颤出独一档的记录和写作体验。这是我最近几年将其作为主力使用的原因,这种亲文本设计是所有文本优化的基础,实现了「上下文工程」的文本实践。
...
写作将变得愈加疯狂...
很多图示,详细内容请大家直接看这篇公众号吧,顺便点个关注,感谢!
#tft #Manuals
https://arxiv.org/abs/2305.18290 #llm #ai
今天深入学习了 DPO,再次感叹扎实的数学功底对 AI/ML Research 的重要性……
原始的 RLHF 是用 pairwise human preference data(A 和 B 哪个更好)去训练一个 reward model,然后用 RL 来训练主 model,objective 是 maximize reward / minimize negative log likelihood 加上 regularization。比如 PPO 就是通过新旧 policy 之间的 KL Divergence 来做 regularization。而且还需要一个 critic model 来预测 reward。这套流程涉及多个模型,而 RL 又是出了名的难搞。
DPO 的思路是,观察到 RLHF 的 objective 本质上是 minimize loss over (latent) reward function,通过一番 reparameterization 等数学推导,重新设计了一个 minimize loss over policy 的 objective,直接绕过了中间这个 reward model,让 gradient update 直接增加 winner response 的概率并降低 loser response 的概率,大幅简化了流程。
拓展阅读:
- KTO: 更进一步,不需要 pairwise comparison,只用对 individual example 的 upvote/downvote 也可以学习到 preference。
- IPO: 解决 DPO 容易 overfit 的问题。
今天深入学习了 DPO,再次感叹扎实的数学功底对 AI/ML Research 的重要性……
原始的 RLHF 是用 pairwise human preference data(A 和 B 哪个更好)去训练一个 reward model,然后用 RL 来训练主 model,objective 是 maximize reward / minimize negative log likelihood 加上 regularization。比如 PPO 就是通过新旧 policy 之间的 KL Divergence 来做 regularization。而且还需要一个 critic model 来预测 reward。这套流程涉及多个模型,而 RL 又是出了名的难搞。
DPO 的思路是,观察到 RLHF 的 objective 本质上是 minimize loss over (latent) reward function,通过一番 reparameterization 等数学推导,重新设计了一个 minimize loss over policy 的 objective,直接绕过了中间这个 reward model,让 gradient update 直接增加 winner response 的概率并降低 loser response 的概率,大幅简化了流程。
拓展阅读:
- KTO: 更进一步,不需要 pairwise comparison,只用对 individual example 的 upvote/downvote 也可以学习到 preference。
- IPO: 解决 DPO 容易 overfit 的问题。
https://100r.co/site/about_us.html
> Hundred Rabbits is a small artist collective. Together, we explore the planned failability of modern technology at the bounds of the hyper-connected world. We research and test low-tech solutions and document our findings with the hope of building a more resilient future.
> We live and work aboard a ship called Pino. Sailing around the Pacific Ocean made us realize how fragile the modern computing stack was. Living in remote uninhabited parts of the world has offered us a playground to learn how technology degrades beyond the shores of the western world.
> Hundred Rabbits is a small artist collective. Together, we explore the planned failability of modern technology at the bounds of the hyper-connected world. We research and test low-tech solutions and document our findings with the hope of building a more resilient future.
> We live and work aboard a ship called Pino. Sailing around the Pacific Ocean made us realize how fragile the modern computing stack was. Living in remote uninhabited parts of the world has offered us a playground to learn how technology degrades beyond the shores of the western world.
https://maxsiedentopf.com/ 的一个作品今天上了 HN 首页;其实他的整个 portfolio 都很有创造力
https://jax-ml.github.io/scaling-book/
非常值得学习的分享,作者列表里好几个 Gemini 核心团队的人😃 Sholto、Jacob、Sharad 等人都是超一流的 research engineer 🙏
#llm
非常值得学习的分享,作者列表里好几个 Gemini 核心团队的人😃 Sholto、Jacob、Sharad 等人都是超一流的 research engineer 🙏
#llm
前段时间准备 ML Interview (with a focus on LLMs),浏览了不少学习资源,这里分享一些:
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
用两天在路上开车的时间听完了 Latent Space 这期跟传奇 Bret Taylor 一个半小时的访谈,收获颇多! #podcast #ai
https://www.latent.space/p/bret
https://www.latent.space/p/bret
前段时间准备 ML Interview (with a focus on LLMs),浏览了不少学习资源,这里分享一些:
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
近期读到的最喜欢的一篇文章,来自Platform Thinking的推荐。
步入中年之后,男性心理状态会经历剧烈的变化,从二十多岁认为一切皆有可能的状态切换为要接受不完美,越来越现实的状态。这个阶段非常痛苦,且很容易感觉到虚无。
女性当然也会在这个年龄面临新的挑战,并非只有男性如此。
#随便看看
The Age 30 Crisis and Seasons of a Man's Life
步入中年之后,男性心理状态会经历剧烈的变化,从二十多岁认为一切皆有可能的状态切换为要接受不完美,越来越现实的状态。这个阶段非常痛苦,且很容易感觉到虚无。
女性当然也会在这个年龄面临新的挑战,并非只有男性如此。
#随便看看
The Age 30 Crisis and Seasons of a Man's Life
#方法论
写技术博客时,我很喜欢画图来表达原理。也因为自己画的图多了,有了一层感悟:但凡能把技术原理通过画图清晰表达出来的,一般文章内容也不会太差。这是因为,画图不同于文字和简单的贴代码,是经过作者理解了原理再翻译成图形语言的。
按照这个推论,得到一个搜索优质技术文章的技巧:使用Google搜索技术文章时,以前是根据关键字搜索相信搜索引擎的排名,现在可以试一下切换到Google搜索中“图片”那一栏看看。图片这一栏可以在不用点击文章的情况下马上看到文章中的一些缩略图,根据画的缩略图能大体判断文章的质量。
写技术博客时,我很喜欢画图来表达原理。也因为自己画的图多了,有了一层感悟:但凡能把技术原理通过画图清晰表达出来的,一般文章内容也不会太差。这是因为,画图不同于文字和简单的贴代码,是经过作者理解了原理再翻译成图形语言的。
按照这个推论,得到一个搜索优质技术文章的技巧:使用Google搜索技术文章时,以前是根据关键字搜索相信搜索引擎的排名,现在可以试一下切换到Google搜索中“图片”那一栏看看。图片这一栏可以在不用点击文章的情况下马上看到文章中的一些缩略图,根据画的缩略图能大体判断文章的质量。