好资源和短想法
前段时间准备 ML Interview (with a focus on LLMs),浏览了不少学习资源,这里分享一些:
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
用两天在路上开车的时间听完了 Latent Space 这期跟传奇 Bret Taylor 一个半小时的访谈,收获颇多! #podcast #ai
https://www.latent.space/p/bret
https://www.latent.space/p/bret
前段时间准备 ML Interview (with a focus on LLMs),浏览了不少学习资源,这里分享一些:
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
CMU 11-711 Advanced NLP
Language Modeling 综述。
The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture
比较好的一篇 Transformer 综述。
3Blue1Brown: Attention in transformers, step-by-step
解释 Attention 最好的视频,没有之一。
Hugging Face: Mixture of Experts Explained
Hugging Face: RLHF
Hugging Face: Introduction to Deep Reinforcement Learning
Hugging Face: Multimodal Models
HF 这几个资源很适合快速查漏补缺相关的话题。
Lilian Weng: Agents
依然是最好的 Agents 综述之一。
Understanding Reasoning LLMs
一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。
Designing Machine Learning Systems 笔记 by @tms_ur_way
适合快速查漏补缺 ML 实践中的要点。
Stable Diffusion Explained From Scratch
关于 Diffusion 基本原理的解释。
除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。
- Andrej Karpathy 的 YouTube 视频
- Lilian Weng 的博客
- Chip Huyen 的博客
这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml #llm
近期读到的最喜欢的一篇文章,来自Platform Thinking的推荐。
步入中年之后,男性心理状态会经历剧烈的变化,从二十多岁认为一切皆有可能的状态切换为要接受不完美,越来越现实的状态。这个阶段非常痛苦,且很容易感觉到虚无。
女性当然也会在这个年龄面临新的挑战,并非只有男性如此。
#随便看看
The Age 30 Crisis and Seasons of a Man's Life
步入中年之后,男性心理状态会经历剧烈的变化,从二十多岁认为一切皆有可能的状态切换为要接受不完美,越来越现实的状态。这个阶段非常痛苦,且很容易感觉到虚无。
女性当然也会在这个年龄面临新的挑战,并非只有男性如此。
#随便看看
The Age 30 Crisis and Seasons of a Man's Life
#方法论
写技术博客时,我很喜欢画图来表达原理。也因为自己画的图多了,有了一层感悟:但凡能把技术原理通过画图清晰表达出来的,一般文章内容也不会太差。这是因为,画图不同于文字和简单的贴代码,是经过作者理解了原理再翻译成图形语言的。
按照这个推论,得到一个搜索优质技术文章的技巧:使用Google搜索技术文章时,以前是根据关键字搜索相信搜索引擎的排名,现在可以试一下切换到Google搜索中“图片”那一栏看看。图片这一栏可以在不用点击文章的情况下马上看到文章中的一些缩略图,根据画的缩略图能大体判断文章的质量。
写技术博客时,我很喜欢画图来表达原理。也因为自己画的图多了,有了一层感悟:但凡能把技术原理通过画图清晰表达出来的,一般文章内容也不会太差。这是因为,画图不同于文字和简单的贴代码,是经过作者理解了原理再翻译成图形语言的。
按照这个推论,得到一个搜索优质技术文章的技巧:使用Google搜索技术文章时,以前是根据关键字搜索相信搜索引擎的排名,现在可以试一下切换到Google搜索中“图片”那一栏看看。图片这一栏可以在不用点击文章的情况下马上看到文章中的一些缩略图,根据画的缩略图能大体判断文章的质量。
#分布式
从2025年开年后开始写一本分布式教程,到现在过去了20天(中间还花了小一周时间准备面试,最后还不合适),初步写好了两章,大家可以看看。由于只是初稿,错漏在所难免,就是给大家看看目前的完成度。两章内容里,自己手画了20多张图,按照我预估全部完成可能有8章的内容,所以最后可能要画200+张的图。我挺喜欢画图解释原理的,一图胜千言。
从2025年开年后开始写一本分布式教程,到现在过去了20天(中间还花了小一周时间准备面试,最后还不合适),初步写好了两章,大家可以看看。由于只是初稿,错漏在所难免,就是给大家看看目前的完成度。两章内容里,自己手画了20多张图,按照我预估全部完成可能有8章的内容,所以最后可能要画200+张的图。我挺喜欢画图解释原理的,一图胜千言。
即使我不是写作的人,我也会如此过我的人生吧,所以我对较 「身外物」的工匠技艺甚至文字戏耍部分始终兴趣缺缺至不着墨⋯,我通常花的时间是每分每秒不放过地与现实相处,逼视它、抵御它、肉搏、角力,我锻炼敢于对它有意见、有 「有品质有力量」的意见,我锻炼此中所必需的诚实、正直、英勇⋯
—— 朱天心
阅读原文
—— 朱天心
阅读原文
特别推荐的是 podcast 上的 Seminars About Long-term Thinking。这是 Stewart Brand 在 The Long Now Foundation 主持的一个研讨会录音,每月一期。
—— 李婷 (《离线》主编)
阅读原文
—— 李婷 (《离线》主编)
阅读原文
https://github.com/karlicoss/promnesia
使用笔记软件的数据源,在浏览网页时做到 in context browser
使用笔记软件的数据源,在浏览网页时做到 in context browser
我会每次跟人说「下次约吃饭啊」的时候在手机 Calendar 里把准备去跟这个人约时间的时间标注一下,并且设成响铃提醒。这样就不会只是口头说说要约饭,但就没有然后了。
—— 月野耕 (科创社区建设者、活动运营)
阅读原文
—— 月野耕 (科创社区建设者、活动运营)
阅读原文
一定要学习下,之前太随意了,说了没做到
#编程
编程中的命名是一个大难题,其中还包括了给项目命名。《Vector Naming Discussion》中,列举了给Arrow项目(内存中的列存格式)取名过程中的备选方案,最后才选择了Arrow:
编程中的命名是一个大难题,其中还包括了给项目命名。《Vector Naming Discussion》中,列举了给Arrow项目(内存中的列存格式)取名过程中的备选方案,最后才选择了Arrow:
math symbol for vector. and arrows are fast. also alphabetically will show up on top
万字解析:AI 驱动的大纲笔记,Tana 能否超越 Notion? [by 二一的笔记]
https://sspai.com/post/93555
https://sspai.com/post/93555