好资源和短想法
Progressive Product Building 与元认知类比

新的一年,我想提出一个关于“渐进式产品开发”的理念。这对我而言是一次变革,因为我过去总是过度侧重“产品思考”的前置,不断生产和完善各种点子笔记。但这导致构思日益复杂,预期工作量剧增,使许多项目无疾而终,我最终沦为“产品文档创作者”而非“产品创作者”。这是一个不得不承认的、莫大的失败。虽然这种做法也有一些好处,比如锻炼了产品设计能力,但这并不是我所追求的。专注于完善构想本身没问题,但我内心渴望的是做出产品,因此绝不能沉溺于此。我必须调整自身的认知。

要做到这件事,需要一种元认知能力:即意识到自身现有的认知逻辑存在问题,对其进行反思、重构,再将新版本植入大脑继续工作。如果做一个类比:

- 固件/程序:指挥我们日常行为的是大脑中针对特定事务的一套“固件”。通常情况下,它们烧录在思维的固定区域,支持系统持续运行,轻易不被改变。
- 元认知:是监控和生产这些固件的更高层级认知系统。
- 升级过程:元认知能力强的人,拥有一个“元系统内核”,能够暂停下层系统的运行,对旧固件进行检修、更新和“刷写”。这就像是对自己的行为模式进行系统升级。

回到我的产品开发困境,我要修改我的这套“系统固件”了。以往我有了点子会立刻记录,后续有灵感再反复修改原记录,但现在我已经意识到第二步是有问题的,它会导致我的实际产出变低,项目会停滞甚至流产。改进的方式就是使用“渐进式产品开发”理念,它包括以下三个规则:

规则一:我需要一个专门的目录和快捷键来创建“Simple Project Idea”。点子一旦产生并记录了核心逻辑(目的、用途),就应即刻存档。后续如果想法进化了(例如功能扩展、定位改变、变得更通用),应创建一个新的“Complex Project Idea”文档,并链接回源点子。一个简单的点子甚至可以分支出多个复杂的产品构想。

规则二:Simple Project Idea 创建后,应立即着眼于实现。得益于目前 Vibe Coding 工具的强大,我完全可以在一天内将其实现。因此,Simple Project Idea 下唯一可补充的内容是“技术实现部分(Tech Part)”,即用于辅助 AI 工具生成代码的详细提示词或技术描述。

规则三:建立对 Simple Project Idea 的监控机制。通过为它们添加 Front Matter 数据(起始时间、截止日期、完成情况、状态等)在表格中进行管理。这实际上覆盖了我之前构想的“Ongoing Tracker”需求——我不再需要从大量 GitHub Repo 中筛选关注对象,只需聚焦于这些应当立即实现的 Simple Project Ideas,除非它们被标记为废弃。

2026 年,我将遵循这套新的理念进行个人项目,在此与频道的读者共勉。以及要感谢大家的关注和评论,让我能有一片空间收获灵感和共鸣。新年快乐!
高原笔记(Plateau Notes)

最近我重新研究了 Andy Matuschak 关于 [[Evergreen Notes]] 的论述,以及 Robert Haisfield 关于 Joel Chan、Beau Haan 等人如何在 Roam 中处理笔记的视频采访,收益颇丰。

我最终研究和优化出我的新笔记体系:[[Plateau Notes]] 高原笔记,引用德勒兹哲学化了的概念,它比我的 [[Instant Notes]] 即刻笔记维度更高,将拉起我的整个知识库,也将盘活我所有的 [[Evergreen Notes]]。

高原笔记以主题和集群的方式拔起内容,如果说 [[Instant Notes]] 以更现代更快节奏的方式组装内容,成就了这个频道,那高原笔记将以更全面和深层地打开我过去几年的知识积累和潘多拉状态。这里不过多介绍,直接看图片。(图片由 Nano Banana 制作)

我的 [[Plateau Notes]] 和 [[Evergreen Notes]] 紧密相关,但比 Andy 概念的常青笔记更具操作性和知识生产引导意义。

现在每个人都在消费信息,却很少人消化,更难形成知识。我现在对我的工作和定位更清晰了,我将持续研究知识如何产生和运作、如何更好地发现和建造知识,就像解析爱因斯坦方程的复杂性一样。

相关笔记
1 Haisfield Youtube
2 Instant Notes 2.0 预告
3
Evergreen Note

#roam #pkm
《Optimize generative AI applications with pgvector indexing: A deep dive into IVFFlat and HNSW techniques》,由 aws 撰写的一片关于 pgvector 索引的文章。

在 LLM RAG 领域,为了处理较长的输入,通常会将文本拆分成较小的 chunks,然后在一些预处理后,将这些 chunks 通过 embeddings 模型生成 vector,存储于向量数据库中。当用户发起查询时,系统会将查询文本同样通过 embeddings 模型生成 vector,然后在向量数据库中进行相似度搜索,找到最相关的 chunks 作为上下文补充。

postgres 搭配 pgvector 插件,是一种常见的向量数据库实现方式。在向量数据库中进行查询,其实就是寻找和目标向量“最相似”的一组向量,“相似”的度量手段有三种:

* L2 距离(Euclidean Distance):计算两个向量之间的欧氏距离。
* Cosine 相似度(Cosine Similarity):计算两个向量之间的夹角余弦值。
* 内积(Inner Product):计算两个向量的点积。可以衡量向量的相似性。

默认情况下,也就是不建立索引时,pgvector 会进行遍历搜索。为了提高搜索性能,提供了两种索引索引:

* IVFFlat 索引(Inverted File with Flat quantization):IVFFlat 是一种基于有监督聚类的近似最近邻搜索算法。它通过将向量空间划分为多个 regions。搜索时,首先仅需要搜索各个 regions 的中心点,找出相关 region 后,再搜索 region 内的向量。
* HNSW 索引(Hierarchical Navigable Small World graphs):HNSW 是一种基于图结构的近似最近邻搜索算法。可以理解为 skiplist,先从最上层(节点最少的层)开始搜索,找到最近点后,作为下一层的起始点继续搜索,逐层往下,直到最底层。

这两种索引都可以显著减少搜索时需要比较的向量数量,从而提升查询速度。而且,为了避免局部最优解,可以设定以多个起始点的方式进行搜索。

文中对 58.6 K 个,总大小为 364 MB 的向量集进行了测试(pgvector 0.6):

* 不使用索引,搜索耗时 650 ms
* 使用 IVFFlat 索引,建立索引 15.5 s,搜索耗时 2.4 ms
* 使用 HNSW 索引,建立索引 30 s,搜索耗时 1.58 ms

可以看出,使用索引对搜索性能提升是很大的。

<< prev
现代高效阅读科研论文的方法 | #经验

经过多次实践,作者发现分4次阅读科研论文,比一次性通读速度更快、理解更深。这一方法改编自Eugene Yan的“三遍法”,对不习惯读论文的人尤其友好,能大幅提升信息吸收和记忆效率。

具体步骤:
1. 快速浏览摘要、引言和结论,抓住核心观点和关键内容。
2. 再次精读引言和结论,顺带浏览章节标题,理清结构脉络。
3. 细读全文,做笔记和批注,深化理解。
4. (额外技巧)如果论文有代码,使用CodeMaps工具(Windsurf开发)结合代码仓库逐行跟踪实现,直观理解算法细节。

CodeMaps是作者最喜欢的冷门利器,可以让你边看论文边“跑”代码,极大提升学习效率。

刚刚读完一篇关于专家修剪压缩稀疏专家模型(SMoE)的论文,收获满满。

在阅读过程中,结合ChatGPT等工具辅助构建背景知识,能够更快理解论文上下文和相关研究。

不同观点也很有价值,比如不必字字阅读全部内容,应该重点关注新颖或特别感兴趣的部分,避免陷入误读和过度解读。
UCLA 2025年春季推出了一套关于大型语言模型强化学习(RL for LLM)的精彩课程,内容涵盖基础理论、测试时计算优化、基于人类反馈的强化学习(RLHF),以及可验证奖励的强化学习(RLVR)等前沿主题。

这套课程不仅系统介绍了RL在LLM中的应用,还讨论了如何提升模型性能和可靠性,适合对RL与大模型结合感兴趣的研究者和工程师深入学习。

课程配套的YouTube播放列表和官方网站资源丰富,便于自学和实践。