2026/4/6 0:29:49
网站建设
项目流程
来源AI寒武纪前两天我写文章介绍了Andrej Karpathy构建个人本地知识库的工作流方法目前这个思路已经火爆全网Karpathy最新硬核分享用大模型和Obsidian打造个人本地知识库不过有朋友抱怨AK是在炫技没有操作性不够具体这不详细版本来了。AK刚刚又公开了构建个人本地知识库详细版本使得这个方法有了更强的落地性和可操作性原文以md文件分享这相当于把提示词公布了地址gist.github.com/karpathy/442a6bf555914893e9891c11519de94f使用 LLM 构建个人知识库的模式。这是一个想法文件旨在让你直接复制粘贴到自己的 Agent例如 Codex、Claude Code、OpenCode / Pi 或其他。它的目标是传达高级概念AK故意写得比较抽象/模糊是因为有很多发展方向可以选择适合个人定制。核心思路大多数人用 LLM 处理文档的方式都是 RAG检索增强生成上传一堆文件提问时让模型检索相关片段再生成答案。这套方案能用但有一个根本性的缺陷——模型每次回答都是从零开始重新发现知识没有任何积累。如果你的问题需要综合五篇文档的内容模型就得每次都重新找、重新拼。NotebookLM、ChatGPT 的文件上传功能以及绝大多数 RAG 系统都是这个逻辑。这里提出的思路截然不同。不是在提问时才去检索原始文档而是让 LLM 持续地构建并维护一个永久性的 Wiki——一套结构化、相互链接的 Markdown 文件横亘在你和原始资料之间。每当你加入一份新资料LLM 不只是把它编入索引留待日后检索而是真正读懂它、提取关键信息并将其融入已有的 Wiki——更新实体页面、修订主题摘要、标注新旧内容的矛盾之处不断强化或修正整体认知。知识只需编译一次之后持续保持更新而不是每次提问都重新推导一遍。这正是关键所在Wiki 是一个持久的、复利式的知识资产。交叉引用已经在那里了。矛盾已经被标记出来了。综合性的结论已经反映了你读过的所有内容。每加入一份新资料、每提一个新问题Wiki 就变得更丰富一分。你几乎不需要亲自动手写 Wiki——一切都由 LLM 来写和维护。你负责筛选资料、探索方向、提出好问题LLM 负责所有繁琐的工作——摘要、交叉引用、归档、以及让知识库真正好用所需要的各种维护工作。在AK实际使用时一边开着 LLM 对话窗口一边打开 Obsidian。LLM 在对话中做出修改实时在 Obsidian 里浏览结果——顺着链接跳转、查看知识图谱、阅读更新后的页面。Obsidian 是 IDELLM 是程序员Wiki 是代码库。这套模式可以应用于很多场景举几个例子个人成长追踪自己的目标、健康状况、心理状态、自我提升——把日记、文章、播客笔记归档进来逐步建立起一幅关于自己的结构化图景。深度研究围绕某个课题持续钻研数周乃至数月——阅读论文、文章、报告增量式地构建一个有完整论点演进的综合性 Wiki。读书笔记每读完一章就归档一次为人物、主题、情节线索建立页面并梳理它们之间的联系。读完全书你就拥有了一个丰富的配套 Wiki。想想托尔金百科Tolkien Gateway这样的粉丝 Wiki——由社区志愿者历时多年构建涵盖人物、地点、事件、语言成千上万个相互链接的页面。你可以一边阅读一边用 LLM 帮你做所有的交叉引用和维护工作独自建出类似的东西。企业/团队一个由 LLM 维护的内部 Wiki输入来源包括 Slack 消息、会议记录、项目文档、客户通话。可以加入人工审核环节。Wiki 能保持更新因为 LLM 承担了团队里没人愿意做的维护工作。竞争对手分析、尽职调查、旅行规划、课堂笔记、兴趣爱好的深度探索——任何需要持续积累知识、并希望它有条理而不是一盘散沙的场景都适用。系统架构整个系统分为三层第一层原始资料— 你精心收集的原始文档包括文章、论文、图片、数据文件。这一层是只读的——LLM 只读取不修改。这是你的事实来源。第二层Wiki— 一个由 LLM 生成的 Markdown 文件目录包含摘要、实体页面、概念页面、对比分析、概览和综合性结论。这一层完全由 LLM 负责它创建页面、在新资料加入时更新页面、维护交叉引用、保持内容的一致性。你负责阅读LLM 负责写作。第三层Schema规范文档— 一份配置文件例如 Claude Code 用的CLAUDE.md或 Codex 用的AGENTS.md告诉 LLM Wiki 的结构是什么、约定规范是什么以及在录入资料、回答问题或维护 Wiki 时应遵循什么工作流程。这是最关键的配置文件——正是它让 LLM 成为一个有纪律的 Wiki 维护者而不只是一个通用聊天机器人。你和 LLM 会随着时间的推移共同完善它在实践中摸索出最适合你所在领域的方式。三种核心操作录入Ingest你把一份新资料放入原始资料库告诉 LLM 来处理它。一个典型的工作流程是LLM 阅读资料、与你讨论关键要点、在 Wiki 里写一篇摘要页面、更新索引、更新 Wiki 中相关的实体和概念页面并在日志中添加一条记录。一份资料可能会涉及 10 到 15 个 Wiki 页面。我个人倾向于一次录入一份资料并全程参与其中——阅读摘要、检查更新、引导 LLM 重点关注哪些内容。当然你也可以批量录入多份资料减少干预。具体采用什么工作流程取决于你自己的习惯记得在 Schema 中记录下来供后续使用。查询Query你向 Wiki 提问。LLM 搜索相关页面、阅读内容、综合作答并附上引用。答案的形式可以多种多样根据问题而定——Markdown 页面、对比表格、幻灯片Marp 格式、图表matplotlib、画布等。重要的洞见在于好的回答可以作为新页面写回 Wiki。你提出的某个对比分析、某个发现的联系——这些都是有价值的不应该消失在聊天记录里。这样你的探索过程就像录入的资料一样在知识库中不断积累。检查Lint定期让 LLM 对 Wiki 做一次健康检查排查页面之间的矛盾、被新资料推翻的陈旧说法、没有任何入链的孤立页面、被提及但缺少独立页面的重要概念、缺失的交叉引用、可以通过网络搜索填补的信息空白。LLM 擅长建议值得深入研究的新问题和值得寻找的新资料这有助于 Wiki 在不断扩张的同时保持健康。索引与日志两个特殊文件帮助 LLM和你在 Wiki 扩大后依然能高效导航二者用途不同index.md是内容导向的。它是整个 Wiki 的目录——每个页面都附有链接、一句话摘要以及可选的元数据如日期、资料来源数量按类别组织实体、概念、来源等。LLM 在每次录入时更新它。回答问题时LLM 先读索引找到相关页面再深入阅读。在中等规模约 100 份资料、数百个页面下这套方式效果出奇地好也无需搭建基于向量嵌入的 RAG 基础设施。log.md是时间导向的。它是一份只追加不修改的操作记录记录发生了什么、发生在什么时候——包括录入、查询、检查等操作。一个实用技巧如果每条记录以固定前缀开头例如## [2026-04-02] ingest | 文章标题日志就变得可以用简单的 Unix 工具来处理——grep ^## \[ log.md | tail -5就能列出最近 5 条记录。日志给你提供了 Wiki 演进的时间线也帮助 LLM 了解最近做过什么。可选命令行工具随着使用深入你可能希望构建一些小工具帮助 LLM 更高效地操作 Wiki。最显而易见的是 Wiki 的搜索引擎——规模较小时索引文件已经够用但随着 Wiki 不断扩大你会希望有一个真正的搜索功能。qmd是一个不错的选择它是一个本地 Markdown 文件搜索引擎支持 BM25/向量混合搜索和 LLM 重排序完全在本地设备上运行。它既有 CLI 接口LLM 可以直接调用也有 MCP 服务LLM 可以将其作为原生工具使用。你也可以自己构建更简单的工具——在需要的时候LLM 可以帮你快速写一个简单的搜索脚本。实用技巧Obsidian Web Clipper是一个浏览器插件可以将网页文章转换为 Markdown对于快速将内容放入原始资料库非常有用。本地下载图片在 Obsidian 设置 → 文件与链接中将附件文件夹路径设置为一个固定目录如raw/assets/然后在设置 → 快捷键中搜索Download找到下载当前文件的附件绑定一个快捷键如 CtrlShiftD。剪藏文章后按快捷键所有图片就会下载到本地。这是可选步骤但很实用——它让 LLM 能直接查看和引用图片而不必依赖随时可能失效的图片链接。注意LLM 无法一次性读取内嵌了图片的 Markdown 文件——变通方法是让 LLM 先读文本再单独查看部分或全部图片以获取补充信息稍显繁琐但实际效果不错。Obsidian 的图谱视图是查看 Wiki 全貌的最佳方式——哪些页面相互连接哪些页面是枢纽哪些是孤岛。Marp是一种基于 Markdown 的幻灯片格式Obsidian 有对应插件可以直接从 Wiki 内容生成演示文稿。Dataview是一个 Obsidian 插件可以对页面的 YAML 前置元数据运行查询。如果你的 LLM 为 Wiki 页面添加了前置元数据标签、日期、来源数量等Dataview 可以生成动态表格和列表。Wiki 本质上就是一个 Git 仓库全是 Markdown 文件。版本历史、分支管理、多人协作全部开箱即用。为什么这套方法有效维护知识库最繁琐的部分不是阅读也不是思考——而是记账。更新交叉引用、保持摘要的时效性、标注新数据与旧观点的矛盾、维护数十个页面之间的一致性。人们放弃维护 Wiki正是因为维护成本的增速超过了它带来的价值。LLM 不会感到无聊不会忘记更新某个交叉引用可以在一次操作中同时修改 15 个文件。Wiki 得以持续维护是因为维护的成本几乎为零。人的工作是筛选资料、指引分析方向、提出好问题、思考这一切意味着什么。LLM 的工作是其他一切。这个想法在精神上与 Vannevar Bush 在 1945 年提出的记忆延伸机器Memex一脉相承——一个私人的、经过主动筛选的知识库文档之间存在联想式的关联路径。Bush 的愿景比后来的万维网更接近这个思路私密的、主动维护的文档之间的联系与文档本身同等重要。他当年唯一没有解决的问题是谁来负责维护。LLM 解决了这个问题。附注本文档有意保持抽象。它描述的是一种思路而非某个具体的实现方案。确切的目录结构、Schema 约定、页面格式、工具选择——所有这些都取决于你的领域、你的偏好以及你使用的 LLM。上面提到的所有内容都是可选且模块化的——取其有用舍其无用。例如你的资料可能全是纯文本完全不需要图片处理你的 Wiki 可能足够小索引文件就已够用不需要搜索引擎你可能根本不关心幻灯片只想要 Markdown 页面你可能希望输出完全不同的格式。最好的使用方式是把这份文档扔给 LLM 一起合作落地出一个适合你需求的具体版本。这份文档唯一的使命就是传达这个模式本身。剩下的LLM 会帮你搞定。阅读最新前沿科技趋势报告请访问21世纪关键技术研究院的“未来知识库”未来知识库是“21世纪关键技术研究院”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告加入未来知识库全部资料免费阅读和下载牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》麦肯锡超级智能机构赋能人们释放人工智能的全部潜力AAAI 2025 关于人工智能研究未来研究报告斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页壳牌2025 能源安全远景报告能源与人工智能57 页盖洛普 牛津幸福研究中心2025 年世界幸福报告260 页Schwab 2025 未来共生以集体社会创新破解重大社会挑战研究报告36 页IMD2024 年全球数字竞争力排名报告跨越数字鸿沟人才培养与数字法治是关键214 页DS 系列专题DeepSeek 技术溯源及前沿探索50 页 ppt联合国人居署2024 全球城市负责任人工智能评估报告利用 AI 构建以人为本的智慧城市86 页TechUK2025 全球复杂多变背景下的英国科技产业战略韧性与增长路径研究报告52 页NAVEX Global2024 年十大风险与合规趋势报告42 页《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页2025 - 2035 年人形机器人发展趋势报告 53 页Evaluate Pharma2024 年全球生物制药行业展望报告增长驱动力分析29 页【AAAI2025 教程】基础模型与具身智能体的交汇350 页 pptTracxn2025 全球飞行汽车行业市场研究报告45 页谷歌2024 人工智能短跑选手AI Sprinters捕捉新兴市场 AI 经济机遇报告39 页【斯坦福博士论文】构建类人化具身智能体从人类行为中学习《基于传感器的机器学习车辆分类》最新 170 页美国安全与新兴技术中心2025 CSET 对美国人工智能行动计划的建议18 页罗兰贝格2024 人形机器人的崛起从科幻到现实如何参与潜在变革研究报告11 页兰德公司2025 从研究到现实NHS 的研究和创新是实现十年计划的关键报告209 页康桥汇世Cambridge Associates2025 年全球经济展望报告44 页国际能源署2025 迈向核能新时代麦肯锡人工智能现状组织如何重塑自身以获取价值威立Wiley2025 全球科研人员人工智能研究报告38 页牛津经济研究院2025 TikTok 对美国就业的量化影响研究报告470 万岗位14 页国际能源署IEA能效 2024 研究报告127 页Workday 2025 发挥人类潜能人工智能AI技能革命研究报告20 页CertiKHack3D2024 年 Web3.0 安全报告28 页世界经济论坛工业制造中的前沿技术人工智能代理的崛起》报告迈向推理时代大型语言模型的长链推理研究综述波士顿咨询2025 亚太地区生成式 AI 的崛起研究报告从技术追赶者到全球领导者的跨越15 页安联Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告33 页IMT2025 具身智能Embodied AI概念、核心要素及未来进展趋势与挑战研究报告25 页IEEE2025 具身智能Embodied AI综述从模拟器到研究任务的调查分析报告15 页CCAV2025 当 AI 接管方向盘自动驾驶场景下的人机交互认知重构、变革及对策研究报告124 页《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页《面向科学发现的智能体人工智能进展、挑战与未来方向综述》全国机器人标准化技术委员会人形机器人标准化白皮书2024 版96 页美国国家科学委员会NSB2024 年研究与发展 - 美国趋势及国际比较51 页艾昆纬IQVIA2025 骨科手术机器人技术的崛起白皮书创新及未来方向17 页NPLBeauhurst2025 英国量子产业洞察报告私人和公共投资的作用25 页IEA PVPS2024 光伏系统经济与技术关键绩效指标KPI使用最佳实践指南65 页AGI 智能时代2025 让 DeepSeek 更有趣更有深度的思考研究分析报告24 页2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告37 页华为2025 鸿蒙生态应用开发白皮书133 页《超级智能战略研究报告》中美技术差距分析报告 2025欧洲量子产业联盟QuIC2024 年全球量子技术专利态势分析白皮书34 页美国能源部2021 超级高铁技术Hyperloop对电网和交通能源的影响研究报告60 页罗马大学2025 超级高铁Hyperloop第五种新型交通方式 - 技术研发进展、优势及局限性研究报告72 页兰德公司2025 灾难性网络风险保险研究报告市场趋势与政策选择93 页GTI2024 先进感知技术白皮书36 页AAAI2025 人工智能研究的未来报告17 大关键议题88 页安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告威达信2025 全球洪水风险研究报告现状、趋势及应对措施22 页兰德公司迈向人工智能治理研究报告2024EqualAI 峰会洞察及建议19 页哈佛商业评论2025 人工智能时代下的现代软件开发实践报告12 页德安华全球航空航天、国防及政府服务研究报告2024 年回顾及 2025 年展望27 页奥雅纳2024 塑造超级高铁Hyperloop的未来监管如何推动发展与创新研究报告28 页HSOAC2025 美国新兴技术与风险评估报告太空领域和关键基础设施24 页Dealroom2025 欧洲经济与科技创新发展态势、挑战及策略研究报告76 页《无人机辅助的天空地一体化网络学习算法技术综述》谷歌云Google Cloud2025 年 AI 商业趋势白皮书49 页《新兴技术与风险分析太空领域与关键基础设施》最新报告150 页《DeepSeek 大模型生态报告》军事人工智能行业研究报告技术奇点驱动应用加速智能化重塑现代战争形态 - 25030940 页真格基金2024 美国独角兽观察报告56 页璞跃Plug and Play2025 未来商业研究报告六大趋势分析67 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页未来今日研究所 2025 年科技趋势报告第 18 版 1000 页模拟真实世界多模态生成模型的统一综述中国信息协会低空经济分会低空经济发展报告2024 - 2025117 页浙江大学2025 语言解码双生花人类经验与 AI 算法的镜像之旅42 页人形机器人行业由 “外” 到 “内” 智能革命 - 25030651 页大成2025 年全球人工智能趋势报告关键法律问题28 页北京大学2025 年 DeepSeek 原理和落地应用报告57 页欧盟委员会 人工智能与未来工作研究报告加州大学伯克利分校面向科学发现的多模态基础模型在化学、材料和生物学中的应用电子行业从柔性传感到人形机器人触觉革命 - 25022635 页RT 轨道交通2024 年中国城市轨道交通市场数据报告188 页FastMoss2024 年度 TikTok 生态发展白皮书122 页Check Point2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议57 页【AAAI2025 教程】评估大型语言模型挑战与方法199 页 ppt《21 世纪美国的主导地位核聚变》最新报告沃尔特基金会Volta Foundation2024 年全球电池行业年度报告518 页斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页国际科学理事会2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告英文版118 页光子盒2025 全球量子计算产业发展展望报告184 页奥纬论坛2025 塑造未来的城市研究报告全球 1500 个城市的商业吸引力指数排名124 页Future Matters2024 新兴技术与经济韧性日本未来发展路径前瞻报告17 页《人类与人工智能协作的科学与艺术》284 页博士论文《论多智能体决策的复杂性从博弈学习到部分监控》115 页《2025 年技术展望》56 页 slides大语言模型在多智能体自动驾驶系统中的应用近期进展综述【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用皮尤研究中心2024 美国民众对气候变化及应对政策的态度调研报告气候政策对美国经济影响的多元观点审视28 页空间计算行业深度发展趋势、关键技术、行业应用及相关公司深度梳理 - 25022433 页Gartner2025 网络安全中的 AI明确战略方向研究报告16 页北京大学2025 年 DeepSeek 系列报告 - 提示词工程和落地场景86 页北京大学2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用99 页CIC 工信安全2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告42 页中科闻歌2025 年人工智能技术发展与应用探索报告61 页AGI 智能时代2025 年 Grok - 3 大模型技术突破与未来展望报告28 页上下滑动查看更多