首页

自动驾驶：通用人工智能（AGI）的案例研究 [译]

随着大语言模型（LLMs）的进展，最近人们越来越多地讨论通用人工智能（AGI），包括它的发展趋势和可能的面貌。这些讨论既有乐观的期待，也有对未来充满担忧的声音。但遗憾的是，这些讨论往往过于抽象，导致大家在讨论中各说各话，难以达成共识。因此，我一直在寻找具体的例子和历史先例来更实际地探讨这个话题。当被问及我对 AGI 的看法时，我通常会举自动驾驶为例。在这篇文章中，我想解释这样做的原因。

January 25, 2024

Loro 富文本 CRDT 的介绍 [译]

React 服务组件为 React 引入了专属于服务端的强大功能。我在 Next.js 13 和 14 的应用中实践了这一新范式，接下来是我对其的真实评价。之前我一直在犹豫是否要发表这篇文章，因为 React 社区过去对待批评的态度让我有所顾虑。但最近，我认为分享我的看法变得尤为重要，特别是在我发现大多数现有批评要么记录不充分，要么基于对此技术的不熟悉。写下这篇文章，我是站在一个非常重视用户体验的角度。虽然我也关注开发者的体验，但我始终认为用户体验是最重要的。

January 24, 2024

MemGPT：将大语言模型转变为操作系统 [译]

大语言模型（LLM）已经在人工智能领域带来了革命性的变化。然而，它们的应用受限于处理信息的上下文窗口较小，这在执行长对话和文档分析等任务时尤其成问题。为了突破这一限制，我们提出了一种名为虚拟上下文管理的新技术。这种技术借鉴了传统操作系统中层次化内存系统的理念，能够通过在不同速度的内存间转移数据，从而扩展大语言模型处理信息的能力。基于这种技术，我们开发了 MemGPT（Memory-GPT），这是一个智能系统，它能够有效地在大语言模型本身有限的上下文窗口内提供更广泛的上下文信息。此外，MemGPT 还采用中断机制，以优化系统与用户间的交互控制流。我们在两个重要领域对这种受操作系统启发的设计进行了评估：一是文档分析，在这一领域，MemGPT 能够处理远超大语言模型本身上下文限制的庞大文档；二是多回合对话，在这里，MemGPT 能够构建出能够记忆、反思并在与用户长期互动中不断进化的对话智能体。

January 24, 2024

职场忠诚之终结 [译]

探究当前工作环境的失衡 —— 以及其可能的解决之道

January 23, 2024

彼得·林奇：懂得放手的智慧 [译]

“我记得那天站在雨中\[观看我女儿的足球比赛]，为她加油助威，心里想着，‘我希望能有更多这样的时刻。’”

January 23, 2024

成功人士共有的秘诀，亿万富翁 CEO 揭秘：“这是我决策的法宝” [译]

你有没有遇过那种似乎总能预知事情结局的人？他们并不是能预见未来的通灵者。其实，他们的秘诀在于洞察生活中的规律，这正是许多成功人士的共同技能，亿万富翁迈克尔·鲁宾就是这样的人。

January 23, 2024

利用 AI 教学哈佛 CS50 课程 —— 在计算机科学教育中的生成式人工智能应用 [译]

2023 年夏，我们在哈佛大学的 CS50 课程中引入了一套 AI 软件工具。这些工具最初面向大约 70 名夏季课程的学生，随后向数千名线上学生开放，并在同年秋季扩展到校园的数百名学生。遵循课程政策，我们鼓励学生使用这些专为课程设计的工具，同时限制了他们使用 ChatGPT、GitHub Copilot 以及新版 Bing 等商业 AI 软件。我们的目标是通过软件实现接近 1:1 教师对学生的比例，使每位学生都能随时拥有一位以教学为导向的学科专家助手。这些工具的设计目的是引导学生探索解决方案，而非直接给出答案。学生对这些工具的反响积极，他们表示这就像拥有了一位“个人导师”。我们的研究发现，将 AI 有策略地融入教育环境可以通过提供持续的个性化支持，提升学习体验，并帮助教育者解决更复杂的教学难题。在本文中，我们将详细讲述 AI 工具如何在 CS50 课程中提升教学和学习效果，主要涉及代码片段解释、代码风格改善，以及对课程讨论论坛上的课程内容和行政问题的精准回应。此外，我们还将分享我们的方法论、实施细节，以及对那些考虑在教育领域应用这些工具或 AI 技术的人的建议。

January 22, 2024

两个一文不名的学生怎样将一个想法变成珠宝行业每月 3 万美元的成功故事 [译]

大家好，我是 Joosep Seitam。今天我要跟各位创业者分享一个故事：就是我如何从一个大胆的想法出发，在短短 8 个月内，让我在珠宝行业的月收入达到了 3 万美元。我和我的合伙人 Martin Kardi 一起创办了一家专门销售镀金榴石嘻哈珠宝的公司。我们的产品主要针对居住在美国的非裔群体。我们销售的是一种非常特别的珠宝，即嘻哈风格的珠宝。仅仅 8 个月，我们就通过搜索引擎优化（SEO）的方式，将公司收入提升到了每月 3 万美元。在这个过程中，我们的网站每月自然访问量已经超过了 1 万次。这是两年前的我和 Martin，那时我们一贫如洗，对未来一无所知……

January 22, 2024

我每天是如何使用 ChatGPT 的（从科学家和开发者的视角） [译]

我每天在专业和个人生活中都使用大语言模型，我发现它们是极好的工具——它们不仅提高了我的工作效率，更让我在使用技术时感到愉快和满足，经常让我会心一笑。如果它们对我有帮助，那它们就不可能是无用的（除非我的经验毫无价值，那么你也就没必要读这篇文章了）。而那些怀着好意参与这类讨论的人会问我，“那么，你是怎么使用这些工具的呢？”因此，我查看了我过去一个月的 ChatGPT 使用记录，并将在这里列举一些用途。

January 22, 2024

聊天机器人性能革新：探索三大 RAG 性能提升策略 [译]

在我们深入 RAG 聊天机器人系列的最后几章之前，许多逐步构建聊天机器人的读者可能遇到了一些疑问。比如，在不追求快速反应、而更看重准确回答的情况下，比如医疗类聊天机器人，我们应该如何做？今天，我们要介绍三种不同的技术，它们专注于在特定技能上提升聊天机器器人的整体性能。重要的是，本节我们将不采用任何开源库或工具。这一选择是刻意为之，主要是为了关注性能优化这一核心议题。尽管这些技术对于聊天机器人的功能来说是可选的，但它们对于对性能有特别要求的用户和企业而言却非常关键。在本次讨论中，我会通过代码片段来详细说明每种技术。所有这些代码片段都可以轻松地融入之前文章中的代码，使得实施过程变得无比简单。如果您觉得这些示例对您的机器人项目有帮助，请随意使用。以一个为最终用户提供棋盘游戏信息的聊天机器人为例，我们来具体看看这些技术是如何应用的。

January 21, 2024

你的职业生涯衰退或许比你想的更早到来 [译]

“其实并不是没人再需要你。”这番话出自我身后的一位年长女士之口，当时我们正乘坐从洛杉矶飞往华盛顿特区的深夜航班。飞机里暗淡且静谧。她旁边的男士小声回应，声音几乎听不清，大意是“我宁愿已经死了。”她再次开口：“别那么说。”我原本无意偷听，但他们的对话不禁引起了我的极大兴趣。我脑海中开始描绘这位男士的形象，想象他是一位默默无闻却终身勤勉工作的人，怀揣着未曾实现的梦想——或许是未获得的学位，未追求的职业生涯，未创办的公司。当飞机降落、灯光亮起，我终于见到了那位绝望的男士。让我震惊的是，他是我认识的——一位世界知名的人物。那时他已经 80 多岁，曾因多年前的勇气、爱国精神和成就而被众人爱戴。他从我身后走过飞机走道时，其他乘客纷纷带着敬意向他致意。当他站在驾驶舱门口时，飞行员拦住他说：“先生，我从小就非常敬佩您。”就在几分钟前还渴望死亡的老人，在得到过去荣耀的认可时，脸上露出了自豪的笑容。

January 21, 2024

谷歌的文化转变 [译]

在过去几个月中，我尝试了三次撰写这篇文章；这是个复杂的话题。公众总是乐于看到大公司，特别是那些自负的硅谷科技公司被批评，他们喜欢看“失宠”的故事。但我并不想抹黑谷歌。尽管如此，谷歌依然是一个出色的工作环境，远胜过大多数其他公司，并且依然在创造惊人的成就。我的目的是想分享谷歌发生的一些独特而美好的事情，希望这些美好能在未来的某个地方重现。毫无疑问，谷歌早期的日子是非常特别的。我特意保存了一封电子邮件长达 18 年，直到我离开公司那天，因为我知道它会是一段有趣的历史对比。这封邮件主要描述了一些表面的差异，比如免费的美食。但这并不是谷歌员工来上班的主要原因。我想深入探讨的是谷歌文化中更深层次、更有意义的方面。

January 21, 2024

知识密集型自然语言处理任务的检索增强生成技术研究 [译]

在自然语言处理领域，大型预训练语言模型因能存储大量事实知识而备受关注，尤其是在针对具体任务进行细致调整后，它们的表现尤为出色。不过，这些模型在获取和准确使用知识方面仍有所不足，特别是在那些需要大量知识的任务上，它们的效果还不如专为特定任务设计的系统。此外，如何为这些模型的决策提供依据，以及如何更新它们所掌握的世界知识，仍是目前研究中的难题。迄今，研究人员已经探索了在提取型任务中应用具有可微分存取机制的非参数记忆的预训练模型。本研究则是针对检索增强生成（Retrieval-Augmented Generation, RAG）的通用调整方法进行探讨。这种方法结合了预训练的参数记忆（如 seq2seq 模型）和非参数记忆（例如，通过预训练神经网络检索器访问的 Wikipedia 的密集向量索引）。我们对比了两种 RAG 方法：一种是在整个生成过程中使用相同的检索内容，另一种则在生成的每个部分可能使用不同的内容。我们对这些模型在多种知识密集型任务上进行了细致的调整和评估，在几个开放领域的问答任务上取得了领先成绩，超过了传统的 seq2seq 模型和专门为特定任务设计的检索 - 提取系统。在语言生成任务中，我们发现 RAG 模型能产生更具体、多样化且符合事实的语言，相比之下，传统的只依赖参数的 seq2seq 模型则显得逊色。

January 19, 2024

人工智能迎战数学奥林匹克的新挑战 [译]

高中数学奥林匹克选手们要注意了，AlphaGeometry 正在挑战你们在数学领域的成就。

January 18, 2024

大语言模型抽象简明指南 [译]

这里为您提供了一些建议和技巧，旨在提高大语言模型应用的精准度，并介绍了选择合适大语言模型的要点。

January 18, 2024

AlphaCodium：引领代码生成新境界，从提示工程到流程工程 [译]

代码生成的难题与普通的自然语言处理不同 —— 它们涉及严格遵循目标编程语言的语法规则、识别正常和边界情况、关注问题规范中的众多细节，并应对代码特有的其他问题和需求。因此，自然语言生成领域的许多常用优化技巧对代码生成任务来说可能并不适用。在这项研究中，我们提出了一种全新的代码生成方法，名为 AlphaCodium —— 一种基于测试、分阶段、专注于代码的迭代处理流程。这种方法显著提升了大语言模型 (LLM) 在处理代码问题上的能力。我们在一个具有挑战性的代码生成数据集 CodeContests 上进行了 AlphaCodium 的测试，这个数据集包含了来自 Codeforces 等平台的竞赛编程题目。我们的方法在这些测试中始终保持着显著的性能提升。例如，在验证数据集上，使用 AlphaCodium 流程后，GPT-4 的准确率（pass@5）从单一精心设计的直接提示的 19% 提升到了 44%。AlphaCodium 在性能上不仅超越了之前的研究成果，如 AlphaCode，而且所需的计算资源也大大减少。我们认为，在这项工作中形成的许多原则和最佳实践普遍适用于代码生成的各种任务。我们在最新开源的项目 AlphaCodium 中分享了我们针对 CodeContests 的 AlphaCodium 解决方案，并提供了完整的数据集评估和基准测试脚本，以便社区进一步研究和探索。

January 18, 2024

新员工为何通常比老员工薪资高 [译]

在我职业生涯中，最令我震惊的一刻是发现，我在标准普尔资本智能公司（S&P Capital IQ）工作时，一位新同事的薪资竟比我高。有一天，我随口问他：“你的薪水有多少？”当得知他比我多挣 40,000 美元时，我既感到不满，又嫉妒，更觉得自己不被重视。同等职位和经验，他怎会挣得比我多 40%？此后，我开始提早离开办公室，心想自己的薪酬并不公平。几个月后，我选择离开了公司。尽管公司试图以晋升和加薪挽留我，但我已感受到了深深的冒犯，伤害无法弥补。

January 17, 2024

AlphaGeometry：一款具有奥林匹克水平的几何 AI 系统 [译]

在今日发表于《自然》杂志的论文中，我们介绍了 AlphaGeometry，这是一款能够解决复杂几何问题的 AI 系统，其能力已接近人类奥林匹克金牌选手的水平，标志着 AI 性能的一个重大突破。在对 30 个奥林匹克几何问题的基准测试中，AlphaGeometry 在规定的奥林匹克时间内解决了 25 个问题。相比之下，之前的最先进系统只解决了其中的 10 个问题，而平均水平的人类金牌选手能解决 25.9 个问题。

January 17, 2024

半人马与赛博格：在未来工作的前沿 [译]

作为生成式 AI 软件的典型代表，ChatGPT 模仿人类的效果非常惊人。它象征着研究领域的一个可能的新纪元，但同时也伴随着风险。

January 17, 2024

Scrum 的问题所在 [译]

最新观点：Scrum 存在问题。

January 16, 2024

构建基于大语言模型的系统与产品的策略 [译]

“有些问题看起来易于构想和展示原型，但将其发展成实际产品却极为艰难。比如自动驾驶：展示一辆汽车在街区自动行驶很简单，但要把这一技术转化为成熟的产品却需要十年时间。”本文旨在探讨如何将大语言模型（LLMs）有效地融入系统和产品中。我们将汇集学术研究、行业资源及实践者的经验，提炼出一些关键的观点和做法。

January 16, 2024

我们将 10% 的资源投入偿还技术债务；这是我们的收获 [译]

为什么以及如何我们持续地投入团队的努力来解决技术债务？结果又如何呢？任何长期维护软件的人都会意识到，随着时间的推移，软件似乎逐渐“腐朽”。防止这种情况的发生，需要付出刻意的努力。本文我将分享一个团队如何成功应对这一挑战，并提供一些实际的操作建议。

January 16, 2024

深入浅出：大语言模型的视觉解析 [译]

在先前的文章中，我们探讨了如何利用 ChatGPT 进行主题建模，并取得了显著成效。我们的任务是分析酒店连锁的客户评价，找出其中的主要议题。在之前的尝试中，我们运用了标准的 ChatGPT 完成 API 并亲自编写了原始提示。这种方式对于一些特定的分析研究非常有效。但如果你的团队正在积极地关注和分析客户评价，采取一些自动化措施是非常有益的。优秀的自动化不仅可以帮助你构建一个独立的流程，还能提供更便捷的体验（即便是不懂大语言模型和编程的团队成员也能轻松获取数据），同时还更加节省成本（你只需一次性向大语言模型发送所有文本并支付费用）。如果我们要构建一个可持续发展的、准备投入生产的服务，那么利用现有的框架来减少编写辅助代码的工作量，并实现更模块化的解决方案是非常值得的（例如，我们可以轻松地从一个大语言模型切换到另一个）。在本文中，我将介绍一个非常流行的大语言模型应用框架 — LangChain。我们还将详细了解如何评估模型的性能，这对于商业应用来说至关重要。

January 15, 2024

脉动观察：美国的公司会因为税法第 174 条款而减少招聘工程师吗？ [译]

去年十月，我们研究了由软件工程师创立的自助资金公司，并引起了广泛关注。很多自助资金的创始人在那期之后给我发来了消息。这些消息中，很多都是对所谓的“税法第 174 条款变更”表示不满。一位创始人这样说道：“你听说过美国税法第 174 条款近年的变更吗？这个变更使得自助资金的软件公司难以为继。简单来说，所有研发相关的成本，包括软件开发人力成本，都不能立即计为费用。这些成本必须资本化，然后在 5 年内摊销 — 若是在美国境外完成的工作，摊销期甚至要 15 年。我不得不说，这个变化太荒谬了。我所接触的每个人都有同样的看法。我想知道，你在和其他自助资金公司的交流中有无遇到过此类话题？”为此我进行了调查，《华尔街日报》和其他一些新闻机构从去年三月开始已经报道了这一变更。但联系我的创始人们表达了一个观点：公众对这个税改可能造成的巨大问题意识不足。去年四月，Ben Thompson 在 Stratechery 报道了这一变化，他也对受影响公司对这项法规知之甚少感到惊讶：“我很惊讶，在科技行业内很少有人知道这个问题，至少在我私下进行的对话中是这样，尽管初创企业可能是受影响最严重的。”

January 15, 2024

引领语言智能：从思维链推理到语言智能体的探索指南 [译]

大语言模型 (LLMs) 在语言智能领域取得了重大进展，尤其在多项复杂推理任务上展现出了卓越的实证性能。理论上的证明也表明了它们在语言处理中的高级认知能力和涌现推理能力。在处理复杂推理任务时，大语言模型 (LLMs) 的关键在于它们采用了引人注目的思维链 (CoT) 推理技术，这种技术要求它们在推导答案的过程中构建中间步骤。CoT 推理不仅在提升推理性能上表现出色，也在增强可解释性、可控性和灵活性方面有显著贡献。鉴于这些优势，近期的研究将 CoT 推理方法应用于自主语言智能体的开发，使这些智能体能够熟练地遵循语言指令，在不同环境中执行任务。这篇综述文章全面探讨了这一领域的关键研究方向，包括：(i) CoT 技术的基础原理，重点解释其有效性的原因；(ii) CoT 的范式转变；及 (iii) 使用 CoT 方法增强的语言智能体的新兴趋势。未来研究的方向包括探索智能体的泛化能力、效率、定制化、规模扩展和安全问题。我们希望通过这篇文章，使读者全面了解 CoT 推理和语言智能体这些研究领域，并理解它们之间的联系。本文适合各个层次的读者，无论是希望全面了解 CoT 推理和语言智能体的新手，还是对这些领域的基础原理感兴趣、想参与最新讨论的资深研究者。

January 15, 2024

技术领导者需要知道的 5 个关于生成式 AI 的残酷真相 [译]

生成式 AI (Generative AI) 已经无处不在。各行各业的组织正迫切要求他们的团队加入这场风潮 — 有 77% 的商业领导担心他们已经错过了利用生成式 AI 的机遇。数据团队正在努力应对这一挑战。但是，打造一个真正能促进商业增长的生成式 AI 模型并非易事。长期来看，仅依靠快速接入 OpenAI API 是远远不够的。我们谈论的是生成式 AI，但你的竞争优势在哪里？为什么用户会选择你而不是 ChatGPT？

January 14, 2024

我试验了高级 AI 提示词的效果，结论：它们并不值得 [译]

为了验证高级 ChatGPT 提示词是否物有所值，我们投入了约 80 美元购买了五个此类提示词，并在市场团队成员中进行了盲测。简而言之：它们并不值得。

January 14, 2024

大语言模型在长上下文中的信息检索应用 [译]

大语言模型的上下文窗口扩展最近变得非常流行。而长期以来，结合信息检索和大语言模型的方法也受到关注。这引发了几个问题：*i) 在下游任务中，到底是信息检索增强更好，还是长上下文窗口更有优势？* *ii) 能否将这两种方法结合，以吸取各自的长处？* 我们通过研究两种领先的预训练大语言模型——43B GPT 和 LLaMA2-70B，来探讨这些问题。有趣的是，我们发现，即使是使用简单的信息检索增强，在长上下文任务中具有 4K 上下文窗口的大语言模型也能达到与经过特别优化处理、具有 16K 上下文窗口的大语言模型相媲美的表现，而且所需的计算资源更少。更为重要的是，我们证明了信息检索技术能显著提升大语言模型的性能，无论其上下文窗口的大小如何。我们最优秀的模型——结合了信息检索技术的 LLaMA2-70B，并拥有 32K 的上下文窗口，在包括问答和基于查询的摘要在内的七项长上下文任务上，其平均得分超越了 GPT-3.5-turbo-16k 和 Davinci003。与此同时，这个模型在生成速度上也比它的非检索版 LLaMA2-70B-32k 快得多。我们的研究为那些在信息检索增强与大语言模型长上下文扩展之间做选择的从业者提供了宝贵的洞见。

January 14, 2024

在实际应用中进行主题建模 —— 利用 LangChain 把从临时性 Jupyter 笔记本转变为实际生产的模块化服务 [译]

January 14, 2024

打造一个完全本地化的大语言模型 (LLM) 语音助手来管理我的智能家居 [译]

经历过 Siri 和 Google 助手之后，我发现尽管它们能够控制各种设备，但却无法进行个性化定制，并且不可避免地依赖于云服务。出于对新知识的渴望*以及*想在生活中使用一些酷炫的东西，我下定决心，要追求更高的目标。

January 14, 2024

科学与工程助力更优秀的文本生成 [译]

当前的文本生成技术，例如 ChatGPT，存在诸多问题：不够可靠、使用起来复杂、功能有限，而且开发与运行成本极高。这些问题源于它们的底层技术。但有可能通过全新的方法来彻底解决这些问题。这会是件好事，还是坏事呢？

January 14, 2024

构建全球通用机器人大脑的宏伟项目 [译]

生成式 AI 革命的显著成果体现在 ChatGPT、Midjourney 等工具上。这一革命的核心，是基于这样一个简单的思路：使用一个庞大的神经网络，用互联网上海量的数据进行训练，然后用它来响应广泛的用户需求。大型语言模型（LLM）可以回答问题、编写代码、创作诗歌，而图像生成系统则能够创造出逼真的洞穴壁画或当代艺术作品。那么，为什么这些令人惊叹的 AI 技术还没有转化为像科幻小说中那样有用且广泛应用的机器人？为什么还没有能够整理桌面、折叠衣服、做早餐的机器人呢？

January 13, 2024

在构建检索增强型生成系统时的七大挑战 [译]

随着软件工程师不断探索将语义搜索功能整合入应用程序，一种被称为检索增强型生成（Retrieval Augmented Generation, RAG）的策略应运而生。这种策略主要是找到与查询内容语义相符的文档，然后借助大语言模型（Large Language Model, LLM），比如 ChatGPT，来提取精准答案。RAG 系统的目标包括：a) 减少由大语言模型产生的不切实际的回答，b) 为生成的回答添加来源和参考链接，以及 c) 降低对文档元数据标注的依赖。但是，这一系统也存在其局限性，这些局限性源于信息检索技术本身及对大语言模型的依赖。本文中，我们将分享从三个不同领域（研究、教育和生物医学）的案例研究中得出的 RAG 系统的失败经验。我们总结了这些经验教训，并提出在设计 RAG 系统时应考虑的七大挑战。本研究的两个主要发现是：1) RAG 系统的有效性验证只能在实际运行中进行，2) RAG 系统的健壮性是随着时间逐渐发展而非一开始就固有的。最后，我们为软件工程界提出了一些关于 RAG 系统的潜在研究方向。

January 13, 2024

大语言模型能取代编译器吗？ [译]

我和 Kevlin Henney 最近讨论了一个问题：将来的自动代码生成工具，比如升级版的 GitHub Copilot，是否有可能取代现有的高级编程语言。我们具体想知道的是，ChatGPT N（N 很大）是否能跳过用高级语言编写代码的步骤，直接生成像今天的编译器那样的可执行机器代码？

January 12, 2024

专访：凯文·凯利，多面才子，未来学思想领袖 [译]

Elon Musk 是一个充满争议的人物。我的目的，如同往常，是为了在喧嚣、复杂或难以理解的话题中增添一些细致见解和清晰信号。不论你对 Elon 怎样看，我认为推动讨论走向更深入、更有意义的交流是非常有价值的，同时希望这不会给我带来太多风险。问题在于，市面上 99% 的批评都出于恶意且不准确，导致大多数人缺乏理解 Elon 行动动机和目的的必要背景。这是个问题，因为 Elon 是一位颇具影响力和远见的领导者，他的公司在传递变革性技术的过程中扮演着越来越重要的角色。

January 12, 2024

探究推理步骤长度对大语言模型的影响 [译]

在增强大型语言模型（LLMs）推理能力的过程中，“思维链”（Chain of Thought，简称 CoT）扮演着关键角色。但是，CoT 效果与其推理步骤的长度之间的具体联系还不太明确。为了弄清楚这一点，我们开展了一系列实证实验。我们的实验主要围绕在 CoT 示范中对推理步骤进行扩展或压缩，同时保证其他所有因素不变。我们的研究发现了几个重要点。首先，结果显示，即使不在提示信息中加入新内容，增加推理步骤也能显著提升 LLMs 在各种数据集上的推理表现。相反，减少推理步骤即便保留了核心信息，也会明显削弱模型的推理能力。这一点强调了 CoT 中推理步骤数量的重要性，并为在解决复杂问题时更有效地利用大语言模型提供了实用的指导。其次，我们还研究了 CoT 的效果与示范中使用的推理理由之间的关系。出乎意料的是，即便是错误的推理理由，只要保持了足够的推理步骤长度，也能取得不错的效果。最后，我们发现，增加推理步骤的益处取决于任务的性质：简单任务需要较少的推理步骤，而在处理更复杂的任务时，更长的推理过程则会带来显著的优势。

January 12, 2024

你唯一需要精通的事情 [译]

有一篇关于斯多葛主义的小文章，自我读过以后，对我的生活产生了深远的影响。可能是我成年之后第一次，我觉得自己没有浪费太多时间。我感觉自己已经做好了迎接挑战的准备。

January 12, 2024

哪些信号表明该离开公司寻找新的工作机会了... [译]

当公司停止发展，创始人离职，人事部门开始主导大局，或者高层更关心房产而非产品时...那就意味着，你该寻找新的工作机会了。

January 11, 2024

性能提升👆，复杂度降低👇：Shopify 工程部的重大革新 [译]

在 Shopify，追求技术卓越是我们的宗旨。我们始终致力于基础设施的完善，即便这些努力的成果不总是一目了然。我们经常通过简化系统来改进基础设施。这种持续的简化是创新的基础。为什么这么说呢？因为虽然并非所有快速软件都卓越，但所有卓越的软件一定是高效快速的。对我们的商户而言，每一毫秒都极为宝贵。这就意味着我们的系统不仅要易于扩展，还要避免复杂繁琐的架构。

January 11, 2024

通过在粘贴的文本中加入不可见指令，实现对大语言模型的提示注入 [译]

我重新审视了我此前的推文，关于这是近几周来最重要的提示注入发现。事实上，这是自提示注入出现以来最大的技术突破和安全挑战。

January 11, 2024

拥抱 Hugging Face：我们的初创公司并购幕后 [译]

2021 年末，我们这个遍布全球的五人工程师团队，签署了关闭我们初创公司 Gradio 的文件。对大多数创始人而言，这通常是一个伴随着悲伤或深刻反思的时刻。但我们却在庆祝。因为我们即将被 Hugging Face 收购！这次收购是我们辛勤努力的成果，但在几周时间里，一直被一位投资者所阻挠。我们对他施加的压力越大，他就越坚决不签署收购协议。然而出乎意料的是，这位投资者最终让步，使我们得以加入 Hugging Face。这是自从被收购以来，我首次详细记录这段经历。我希望这能够揭开初创企业被收购的神秘面纱，同时也展示创始人们为了提高成功被收购的几率可以做出哪些决策。

January 11, 2024

文本分割的五个层次 [译]

在这个教程中，我们将探讨文本分割的五个层次。这份非官方的列表是为了增添趣味和教育目的而编制的。是否曾尝试向 ChatGPT 输入长篇文本，却被告知内容过长？或者你在尝试改善应用程序的长期记忆能力，但似乎效果仍不理想。要提升语言模型应用的性能，一个非常有效的策略是将大型数据切分为小块。这个过程被称为分割或分块（这两个术语我们将交替使用）。在多模态领域中，这种分割同样适用于图像。我们将介绍很多内容，但如果你能坚持阅读到最后，我保证你将对分块理论、策略以及进一步学习的资源有一个全面的了解。

January 11, 2024

如何做出艰难的决策 [译]

做决策其实并不复杂。在大多数情况下，我们心里已经有答案。然后我们却花费几周时间来自我说服，认为这是最佳的选择。有时，我们甚至永远无法下定决心。我们为何如此自我折磨？1. 首先，是因为我们总认为做重要决策应该很困难。我们甚至可能希望它困难。因为如果我们花很长时间而不是短暂考虑后做出决策，最后却失败了，我们可以找到合理的借口 —— “但我已尽全力！”2. 其次，我们总是尽力寻找最佳方案。因为我们面临的风险非常大。这直接导致了一种被称为“分析瘫痪”的怪圈，我们在其中陷入漫长的迷茫。

January 11, 2024

为何你应该计划完成更少的任务 [译]

“计划谬误”是指我们在预测个人生产力时的自然偏差：我们倾向于着眼于最佳情景，或者非常接近的情况，但这种情况很少实现。

January 11, 2024

ChatGPT 在编程中的有效性：与其他流行大语言模型的比较分析 [译]

本研究旨在探究 OpenAI 的 ChatGPT 模型在编程任务中的有效性和效率，该模型基于 GPT-3.5 和 GPT-4 技术。研究目的是了解 ChatGPT 对编程和软件开发的潜在影响。我们采用定量方法，使用 Mostly Basic Python Problems (MBPP) 数据集来衡量这些模型的表现。研究不仅对 GPT-3.5 和 GPT-4 进行了直接评估，还包括了与 AI 领域其他知名大语言模型的比较，特别是 Google 的 Bard 和 Anthropic 的 Claude，以此衡量和比较它们在同样任务上的熟练程度。研究结果凸显了 ChatGPT 模型在编程任务上的优势，为 AI 社区，特别是开发者和研究人员提供了有价值的洞见。随着人工智能技术的广泛应用，本研究为 AI 辅助编程的发展提供了一份及时的参考。

January 11, 2024

执行大项目的精髓：目标定位、迅速行动、灵活调整 [译]

我登录了 StickK.com，一个创建承诺合约的平台，并在那里立下了一个挑战：我计划在未来 9 个月里完成一部小说，并在年底前交给我的文学代理人审阅。我不仅与我的朋友们分享了这一承诺，还在包括 10 万播客听众在内的多个公共场合公开讨论了这一计划。这个挑战的风险有多大？如果我没能完成，我就要向一个我并不支持的所谓“反慈善”组织捐赠 9999 美元，这是 StickK 平台允许的最高金额。剧透一下：我最终成功了，在年底前的最后一小时，我几乎耗尽了所有精力。在完成初稿之后，我甚至抽出一天时间，利用 AI 制作了一部小说预告片。但重要的是，尽管我对这个挑战充满信心，当我签订这个合约时，却根本无法确定能否成功：近 10 年来，我几乎未曾涉足小说创作。虽然我写作能力不错，但历来写作速度不快。我还需要管理一家需要大量时间和精力的公司。那么，我是怎样坚信自己能够完成这个挑战的呢？

January 10, 2024

给年轻人的忠告，我对自己的自欺 [译]

我并不认为自己有资格给出建议。但许多人在 Twitter 上私信我，询问我的想法，所以我写下了这些话。这样，我就不需要反复回答相同的问题了。编辑这篇文章的过程中，我发现我实际上是在为我年轻的妹妹 Katherine 分享我的经验。

January 10, 2024

比尔·盖茨–1986 [译]

January 9, 2024

即使在理想情况下，信用卡诈骗也是会存在的 [译]

近日，我接受了 NPR 的 Planet Money (播客，文字记录) 的采访，讨论信用卡诈骗的一个特别形式。有个观点未能播出，那就是：“理想情况下，诈骗的存在不应为零。”这个说法听起来可能有些违反直觉，甚至显得有些矫情。但实际上，这是一个值得信赖的观点。

January 9, 2024

你需要的不仅是韧性，更需要朋友和金钱 [译]

许多商业书籍强调培育心理韧性来应对困境，却忽视了更重要的因素。韧性已成为一门盛行的生意。机场书店充斥着各种关于“为何有人能成功而他人却失败”的书籍，或承诺教你培养“无敌的心理韧性”。TED 演讲、播客和社交媒体上充满了介绍韧性人士的三至五个特点，如乐观、坚韧和成长心态。随着管理界认识到成功背后往往隐藏着无数次的失败，关于如何从失败中恢复的建议也应运而生，这些建议通常源自精英军事部队或极限运动员的经验。作为管理思维领域近 20 年的从业者，我编辑和采访过许多这样的影响者。然而，这些良好意图的建议者却给人留下了两个误解：首先，认为韧性很罕见；其次，认为韧性几乎完全来自内心。事实上，这两点都不正确。

January 9, 2024