思维链CoT进化成思维图GoT，比思维树更优秀的提示工程技术诞生了

机器之心Pro 2023-08-29 00:05:50

机器之心报道

编辑：Panda W

用图的推理能力来设计 prompt，思维图能助力 LLM 解决更复杂的任务。

(资料图片)

要让大型语言模型（LLM）充分发挥其能力，有效的 prompt 设计方案是必不可少的，为此甚至出现了 prompt engineering（提示工程）这一新兴领域。

在各种 prompt 设计方案中，思维链（CoT）凭借其强大的推理能力吸引了许多研究者和用户的眼球，基于其改进的 CoT-SC 以及更进一步的思维树（ToT）也收获了大量关注。

近日，苏黎世联邦理工学院、Cledar 和华沙理工大学的一个研究团队提出了更进一步的想法：思维图（GoT）。让思维从链到树到图，为 LLM 构建推理过程的能力不断得到提升，研究者也通过实验证明了这一点。他们也发布了自己实现的 GoT 框架。

研究论文：/pdf/

官方实现：/spcl/graph-of-thoughts

论文概览

大型语言模型正在变成人工智能世界的主导技术。近些年高速发展的模型主要基于仅解码器 Transformer 的变体，比如 GPT、PaLM 或 LLaMA。

而在解决不同的 LLM 任务时，prompt 工程设计是一种能高效利用资源的方法。简单来说，就是在发送给 LLM 的输入中包含对任务的描述。如果能以适当的形式描述该任务，那么 LLM 就能借助其用于生成文本的基于自回归 token 的机制来解决该任务。这样的 prompt 可能包含带有解答的示例任务（少样本 prompt 设计，也被称为上下文学习（ICL），也可能完全不包含示例任务（零样本 prompt 设计）。近些年的研究和应用表明，这一机制可用于解决涉及数学、常识或符号推理的多种类型的任务。

思维链（CoT）便是一种用于设计 prompt 的方法，即 prompt 中除了有任务的输入和输出外，还包含推理的中间步骤（中间思维）。研究表明，CoT 能极大地提升 LLM 的能力，使之无需任何模型更新便能解决一些难题。

也有研究者改进了 CoT，提出了使用 CoT 实现自我一致的方法（CoT-SC）；这个方案是生成多个 CoT，再选出其中最佳的结果。

最近还有研究者更进一步提出了思维树（ToT），其做法是通过树（tree）来建模 LLM 推理过程。这能让模型使用不同的思维路径，并能提供全新的功能，比如基于不好的结果反向回溯推理过程。不幸的是，由于 ToT 方法为思维过程强加了严格的树结构，所以会极大限制 prompt 的推理能力。更多详情请参阅机器之心文章《思考、思考、思考不停歇，思维树 ToT「军训」LLM》。

苏黎世联邦理工学院、Cledar 和华沙理工大学的这个研究团队认为，如果能将 LLM 的思维构建成任意的图结构，那么就能为 prompt 的能力带来重大提升。他们表示，这一想法受到了多种现象的启发，比如人类的推理方式、大脑结构和算法的执行方式。

在进行思考时，人类不会像 CoT 那样仅遵循一条思维链，也不是像 ToT 那样尝试多种不同途径，而是会形成一个更加复杂的思维网。举个例子，一个人可能会先探索一条思维链，然后回溯再探索另一条，然后可能会意识到之前那条链的某个想法可以和当前链结合起来，取长补短，得到一个新的解决方案。类似地，大脑会形成复杂的网络，呈现出类似图的模式，比如循环模式。算法执行时也会揭示出网络的模式，这往往可以表示成有向无环图。

研究者表示，如果将这种对应的图使能的变换用于 LLM 思维，那么有望创造一种强大的设计 prompt 的方法，但这种变换无法通过 CoT 或 ToT 自然地表达出来。

然后他们观察到：如果将 LLM 的推理过程建模成图，那么就能自然地实现这些以及其它许多思维变换。基于这一观察，他们提出了思维图（GoT/Graph of Thoughts），这种方法可以通过网络形式的推理来增强 LLM 的能力。

在 GoT 中，一个 LLM 思维会被建模成一个顶点，顶点之间的依赖关系则建模为边。使用 GoT，通过构建有多于一条输入边的顶点，可以将任意思维聚合起来。整体而言，GoT 使用的图抽象方法可无缝地将 CoT 和 ToT 泛化到更复杂的思维模式，而且这个过程无需更新模型。

然而，要实际实现 GoT，还需要解决一些设计上的挑战。比如，对于不同的任务，最佳的图结构是什么样的？为了最大化准确度和最小化成本，聚合思维的最好方法是什么？

为了解答这些问题以及更多其它问题，这些研究者设计了一种实现 GoT 的模块化架构。该设计有两大亮点。

一是可实现对各个思维的细粒度控制。这让用户可以完全控制与 LLM 进行的对话并使用先进的思维变换，比如将正在进行的推理中两个最有希望的思维组合起来得到一个新的。

二是这种架构设计考虑了可扩展性 —— 可无缝地扩展用于新的思维变换、推理模式（即思维图）和 LLM 模型。这让用户可使用 GoT 快速为 prompt 的新设计思路构建原型，同时实验、GPT-4 或 Llama-2 等不同模型。

研究者也展现了 GoT 的一些用例（排序、摘要的关键词计数、集合运算、文档合并），他们还详细说明了如何使用基于图的范式来实现它们。他们通过实验评估了 GoT，展现了其相对于其它当前最佳方法的优势。

研究者表示，整体而言，GoT 尤其适用于可自然分解成更小子任务的任务，并且这些子任务可以分开解决，然后融合成一个最终解答。在这方面，GoT 的表现优于其它方案，比如在排序任务上，GoT 分别优于 CoT 和 ToT 约 70% 和 62%，同时成本还比 ToT 低 31% 以上。

表 1 给出了 GoT 与其它 prompt 设计方案的定性比较。GoT 是唯一一种能在一个 prompt 内实现任意基于图的思维变换的方案（比如聚合），从而能将之前的所有方案囊括进来。

他们还有另一项贡献，即提出一种新的评估指标 —— 思维容量（the volume of a thought），可用于评估 prompt 设计策略。研究者表示，使用这一指标的目标是更好地理解 prompt 设计方案之间的差异。

对于一个给定的思维 v，v 的容量是指 LLM 思维的数量，用户可以基于此使用有向边得到 v。直观上说，这些就是有望对 v 做出贡献的所有 LLM 思维。

作者通过研究表明，通过整合聚合等思维变换技术，GoT 能让思维容量比其它方案显著更大。

GoT 框架

下面详细介绍一下 GoT 框架。其示意图见图 1，图中还给出了其它 prompt 设计策略的示意图。

在数学形式上，GoT 可以建模为一个元组 (G, T, E, R)，其中 G 是 LLM 推理过程（即上下文中的所有 LLM 思维及其关系），T 是可能的思维变换，E 是用于获得思维分数的评估器函数，R 是用于选择最相关思维的排序函数。

推理过程

这里，推理过程被建模为一个有向图 G = (V, E)，其中 V 是一组顶点，E ⊆ V × V 是一组边。G 是有向的，因此边是有序顶点对 E ⊆ V × V 的子集。一个顶点包含对当前问题的一个解答，不管这个问题是最初的问题、还是中间问题或最后的问题。这种思维的具体形式取决于用例；其可能是一段文本（在写作任务中），也可能是一个数值序列（在排序任务中）。有向边 (t_1, t_2) 表示思维 t_2 的构建方式是将 t_1 用作「直接输入」，即通过明确指示 LLM 使用 t_1 来生成 t_2。

在某些用例中，图节点属于不同类别。举个例子，在写作任务中，某些顶点建模写出一段文本的计划，其它节点则建模实际的文本段。在这种情况下，GoT 采用异构图 G = (V, E, c) 来建模 LLM 推理，其中 c 将顶点 V 映射到各自的类 C（在上述案例中，C = ）。这样一来，任何顶点 v 都可以建模推理的不同方面。

于是 G 就与 LLM 推理过程关联了起来。为了推进这一过程，用户可对 G 使用思维变换。举个这种变换的例子：将目前为止分数最高的思维融合成一个新的。另一个例子是对一个思维进行循环，以对其增强。注意，这些变换严格扩展了 CoT、CoT-SC 或 ToT 中可用转换的集合。

思维变换

得益于将基于图的模型用于推理，GoT 能实现全新的思维变换。研究者称之为图使能的变换（graph-enabled transformation）。比如，在写作任务中可以将多篇输入文章组合成一篇连贯一致的摘要。在排序时，可将多个已排序的数值子数组合并为一个最终已排序数组。图 2 给出了聚合和生成的示例。

从数学形式上讲，每个这样的变换都可以建模成 T (G, p_θ)，其中 G = (V, E) 是反映推理当前状态的图，p_θ 是所使用的 LLM。T 修改 G 的方式通常是通过添加新顶点及其传入边。于是有 G′ = T (G, p_θ) = (V′, E′)，其中 V′ = (V ∪ ) \ 且 E′ = (E ∪ ) \ 。V^+ 和 E^+ 是注入到 G 中的新顶点和边，它们分别建模的是新的思维和它们的依赖关系。

为了最大化 GoT 的表达能力，用户还可以删除思维，做法是指定要删除的相应顶点和边（分别为 V^− 和 E^−）。在这里，确保集合 V^+、E^+、V^− 和 E^− 有一致的变换是用户的责任（举个例子，用户不会尝试删除不存在的顶点）。这使得 prompt 方案能无缝整合，其中用户可以为了节省上下文中的空间而移除无法带来提升的推理部分。

T 的具体形式及其影响 G 的方式取决于具体的变换。下面首先详细介绍主要几个图使能的思维变换，然后会描述 GoT 何以囊括之前方案的变换。除非另有说明，V^− = E^− = ∅。

聚合变换：用户可以使用 GoT 将任意思维聚合成新思维，实现取长补短。这里看看只创建一个新顶点的基础形式：V^+ = 且 E^+ = {(v_1, v^+), ...,(v_k, v^+)}，其中 v_1, ..., v_k 是被融合的 k 个思维。更一般而言，这能实现对推理路径的聚合，即更长的思维链，而不只是单个思维。使用图模型，可以轻松实现聚合变换：通过添加来自建模了几条链中最后思维的顶点 v_1, ..., v_k 的传出边，使之指向组合这些链的单个思维 v^+。

细化变换：另一种思维变换是通过修改内容对当前思维 v 进行细化：V^+ = {} 和 E^+ = {(v, v)}。图中的这个循环表示与原始思维有同样连接的迭代版思维。

生成变换：最后，用户还可以基于已有的单个思维 v 生成一个或多个新思维。这一类别中包含 ToT 或 CoT-SC 等更早期方案中的类似推理步骤。从数学形式上讲，有

对思维进行评分和排名

对思维评分的目的是为了理解当前的解答是否足够好。分数被建模为一个一般函数 E (v, G, p_θ)，其中 v 是所要评估的思维。为了尽可能让 E 更普适通用，E 中还使用了推理的整个过程 (G)，因为在某些评估场景中，分数可能与其它思维相关。

GoT 也能排名。研究者使用了函数 R (G, p_θ, h) 来建模，其中 h 指定了要被 R 返回的 G 中排名最高的思维的数量。虽然 R 的具体形式取决于用例，但最常使用一个简单而有效的方法是返回分数最高的 h 个思维，即 v_1, ..., v_h = R (G, p_θ, h)。

E 和 R 的具体形式取决于用例。

系统架构和扩展能力

GoT 由一组交互式模块构成，见图 3（蓝色部分）。这些模块是 Prompter（准备用于 LLM 的消息）、Parser（解析器，提取 LLM 答复中的信息）、评分模块（验证 LLM 答复并评分）、Controller（控制器，协调整个推理过程，并决定如何推进推理）。Controller 中包含另外两个重要组件：操作图（GoO）和图推理状态（GRS）。GoO 是一个静态结构，其指定了对给定任务的图分解，即它规定了应用于 LLM 思维的变换及其顺序和依赖关系。GRS 是一个动态结构，其维持着正在进行的 LLM 推理过程的状态（其思维及其状态的历史）。

用例示例

研究者描述一些 GoT 的一些用例，包括排序、集合运算、关键词计数、文档合并；下图 4 便是 GoT 的排序用例中一个图分解示例。这里我们不对用例做详细介绍，详情参阅原论文。

延迟与容量的权衡

延迟（在思维图中抵达给定最终思维的跳数）和容量之间的权衡也非常重要，研究者表明：GoT 在这一权衡上也优于之前的 prompt 设计方案。这篇论文定义了一个新指标 —— 思维容量，即可以影响给定思维 t 的之前 LLM 思维的数量。从数学上看，思维 t 的容量就是在思维图中，与 t 之间存在路径的思维的数量。研究者假设输出单个思维的成本为 O (1)，并将每个提示方案的总成本固定为 Θ(n)。

各种方案的结构如下。CoT-SC 由源自单个起始思维的 k 条独立链构成。ToT 是一条完全 k 叉树。而在 GoT 中，会在其叶节点处加入一个完全 k 叉树，并带有一个「镜像」k 叉树 —— 其大小一样而边是反向的。

详细分析见表 2。CoT 的容量较大，最大可至 N，但也有 N 的高延迟成本。CoT-SC 将延迟降低了 k 倍（对应于其分支因子），但同时其容量也会减小 k 倍。ToT 的延迟为 log_k N，但容量也很低。GoT 是唯一能做到低延迟 log_k N 和高容量 N 的方案。GoT 之所以能做到这一点，是因为其利用了思维聚合，使其可从图分解中任何其它中间思维得到最终思维。

评估

研究者通过实验展现了 GoT 相对于其它方案的优势。其中重点比较的是 GoT 和 ToT，因为 ToT 的表现已经优于其它方案了。当然，他们也还是用 IO、CoT 和 CoT-SC 做了些实验。

图 5（排序）、6（集合交集）、7（关键词计数）、8（文档合并）展示了实验结果。

总体而言，在实验评估过的所有基准上，GoT 的输出质量都优于 ToT，并且还实现了更低的推理成本。

思维链CoT进化成思维图GoT，比思维树更优秀的提示工程技术诞生了

思维链CoT进化成思维图GoT，比思维树更优秀的提示工程技术诞生了

民生证券：给予恒生电子买入评级

《铁拳8》预购开启 国区售价348元

“法国人走吧”！

湖南尔康制药氨基己酸注射液通过仿制药一致性评价

云南云县：万亩甘蔗园千万大产业

“煤炭一哥”中国神华上半年净利润同比下滑19.2% 预计后市煤价仍会下行

一年被潜规则上百次，半夜撬门“施暴”，吴京一句话说尽残酷现实

官宣！深圳福利！2.7万+的人才房来了，大专可申请…

开勒股份8月28日快速回调

【深圳诗歌】No.82126期B版||捡来的儿子（小小说） 李向菊

睿智医药股东户数下降10.91%，户均持股15.79万元

七月十五是什么节日是鬼节吗 七月十五是什么节日

2500吨海上风电安装平台“海峰1001” 试航凯旋！

百亿级私募最新持仓曝光 科技与消费行业受到青睐

LPL解说杯变成Doinb的“炸鱼杯”，无聊又无趣，性质完全变味了！

“民主公交”遇上开学季 九成民意事关教育

比赛日：曼城险胜+曼联利物浦超级逆转 皇萨仁告捷

IGN《黑神话悟空》19分钟实机演示：看猴哥降妖除魔

广西法院2021年至2023年上半年受理银行卡纠纷案11.49万件

日媒：日本准航母“出云”号首次停靠菲律宾首都，自卫队官员言论“对准中国”

安徽交通事故赔偿多少

国台办：坚决反对美国向中国台湾地区出售武器

豪华阵容！武汉三镇确定亚冠6外援人选：全力冲击亚冠冠军！

前3场西甲联赛打进4球，贝林厄姆是皇马历史第8人

蓝牙适配器是什么东西 蓝牙适配器是什么

强化“大国重器”责任担当 国机重装上半年实现营收净利润双增长

财政部：延续实施全年一次性奖金个人所得税政策

Antecedent variable antecedent

东京股市明显反弹 日经指数28日收涨1.73%

9月30号到10月6号，福气进门，财运势旺盛的3大属相

重磅车型云集 助力消费提振 2023成都国际汽车展览会将于8月25日开幕

菊花鱼头豆腐煲(关于菊花鱼头豆腐煲简述)

骁龙778G+256GB存储+1亿像素，一款售价1345元的红米手机

渠道布局提速，黄金产品高增贡献业绩增量

360杀毒好嘛（360杀毒软件好用吗）

“没什么坏心眼”的人，身上有5个特征，值得深交

《武林外传》官微：浙江卫视节目侵权

新研究揭示：太空失重环境会降低人体免疫系统抗癌抗病毒效力

特斯拉回应大V纠纷案：一审判决向特斯拉致歉，上海车展事件在审理中

超实用！小空间如何打造舒适的办公区？

受降雨影响 河南超汛限水位大中型水库达到32座

在近期，柳暗花明，旧爱回归，余情未了，破镜重圆的四大星座！

爱康科技：上半年净利润同比翻番 异质结领军企业曙光已现

不吹不黑，一加 Ace 2 Pro使用了8天，说一下使用感受

火锅底料配方自制（火锅底料配方）

俄国防部称拦截两架飞越黑海水域的无人机

港交所：两部门关于减半征收证券交易印花税的调整亦适用于沪股通及深股通

2023北京海淀温泉首届田园趣野夏日嘉年华开幕，打造田园风光+时尚消费+休闲娱乐综合消费场景

人民网评：捕捉精彩光影，见证时代步伐与身边美好

大桥，架起梦想之路

可以在琥珀假日天地买房吗现在，琥珀假日天地限购细则你清楚多少！

泸州知名景点？

深交所将融资保证金比例降至80%

丝路视觉：截至2023年8月18日，公司在册股东为22760户

女士6元擒大乐透2323万 用家人生日组号刚守1年

哈登被联盟罚款10万美元，记者揭骂莫雷“骗子”背后真相！

安徽广播电视台 席国民

小区护坡塌方 快半年无人处理

《极限逃生》开机 吴昱翰徐璐演绎灾难动作喜剧

智立方：2023年半年度净利润约3637万元 同比下降11.95%

自然资源部与中国气象局8月26日18时联合发布地质灾害气象风险预警

莲花健康：终止收购杭州金羚羊不低于20%股权

挂机做任务的手游 可以挂机的网游任务少的

龙凤区开展危险化学品专项检查工作

爱奇艺同时下载数量修改方法

榨油机全套设备 新型榨油机

天狼星资本创始管理合伙人沈海伦：AI狂潮中的变与不变

力合科技：公司是国内较早从事环境监测系统研发、生产和销售的企业

苹果计划扩大印度零部件生产规模！但税收优惠没戏

菜鸟大反击(关于菜鸟大反击简述)

新锐股份拟使用部分超募资金回购股份

夏威夷毛伊岛大火亲历者：我们是靠自己活下来的

云南普洱破获特大运输毒品案 缴获冰毒20余公斤

孩子发烧能玩水吗

铁路餐车图鉴！在火车，感受舌尖上的时代变迁

上海证券给予爱美客买入评级，Q2业绩超预期，期待下半年新品销售放量

燃油期货三连跌！新加坡库存创3周来最高水平，机构称后市或将弱势回调

陕西发布地质灾害黄色预警 滑坡崩塌泥石流等可能性较大

《铁拳8》预购开启国区售价348元

【深圳诗歌】No.82126期B版||捡来的儿子（小小说）李向菊

七月十五是什么节日是鬼节吗七月十五是什么节日

百亿级私募最新持仓曝光科技与消费行业受到青睐

“民主公交”遇上开学季九成民意事关教育

比赛日：曼城险胜+曼联利物浦超级逆转皇萨仁告捷

蓝牙适配器是什么东西蓝牙适配器是什么

强化“大国重器”责任担当国机重装上半年实现营收净利润双增长

东京股市明显反弹日经指数28日收涨1.73%

重磅车型云集助力消费提振 2023成都国际汽车展览会将于8月25日开幕

受降雨影响河南超汛限水位大中型水库达到32座

爱康科技：上半年净利润同比翻番异质结领军企业曙光已现

女士6元擒大乐透2323万用家人生日组号刚守1年

安徽广播电视台席国民

小区护坡塌方快半年无人处理

《极限逃生》开机吴昱翰徐璐演绎灾难动作喜剧

智立方：2023年半年度净利润约3637万元同比下降11.95%

挂机做任务的手游可以挂机的网游任务少的

榨油机全套设备新型榨油机

云南普洱破获特大运输毒品案缴获冰毒20余公斤

陕西发布地质灾害黄色预警滑坡崩塌泥石流等可能性较大

北京持续增强人才吸引力和承载力为落地企业提供“管家式”服务

联想首推智算中心解决方案和服务三种交付方式支持三类混合计算需求

山东省内大学录取分数线山东省内大学

保卫萝卜4的第27关怎么过保卫萝卜4泡泡塔

全市场：摩纳哥4500万欧加奖金报价巴洛贡博阿杜可能离队