裙底 偷拍
艳照门事件完整视频 你的位置:裙底 偷拍 > 艳照门事件完整视频 > www.kk44kk 打脸!GPT-4o输出长度8k皆拼凑,陈丹琦团队新基准测试:扫数模子输出皆低于标称长度

www.kk44kk 打脸!GPT-4o输出长度8k皆拼凑,陈丹琦团队新基准测试:扫数模子输出皆低于标称长度

发布日期:2025-01-16 10:58    点击次数:59

www.kk44kk 打脸!GPT-4o输出长度8k皆拼凑,陈丹琦团队新基准测试:扫数模子输出皆低于标称长度

许多大模子的官方参数皆宣称我方可以输出长达32K tokens的内容www.kk44kk,但这数字内容上是存在水分的??

最近,陈丹琦团队建议了一个全新的基准测试器具LONGPROC,专门用于检测长高下文模子处理复杂信息并生成复兴的才能。

实验遵守有点令东谈主不测,团队发现,包括 GPT-4o 等起首进的模子在内,尽管模子在常用长高下文回忆基准上弘扬出色,但在处理复杂的长文生成任务时仍有很大的改良空间。

具体来说,测试的扫数模子皆宣称我方高下文窗口大小跳跃 32K tokens,但开源模子一般在 2K tokens 任务中就弘扬欠安,而 GPT-4o 等闭源模子在 8K tokens 任务中性能也彰着着落。

例如来说,让 GPT-4o 模子生成一个详备的旅行策动时,即使提供了相干的时刻节点和直飞航班认知,在模子的生见遵守中仍然出现了不存在的航班信息,也即是出现了幻觉。

这到底是怎么回事呢?

全新 LONGPROC 基准

当今现存的长高下文言语模子(long-context language models)的评估基准主要集结在长高下文回忆任务上,这些任务要求模子在处理盛大无关信息的同期生成轻视的响应,莫得充分评估模子在整合散播信息和生成长输出方面的才能。

为了进一步精准检测模子处理长高下文并生成复兴的才能,陈丹琦团队建议了全新的 LONGPROC 基准测试。

从表 1 中各测试基准的对比可以看出,只消 LONGPROC 基准同期同意 6 个要求,包括复杂的经由、要求模子输出大于 1K tokens、且提供笃定性的管理决策等。

新基准包含的任务

具体来说,LONGPROC 包含6个不同的生成任务:

1.HTML 到 TSV:要求模子从 HTML 页面中索取指定信息并花式化为表格。需要从复杂的 HTML 结构中郑重地索取扫数相干信息,并将其正确花式化。

比如从底下的网页中索取出扫数影片的信息:

2. 伪代码生成代码:要求模子将伪代码翻译成 C++ 代码。需要保抓源代码和想法代码之间的逐个双应关系,并确保翻译的正确性。

3. 旅途遍历:要求模子在假定的人人交通收罗中找到从一个城市到另一个城市的旅途。需要确保旅途的惟一性和正确性。

4.Theory-of-Mind 追踪:要求模子追踪故事中对象位置的想想变化。需要进行长距离的推理,以准确反馈对象在不同手艺点的位置和景象。

比如把柄底下的翰墨讲演揣摸出" Alice 以为札记本在那里":

5.Countdown 游戏:要求模子使用四个数字和基本算术操作找到达到想法数字的设施。需要进行深度优先搜索www.kk44kk,并确保搜索过程的好意思满性和正确性。

比如鄙人面的示例中,要求模子用四则运算操作输入的数字,最终得出 29 的遵守:

6. 旅行策动:要求模子生成同意多种料理的多城市旅行策动。需要探索多种可能的行程安排,并确保扫数料理要求得到同意。

如下图所示,图中要求模子把柄任务提供的欧洲行程策动和直飞航班策动最好的旅行时刻安排:

在输出遵守的同期,LONGPROC 还会要求模子在推行详备门径辅导的同期生成结构化的长花式输出 。

从表 2 中可以看出,除了对比左边的实例数目(N)、输入和输出 tokens 的平均数目(#In/#Out),团队还会从表格最右 3 列的获取信息的样子、是否存在演绎推理和推行搜索这三个方濒临任务进行比较。

实验任务建立

实验中,上头的 6 个任务皆有不同的数据集。例如,HTML 到 TSV 任务使用了 Arborist 数据集结的 56 个网站;伪代码生成代码任务使用了 SPOC 数据集;旅途遍历任务构建了一个假定的人人交通收罗等等。

实验皆会要求模子推行一个详备的门径来生成输出。

此外,把柄任务的输出长度,数据集会被分为 500 tokens、2K tokens 和 8K tokens 三个难度级别。比如关于 HTML 到 TSV 任务来说,每个网站皆会被分割成非访佛子样本,这么就可以获取更多数据点。

参与实验的模子包括17个模子,包括流行的闭源模子(如 GPT-4o、Claude 3.5、Gemini 1.5)和开源模子(如 ProLong、Llama-3、Mistral-v0.3、Phi-3、Qwen-2.5、Jamba)。

实验遵守及分析

最初来望望实验中模子的全体弘扬。

遵守有点令东谈主不测,扫数模子在长门径生成任务中皆弘扬出显耀的性能着落!具体的数值可以稽查底下的表 3。

即使是 GPT-4o 这种前沿模子,在 8K tokens 的输出任务上也难以保抓郑重的弘扬。

咱们再来详备分析一下不同模子之间的各异。

把柄底下的图 3 可以看出,像 GPT-4o 这么的顶尖闭源模子在 0.5K 任务上弘扬最好,但在 8K 任务上性能显耀着落。

小限制的开源模子基本皆弘扬欠安,而中等限制的开源模子(Llama-3.1-70B-Instruct)在低难度任务上弘扬与 GPT-4o 收支不大。

不外,在某些 8K 任务上,中等限制的模子弘扬很可以,比如 Gemini-1.5-pro 在 HTML to TSV 任务中就跳跃了 GPT-4o,Llama-3.1-70B-Instruct、Qwen2.5-72B-Instruct 在 8K 的 Countdown 游戏中也与 GPT-4o 收支不大。

但全体来看,开源模子的性能也曾不足闭源模子。

此外,模子弘扬跟任务类型也相干系。在需要更长推理的任务中,模子的性能盛大出现了更显耀的着落。

如图 4 所示,在 Theory-of-Mind 追踪、Countdown 游戏和旅行策动任务这些需要处理更复杂的信息、进行更长链的推理的任务中,模子性能的着落幅度皆更大,GPT-4o、Qwen 等模子的精准度以致直线着落。

除了对比 17 个模子之间的才能,团队成员还将弘扬较好的模子输出内容与东谈主类输出进行了对比。

从表 6 的遵守中可以看出,与东谈主类才能比较,面前模子还存在显耀差距。

东谈主类在 Countdown 游戏和旅行策动任务等离别管理了 10 个和 9 个问题,而最好的模子 GPT-4o 离别只管理了 7 个和 3 个问题。

总体来说,本论文建议的 LONGPROC 测试基准有用地评估了模子在长门径生成任务方面的弘扬,是对现存基准的一个补充。

实验发现,即使是起首进的模子,在生成连贯的长段内容方面仍然有很大的改良空间。

尤其是在要求输出 8k tokens 的任务中,参数较大的先进模子也弘扬欠安,这可能是曩昔 LLM 斟酌的一个罕见有益旨的标的。

一作是清华学友

这篇论文的一作是本科毕业于清华软件学院的Xi Ye(叶曦),之后从 UT Austin 狡计机科学系获取了博士学位。

清华特奖得主 Tianyu Gao(高天宇)也有参与这篇论文:

据一作 Xi Ye 的个东谈主主页透露,他的斟酌主要集结在当然言语处理范畴,要点是擢升 LLM 的可解释性并增强其推理才能,此外他还从事语义分解和门径详细的相干职责。

当今他是普林斯顿大学言语与智能实验室(PLI)的博士后斟酌员,还将从 2025 年 7 月初始加入阿尔伯塔大学(University of Alberta)担任助理确认。

PS:他的主页也正在招收 25 届秋季全奖博 / 硕士生哦

极乐净土 裸舞

参考鸠合:

[ 1 ] https://arxiv.org/pdf/2501.05414

[ 2 ] https://xiye17.github.io/www.kk44kk



Powered by 裙底 偷拍 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024