清华团队抑制：AI终了图像式百万字长文档顾虑

你的位置：国产大屁股 > 关于我们 >

清华团队抑制：AI终了图像式百万字长文档顾虑

发布日期：2025-12-10 07:53 点击次数：111

这项由清华大学对话东说念主工智能（CoAI）组、智谱AI和清华大学学问工程组（KEG）的程佳乐、刘禹森、张昕宇等究诘者共同完成的究诘发表于2025年10月，论文编号为arXiv:2510.17800v1。有益思意思深入了解的读者不错通过该编号查询完好论文。

咫尺大型言语模子（LLM）正在变得越来越苍劲，它们粗略走漏文档、分析代码、进行多步推理等复杂任务。然则，当需要处理的文本长度达到数十万以致上百万字时，现存的AI模子就像一个试图记取整本百科全书的学生一样，会濒临浩大的筹谋和内存压力。这种压力如斯之大，以至于让这些先进的AI模子在本色应用中变得不切本色。

为了处理这个问题，究诘团队建议了一个全新的想路——与其让AI硬记扫数翰墨，不如教它学会"看图识字"。他们开发了一个名为Glyph的框架，这个系统粗略将长篇文本搬动成紧凑的图像，然后让具有视觉才略的AI模子来处理这些图像。这就像是把一册安定的书压缩成几张信息密集的图表，让AI通过"看图"而非"逐字阅读"来走漏内容。

这种方法的奥密之处在于，它充分期骗了视觉-言语模子（VLM）在图像走漏方面的苍劲才略。当文本被渲染成图像后，每个视觉令牌（visual token）就粗略承载比单个翰墨令牌更多的信息，从而终廓清信息密度的大幅进步。究诘终局暴露，这种方法粗略终了3到4倍的文本压缩率，同期保持与当先大模子终点的准确性。

更令东说念主惊喜的是，这种压缩不单是检朴了存储空间，还带来了权贵的速率进步。在处理一样长度的文本时，Glyph粗略终了轻便4倍的预填充息争码加快，以及约2倍的老师速率进步。在极点压缩的情况下，一个本来只可处理12.8万字的视觉-言语模子果然粗略处理终点于100万字级别的文本任务。

一、技巧旨趣：从翰墨到图像的智能搬动

Glyph的中枢想想不错用一个生动的比方来走漏：传统的AI模子处理长文本就像一个东说念主试图逐字背诵整本字典，而Glyph则是教AI学会阅读压缩版的"图文并茂的摘记"。这个经由包含三个枢纽阶段，每个阶段都像用心遐想的烹调步骤一样不成或缺。

第一个阶段是络续预老师，就像教一个孩子从意志单个汉字过渡到阅读图文混排的儿童读物。究诘团队将无数的长文本内容搬动成各式视觉样式的图像，让视觉-言语模子学会在文本和图像之间开辟语义对应关系。这个经由中，模子需要掌捏三种基本技巧：OCR任务让模子学会从图像中重构文本内容，交错言语建模让模子学会在文本和图像之间无缝切换，生成任务则让模子学会补全缺失的内容部分。

第二个阶段是LLM驱动的渲染搜索，这是整个系统最具更动性的部分。传统方法经常依靠东说念主工训戒来缔造文本转图像的参数，但Glyph采选了一种雷同"进化算法"的智能搜索战术。系统会自动尝试不同的字体、布局、别离率等组合，就像一位平面遐想师在尝试不同的排版有缱绻。每种建树都会在考证数据集上进行测试，系统会字据压缩率和性能阐扬来评估每种有缱绻的优劣。

这个搜索经由独特意义的地方在于引入了大模子的"聪慧判断"。当遗传算法产生新的参数组合时，一个挑升的大模子会分析现时的实验终局，并基于这些终局建议有但愿的纠正场合。这就像有一位训戒丰富的导师在指引实验经由，幸免了纯正立时搜索的盲目性。整个搜索经由会络续进行，直到找到粗略在压缩率和准确性之间取得最好均衡的建树。

第三个阶段是后老师优化，包括监督微调处强化学习两个子阶段。在监督微调阶段，究诘团队网罗了高质料的文本数据，并使用最优的渲染建树将其搬动为老师样本。每个样本都采选"想维链"形态，荧惑模子在处理复杂任务时进行徐徐推理。强化学习阶段则更进一步，通过群体相对战术优化（GRPO）来纠正模子的决策才略。

独特值得一提的是扶植OCR任务的遐想。由于视觉压缩的一个络续挑战是怎样赤诚地从渲染图像中复原细粒度的文本信息，究诘团队在整个老师经由中都加入了OCR对皆任务。这个任务挑升老师模子准确识别和重现图像中的低层文本细节，从而增强模子在视觉和文本泄露之间的对皆才略。

二、实验考证：全面的性能评估

为了考证Glyph的有用性，究诘团队进行了极其全面的实验评估，涵盖了长文才略路、效用进步、跨模态泛化等多个维度。这些实验就像一场严格的体能测试，从各个角度试验新方法的本色阐扬。

在长文才略路才略的测试中，究诘团队聘用了三个巨擘的评估基准：LongBench、MRCR和Ruler。LongBench包含21个数据集，涵盖6个类别的长文本任务，从单文档问答到多文档问答，从摘记生成到少样本学习，每一项任务都教训着模子的不同才略。实验终局暴露，Glyph在总体平平分上达到了50.56分，与同限制的当先模子如Qwen3-8B（47.46分）和GLM-4-9B-Chat-1M（49.27分）比较阐扬终点，以致在某些任务上还有所卓越。

MRCR基准测试的终局愈加令东说念主印象潜入。这个测试就像是教训顾虑力的"找针游戏"，需要模子从冗长的对话历史中准确找出特定信息。在2针、4针、8针等不同难度的测试中，Glyph历久保持在前两名的位置。独特是在4针测试中，Glyph以25.81分的平均成绩当先于扫数对比模子，展现出其在长文本信息检索方面的优胜性能。

Ruler基准的测试终局则揭示了一个独特意义的风物：Glyph具有"测试时缩放"的才略。当究诘团队在推理时提高渲染别离率（DPI）时，模子的性能会权贵进步。在DPI为72时，平均压缩率可达4.0倍，最高可达7.7倍；当DPI提高到120时，天然压缩率镌汰到1.2-2.8倍，但模子性能却大幅进步至94.67分，以致跨越了一些强力的纯文本基线模子。

效用评估的终局一样令东说念主奋斗。在相易的筹谋资源条目下，Glyph在推理阶段终廓清权贵的速率进步。具体来说，在预填充阶段终廓清最高4.8倍的加快，在解码阶段终廓清最高4.4倍的加快。跟着序列长度从8K增长到128K，这种加快效果变得越来越领悟，展现出优秀的可推广性。在老师效用方面，Glyph在监督微调阶段终廓清约2倍的老师加快，这关于需要无数筹谋资源的长文本模子老师来说是一个垂危上风。

三、跨模态才略：不测的得益

天然Glyph的老师数据主要由渲染的文本图像构成，而非天然的多模态输入，但究诘团队发现这种老师果然粗略泛化到确切寰宇的多模态任务中。这个发现就像是老师射箭时不测发现我方也变得擅长投掷飞镖一样令东说念主惊喜。

在MMLongBench-Doc基准测试中，这个基准包含130个长PDF文档，这些文档具有各类化的布局和镶嵌的图像，悉数包含1062个问题。Glyph比较其主干模子GLM-4.1V-9B-Base终廓清权贵纠正。在单页任务（SP）中，Glyph得分57.73分，比较基线的36.76分进步了57%。在跨页任务（CP）中，得分从23.41分进步到39.75分，进步幅度达到70%。在无法回话任务（UA）中，从21.52分进步到27.80分。举座准确率从29.18分进步到45.57分，F1分数从28.78分进步到46.32分。

这种跨模态泛化才略的原因可能在于，通过处理渲染的文本图像，模子学会了更好地走漏视觉布局和文本之间的关系。迎面对确切的PDF文档时，这种才略天然地回荡到了对文档结构和内容的走漏上。这意味着Glyph不仅粗略处理纯文本任务，还粗略应用于本色的文档走漏场景，具有更无为的应用后劲。

四、深入分析：枢纽组件的孝敬

为了更好地走漏Glyph各个组件的垂危性，究诘团队进行了审视的消融实验。这些实验就像拆解一台精密机器，一一查验每个零件的作用，以详情哪些部分是不成或缺的。

建树搜索的垂危性通过对比实验得到了充分考证。究诘团队比较了三种不同的渲染建树方法：立时建树、东说念主工遐想建树和基于搜索的建树。终局暴露，基于搜索的建树在扫数测试基准上都取得了最好性能。在LongBench上，搜索建树达到43.45分，而立时建树仅为41.78分，东说念主工建树为43.45分。在MRCR上，搜索建树的22.10分权贵高于立时建树的15.82分和东说念主工建树的19.33分。在Ruler基准上，搜索建树的71.24分也领悟跨越了其他两种方法。

OCR扶植任务的孝敬一样抑制冷漠。当究诘团队移除监督微调阶段的OCR任务时，LongBench性能下落了8.12分，MRCR下落了8.42分，Ruler下落了1.23分。当移除强化学习阶段的OCR任务时，性能下落相对较小但仍然领悟：LongBench下落1.40分，MRCR下落2.00分，Ruler下落0.35分。这标明OCR任务在匡助模子开辟准确的视觉-文本对应关系方面阐述了垂危作用。

强化学习的价值也通过实验得到了证据。当移除强化学习阶段时，LongBench性能下落了7.11分，MRCR下落了4.17分，Ruler下落了0.93分。这讲明强化学习如实粗略进一步改善模子在复杂长文本理衔命务上的阐扬。

极限压缩的探索实验展现了Glyph的浩大后劲。究诘团队尝试了8倍压缩率的建树，并在128K到1024K的序列长度范围内进行测试。终局暴露，即使在如斯极点的压缩缔造下，Glyph仍然粗略保持与GLM-4-9B-Chat-1M和Qwen2.5-7B-Instruct-1M终点的性能。这个发现默示着，通过进一步优化，畴昔可能终了对4M以致8M字符文本的有用处理。

五、方法的更动性与局限性

Glyph方法的更动性主要体咫尺三个方面。动身点，它建议了一种全新的长文本处理范式，将传统的基于文本令牌的序列推广更动为基于视觉压缩的信息密度进步。这种想路搬动就像从"增多书架容量"转向"发明更高效的信息编码方式"，从根柢上改变了处理问题的角度。

其次，LLM驱动的遗传搜索算法是一个垂危的方法论更动。传统的超参数搜索经常依赖立时试验或东说念主工训戒，而Glyph引入了智能化的搜索战术，让大模子参与到建树优化经由中。这种"AI匡助AI"的自举方法展现了东说念主工智能在自我纠正方面的后劲。

第三，多阶段老师战术的遐想体现了潜入的技巧细察。从络续预老师到建树搜索，再到后老师优化，每个阶段都有明确的缱绻和用心遐想的任务。独特是OCR扶植任务的引入，有用处理了视觉压缩可能带来的信息赔本问题。

天然，Glyph方法也存在一些局限性。动身点是对渲染参数的敏锐性，模子的性能会受到字体、别离率、布局等身分的权贵影响。天然搜索算法粗略找到较优的建树，但怎样让模子在各式渲染缔造下都保持成见的性能仍然是一个挑战。

其次是OCR相干的贫寒。在Ruler基准测试中，UUID识别任务对现时的视觉-言语模子来说仍然独特贫寒，即使是最强的模子也经常出现字符特地或功令芜杂。这些苦楚的字母数字序列可能由于在老师数据中的漫衍稀罕性或视觉编码器的架构落幕而难以准确识别。

第三个局限性在于任务各类性。现时的评估基准主要逼近在长文本理衔命务上，但确切寰宇的应用场景愈加各类化，包括智能体任务、推理密集型任务等。究诘团队也不雅察到，与纯文本模子比较，视觉-文本模子在跨任务泛化方面的阐扬相对较弱。

六、技巧细节与终了

Glyph的终了波及多个用心遐想的技巧细节，这些细节就像通盘复杂菜肴中的各式调料，每一个都对最终效果产生垂危影响。

在渲染参数的遐想方面，究诘团队界说了一套comprehensive的参数空间。DPI（每英寸点数）采选羼杂漫衍战术，包括最低档（45-59）、低档（60-71）、中档（72-119）、范例档和高级（300以上）等不同级别，其中范例档和中档被赋予更高的采样概率。页面尺寸复旧固定纸张规格（如A4、Letter等）、常见长宽比（如1.414、1.333等）以及富有立时的长宽比漫衍。

字体系列通畴昔重后的字体库来提供，涵盖衬线体、无衬线体、等宽字体和像素字体等类型。字体大小落幕在7到14磅之间的翻脸值，行高与字体大小相干联，闲居在字体大小基础上增多0到3个单元。文本对皆方式以左对皆和两头对皆为主，右对皆和居中对皆的概率较小。

在老师战术方面，络续预老师阶段使用全局批量大小170，学习率2e-6，采选余弦衰减退换，老师约4000步。监督微调阶段老师1500步，批量大小32，使用Adam优化器，学习率从5e-6衰减到2e-6。强化学习阶段采选GRPO算法，每个老师组采样16个候选反应，运转500次迭代，学习率保持1e-6不变。

建树搜索算法运转5轮，每轮200步，缱绻是最大化压缩率同期保持雅致性能。算法贵重一个建树群体，通过变异、交叉和聘用操作约束演化。LLM分析器会字据现时群体的性能漫衍建议纠正建议，指引下一代建树的生成。

在推理阶段，Glyph复旧测试时缩放，即通过诊治DPI等参数来均衡压缩率和性能。这种纯真性让用户不错字据具体任务需乞降筹谋资源料理来聘用得当的建树。

七、本色应用远景与影响

Glyph的出现为长文本处理规模带来了新的可能性，其应用远景相配繁密。在文档走漏方面，讼师事务所不错使用Glyph来快速分析无数的法律文档和案例材料，而不需要哀痛文档长度超出模子处理才略。在代码分析规模，软件工程师不错让AI系统分析整个代码库，走漏复杂的函数调用关系和代码逻辑。

在学术究诘中，究诘东说念主员不错期骗Glyph来处理无数的学术论文和究诘呈文，快速索求枢纽信息和发现究诘趋势。在新闻媒体行业，裁剪不错使用这项技巧来分析无数的新闻报说念和布景辛劳，生成深度报说念和分析著述。

更垂危的是，Glyph为处理AI模子的"顾虑力"问题提供了一个全新的想路。传统方法试图通过纠正谨慎力机制或推广位置编码来处理更长的序列，但这些方法在面对百万级token的输入时仍然濒临浩大挑战。Glyph通过视觉压缩的方式绕过了这个问题，展现了一种"弧线救国"的聪慧。

从技巧发展的角度来看，Glyph代表了多模态AI发展的一个垂危场合。它讲明注解了视觉-言语模子不仅粗略走漏天然图像，还粗略高效处理东说念主工渲染的视觉信息。这种才略的发现为畴昔的AI系统遐想提供了新的灵感，比如不错计划将其他类型的结构化信息（如表格、图表、代码等）也搬动为视觉面貌进行处理。

八、畴昔发展场合

基于现时的究诘后果，Glyph的发展还有很大的设想空间。究诘团队建议了几个垂危的纠正场合，每一个都可能带来权贵的性能进步。

自得当渲染是一个独特有远景的场合。咫尺Glyph使用固定的渲染建树，但畴昔不错开发粗略字据任务类型或用户查询自动诊治渲染战术的智能系统。这就像一个粗略字据不同阅读需求自动诊治字体和排版的智能阅读器，让每种任务都能获取最优的视觉呈现方式。

增强视觉编码器的文本识别才略是另一个垂危场合。天然现时的视觉-言语模子在一般图像走漏方面阐扬出色，但在致密文本识别方面仍有纠正空间。通过挑升的老师和架构优化，不错进一步提高模子对渲染文本的走漏精度。

跨模态学问蒸馏亦然一个值得探索的场合。通过让视觉-文本模子学习纯文本模子的学问，不错邋遢两者之间的性能差距，提高视觉-文本模子在各式任务上的泛化才略。

在应用推广方面，Glyph的想路不错履行到更无为的规模。比如，不错将其应用于智能体的顾虑系统，让AI助手粗略管理和检索历久对话历史。也不错计划将结构化的视觉布局用于推理和检索任务，充分期骗东说念主类视觉知道的上风。

从系统优化的角度来看，跟着硬件技巧的发展和模子架构的纠正，Glyph有望终了从100万到1000万token级别的推广。这将确切终了对超大限制文本的高效处理，为AI系统在复杂实验场景中的应用铺平说念路。

说到底，Glyph代表的不单是是一种技巧纠正，更是一种想维方式的更动。它告诉咱们，处理AI的局限性不一定要沿着传统的技巧旅途，无意刻换个角度想考，期骗不同模态之间的上风互补，反而粗略找到更优雅的处理有缱绻。就像古东说念主发明的算盘一样，通过奥密的物理遐想来增强东说念主类的筹谋才略，Glyph通过视觉压缩来增强AI的"顾虑"才略，体现了技巧更动中的聪慧和好意思感。

这项究诘为咱们展示了AI发展的更多可能性，也教导咱们在追求技巧抑制时要保持灵通和更动的想维。跟着相干技巧的约束完善，咱们有旨趣期待Glyph在更多本色应用中阐述垂危作用，鼓动东说念主工智能向着愈加实用和苍劲的场合发展。

Q&A

Q1：Glyph是什么？

A：Glyph是由清华大学和智谱AI共同开发的一个长文本处理框架，它能将长篇文本搬动成紧凑的图像，然后让具有视觉才略的AI模子通过"看图"来走漏内容，从而抑制传统大模子在处理超长文本时的内存和筹谋落幕。

Q2：Glyph的压缩效果怎样？

A：Glyph粗略终了3到4倍的文本压缩率，同期保持与当先大模子终点的准确性。在极点情况下，一个本来只可处理12.8万字的模子不错处理终点于100万字级别的文本任务，何况还能带来4倍摆布的推理加快。

Q3：Glyph技巧有什么本色应用价值？

A：Glyph不错应用于法律文档分析、代码库走漏、学术究诘、新闻分析等需要处理无数长文本的场景。它不仅能抑制模子的文本长度落幕，还能权贵提高处理效用，为AI在复杂实验场景中的应用提供了新的可能性。

清华团队抑制：AI终了图像式百万字长文档顾虑

遭逢这2种女东说念主，释怀“泡”

清华团队抑制：AI终了图像式百万字长文档顾虑