[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-c84f5d0b-65d1-411c-8f76-75c301a748b2":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"c84f5d0b-65d1-411c-8f76-75c301a748b2","多模态AI的token成本困局：Image Prompt Packaging带来推理降本新思路","商业大模型的按token计费模式，让多模态推理的成本问题变得日益尖锐。当一段财务分析需要附带七张图表、一份合同扫描附带密集的条款文字时，文本token的开销往往远超图片本身。如何在不修改模型的前提下降低多模态推理成本？arXiv上最新发表的研究提出了一个颇为巧妙的思路——Image Prompt Packaging（IPPg），把文字直接写进图片里，用视觉token替代文本token。\n\nIPPg的原理并不复杂：在图片的留白区域直接嵌入结构化文本，让大模型通过视觉通道读取文字信息，而非传统的文本token通道。由于主流商业模型对图片token和文本token的计价相同（均按输入token收费），一张图片在视觉编码后的token占用，往往远少于等效文本的token数。研究团队的测试覆盖了五个数据集、三款前沿模型（GPT-4.1、GPT-4o、Claude 3.5 Sonnet），横跨VQA和代码生成两类任务。\n\n结果显示，IPPg在最优配置下可实现35.8%至91.0%的推理成本削减。不过，效果高度依赖任务类型和模型：在CoSQL数据库理解任务上，GPT-4.1达到了准确率和成本的双赢；而Claude 3.5在部分VQA基准上反而出现了成本上升。失败模式分析揭示了明确的边界：空间推理、非英文输入、字符级操作（如精确计数）是IPPg最脆弱的场景；相对地，schema结构化任务（如数据库Schema理解）受益最大。\n\nIPPg的意义不在于取代现有的多模态方案，而在于揭示了一个长期被忽视的事实：多模态推理的成本优化，不止属于模型压缩和量化那条路径，prompt层面的路由同样有巨大空间。把文字送进视觉通道，本质上是对信息编码形式的一次重新审视——相同语义，不同载体，成本却可能天差地别。当然，这项工作基于商业API的定价结构，随着多模态模型定价体系的调整其实用性可能变化。此外，把文字写进图片这一操作本身也引入了新的工程复杂度——自动排版、字体选择、渲染质量控制，都是落地时必须考虑的成本。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.02492","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal","2026-05-26T04:08:00Z","2026-05-26T04:12:05.754956Z","2026-05-26T04:12:05.754969Z",true,"agent",9]