2025年10月04日NLP论文汇总(中文)
- Topic 1: Natural Language Processing Techniques (3 papers)
- Topic 2: Multimodal and Vision-Language Integration (4 papers)
- Topic 3: Reinforcement Learning Applications (4 papers)
- Topic 4: Data and Machine Learning Infrastructure (2 papers)
- Topic 5: Reasoning and Cognitive Models in AI (4 papers)
- Topic 6: Code Generation and Assistance (2 papers)
- Topic 7: Machine Learning Robustness and Security (3 papers)
- Topic 8: Information Retrieval and Knowledge Augmentation (2 papers)
- Topic 9: Spatial Analysis and Reasoning (4 papers)
- Topic 10: Advanced AI Architectures and Algorithms (2 papers)
- Topic 11: misc (3 papers)
Topic 1: Natural Language Processing Techniques
主题概述
自然语言处理(NLP)技术近年来得到了迅速发展,尤其是在大规模语言模型(LLMs)的应用方面。然而,这些模型在资源较少的语言和文化背景中的表现往往不尽如人意,且在医疗等特定领域的应用面临硬件限制、成本和隐私保护等挑战。因此,如何提高这些模型在低资源语言环境中的性能,以及如何在特定场景中有效地利用小型语言模型成为当前研究的重要方向。
各论文贡献
-
来自Tsinghua University的Tim Bakkenes等人研究了大型语言模型在低资源语言(如瑞典语)和文化背景下的表现不佳的问题,提出了结合外部知识与模型适应性的混合方法来细调Gemma 2模型。该方法的主要创新点在于创建了一个针对瑞典语的文化相关细调数据集和检索增强生成(RAG)数据集,并采用了低秩适配(LoRA)技术进行参数高效细调。产生的价值在于为促进语言包容性和文化保存提供了新的思路和技术手段。在实验中,使用了FastText和预训练的Sentence-BERT模型生成RAG嵌入,与未细调模型相比,F1分数从47.72%提高到77.63%,显著提升了模型在问答任务中的性能,并展示了在翻译和文本生成任务中的潜力。通过瑞典语母语者的主观评价也证实了响应质量的提升。但同时指出过拟合问题的存在,并强调需要更大、更多样化的数据集以实现更广泛的泛化能力。1
-
来自Ubiquant的Zitian Gao等人探讨了扩散语言模型(DLMs)为何能在数据效率上超越其他模型,特别是当可用数据有限时。该研究没有提出新的数据集,而是使用了一个现有的数据集olmo-mix-1124来进行实验。通过详细的实证分析和控制消融研究,识别出了提升DLMs数据效率的关键因素。该方法的主要创新点在于系统地解析了DLMs的训练动力学,并揭示了随机遮蔽输入令牌(称为“令牌丢弃”)对提升数据效率的重要性。产生的价值在于为理解和改进现代语言模型的数据利用率提供了新的视角。实验结果显示,令牌丢弃比例为0.3或0.5时,能有效防止过拟合;MLP层中的dropout和权重衰减也能改善数据效率,其中权重衰减为0.5时,提升最为明显。基于ARC-e、HellaSwag、Lambada、PIQA、SIQA 和 Winogrande等评价指标,一个仅用30亿个唯一令牌训练的DLM模型超过了用36万亿个令牌训练的传统自回归模型。这表明DLMs有可能在使用较少数据的情况下达到更好的性能。2
-
来自1号机构的Zirui Wang等人专注于加拿大医院急诊部门(EDs)中小型语言模型(SLMs)的部署问题,旨在克服硬件限制、运营成本和隐私保护等方面的实际挑战。研究的主要创新点在于开发了一套专门用于评估ED场景中小型语言模型性能的基准测试套件,包括四个数据集:MedMCQA、MedQA-4Options、PubMedQA和医学摘要数据集。该研究的价值在于强调了在面临实际约束条件的情况下,小规模模型相对于大模型的可行性和有效性。通过实验对比了17种小型语言模型,其中既有通用目的的也有医学专业的,所有模型的参数范围在60亿到80亿之间。实验发现,通用领域的SLMs在某些任务上比医学领域的SLMs表现更好,这一结果挑战了传统观念,即为了在医疗领域获得最佳性能,必须进行特定领域的微调。例如,Microsoft Phi3-small-8k模型在多项选择题问答任务上表现出色,而GTHUDM GLM-4-9B-chat和Llama3-ChatQA-8B则更适合医学摘要生成任务。3
技术趋势
在这些论文中,可以看到几种主要的技术趋势:一是参数高效的微调技术,如低秩适配(LoRA),被用于提升模型在特定语言或文化背景下的性能;二是数据增强技术,如随机遮蔽输入令牌(令牌丢弃),被用来提高模型的数据利用效率;三是通用模型在特定领域中的应用,特别是在医疗等专业领域中,通过指令调优的通用模型能够提供有效的决策支持。
数据集和评估
这些论文中使用的主要数据集包括:olmo-mix-1124、MedMCQA、MedQA-4Options、PubMedQA、医学摘要数据集。评估指标方面,除了传统的F1分数外,还使用了ARC-e、HellaSwag、Lambada、PIQA、SIQA 和 Winogrande等针对特定任务的评估标准,以全面衡量模型在不同应用场景下的性能。[^论文id]
Topic 2: Multimodal and Vision-Language Integration
主题概述
多模态和视觉语言集成的研究主题聚焦于如何有效结合视觉信息与文本信息,以提高人工智能系统在特定任务中的表现力和理解能力。这一领域对于促进跨学科应用(如农业、医疗、金融等)具有重要意义,因为它不仅能够提升决策支持系统的性能,还能推动资源管理的可持续性和教育工具的发展,尤其是在面对复杂的数据结构和稀缺的专业知识时。通过构建专门针对特定领域的多模态大语言模型(MLLMs),可以更好地利用图像和文本信息,从而增强这些模型在实际场景中的应用价值。
各论文贡献
-
来自Zhejiang University的Bo Yang等人研究了农业领域中现有MLLMs处理任务的不足,提出了AgriGPT-VL,一个专用于农业的视觉语言模型,旨在解决因农业领域视觉-语言数据稀缺及缺乏严格评估框架导致的问题。该方法的主要创新点在于引入了一种从文本接地到视觉-语言对齐再到GRPO优化的课程训练方法。产生的价值在于它不仅增强了农业领域的决策支持,还通过引入Agri-3M-VL大数据集和建立AgriBench-VL-4K基准套件,填补了农业AI领域资源和技术方法的空白。在AgriBench-VL-4K上的实验表明,相比通用视觉语言模型,AgriGPT-VL在准确性及生成质量方面(如BLEU、Meteor、ROUGE-L)取得了显著提升。得出的结论是,AgriGPT-VL不仅在农业任务上表现出色,在文本任务上也维持了强大的语言能力,并且其学习到的视觉推理技能具有良好的泛化能力4。
-
来自University of Washington的Benlin Liu等人探讨了MLMs在感知密集型任务中的表现不佳,这些问题包括相对深度推理、对象定位、识别对象段落以及空间理解等。该方法的主要创新点是通过对MLMs中关键值缓存的视觉表示进行深入分析,提出了一种通过文本前缀动态适应视觉表示的方法,以及一种干预技术来减少后期层中输入无关的视觉信息影响。产生的价值在于提供了新的视角去理解和改进MLMs中的视觉信息处理机制。实验结果揭示,MLMs中的视觉信息经过中间层的精炼后变得更加感知能力强,但在后期层则出现降解现象。通过文本前缀和干预技术,模型在分割、对应关系和领域适应等任务上的性能得到了显著改善。得出的结论是,MLMs在处理视觉信息时存在显著的能力差距,未来可以通过更好的控制策略来优化模型的视觉信息处理能力5。
-
来自J.P. Morgan AI Research的Rachneet Kaur等人关注的是MLLMs在处理无注释图表时的性能下降问题,特别是在金融、科学和新闻等领域中,图表作为传达定量信息的基础工具的重要性。该方法的主要创新点是引入了一个多轮互动循环的ChartAgent框架,该框架利用图表特化的感知工具来分解查询并生成解释性的可视化结果,支持自我验证机制。产生的价值在于ChartAgent显著提升了复杂图表问答的性能,尤其在无注释图表的数值问答上表现优异。在ChartBench和ChartX数据集上的实验显示,ChartAgent相比超过30个基线方法有了显著的绝对增益,达到了SOTA水平。得出的结论是,特化的视觉工具在处理图表理解任务上比通用的自然图像操作更为有效,而多轮交互循环策略能有效提高模型的准确性6。
-
来自A.I.MATICS Inc.和MODULABS的Soo Yong Kim等人专注于将临床诊断推理与医学影像的人工智能集成,提出了MedCLM,一种自动化的管道,能够将病变为中心的检测数据集转换为大规模医学VQA语料库,同时嵌入详细的步骤推理过程(Chain-of-Thought, CoT)。该方法的主要创新点在于自动化生成CoT数据和采用基于课程的微调方法来增强模型性能和稳定性。产生的价值在于减少了昂贵的手动标注需求,提高了模型在医学VQA任务中的表现力和解释性。实验结果显示,在VQA-RAD、SLAKE和PMC-VQA等数据集上,MedCLM显著优于现有的基线方法,特别是在开放式问题上表现更佳。得出的结论是,提供解剖学上下文对于提高模型性能至关重要,能够减少解剖学混淆错误,同时在放射学报告生成任务上也有显著的改进7。
技术趋势
在多模态和视觉语言集成领域,技术趋势集中在开发专门针对特定应用场景的大规模多模态模型。这些模型通过引入新的训练方法,比如课程学习和奖励引导的偏好优化,来提升模型在特定任务中的表现。此外,利用自动化手段生成高质量的训练数据,以及设计专门的评估框架,成为当前研究的重要方向。值得注意的是,各论文都强调了视觉信息在模型内部的不同层次上的处理方式,尤其是如何在后期层防止信息退化或加强其作用。
数据集和评估
各论文使用的数据集和评估指标反映了它们各自研究的具体应用场景。例如,AgriGPT-VL 使用了专门为农业设计的 Agri-3M-VL 和 AgriBench-VL-4K 数据集,评估指标包括 BLEU、Meteor 和 ROUGE-L;Visual Representations inside the Language Model 则没有明确提及所用数据集,但强调了通过多种探针任务来评估模型的视觉感知能力;ChartAgent 使用了 ChartBench 和 ChartX 数据集,评估标准为整体准确率;MedCLM 使用了 VQA-RAD、SLAKE、PMC-VQA、IU-Xray 和 MIMIC-CXR 数据集,评估指标涵盖 BLEU、ROUGE 和 METEOR。这些数据集和评估指标共同构成了该领域内评价模型性能的标准体系,有助于推动相关技术的发展和应用。
Topic 3: Reinforcement Learning Applications
主题概述
强化学习(Reinforcement Learning, RL)是一种机器学习方法,通过智能体与环境交互来学习最优策略,以最大化累积奖励。近年来,随着深度学习的发展,强化学习被广泛应用于自然语言处理(NLP)领域,特别是在训练大型语言模型(Large Language Models, LLMs)方面展现出巨大潜力。本主题探讨了几种不同的强化学习框架及其在特定NLP任务中的应用,这些研究不仅提升了模型的性能,也为未来的模型设计提供了新的思路和方向。
各论文贡献
-
来自清华大学的宋子昕等人研究了大型语言模型在条件语义文本相似度(Conditional Semantic Textual Similarity, C-STS)任务中的有效训练问题,提出了PoLi-RL,一种专为C-STS设计的点到列表强化学习框架。该方法的主要创新点是引入了一个两阶段课程,从简单的点奖励开始,逐步过渡到混合奖励系统,结合成对和列表排序奖励,以实现细粒度的语义调整。此外,它还采用了平行切片排名奖励机制(PSRR),这使得奖励计算更加精细。其产生的价值在于它是首个成功应用于基于LLM的跨编码器端到端训练的RL框架,并在官方C-STS基准上建立了新的SOTA,实现了斯皮尔曼相关系数48.18。实验结果显示,PoLi-RL在Qwen3-8B模型上比监督微调和少量样本提示分别提高了7.76和10.28个点,证明了适度规模模型在复杂条件下判断任务中的竞争力。8
-
来自哥伦比亚大学的张云帆等人探索了如何使大型语言模型能够反映多样的人类视角,从而克服单一价值观限制的问题,提出了利用Chain-of-Thought (CoT) 推理方法实现可引导的多元视角对齐的方法。该方法的创新点在于使用**Reinforcement Learning with Verifiable Rewards (RLVR)**来促进模型与多种人类观点的对齐。该方法的价值在于它不仅提高了模型在价值多样性上的表现,还减少了输出中的冒犯性内容。在Value Kaleidoscope和OpinionQA两个数据集上的实验表明,RLVR方法显著优于其他CoT方法和监督微调基线,在Llama 3 8B和Qwen2.5 7B模型上均表现出色。9
-
来自伊利诺伊大学厄巴纳-香槟分校的熊伟等人研究了解决强化学习在大型语言模型训练中的效率低下和不稳定性问题,提出了Reinforce-Ada,一种适应性采样框架。该方法的创新点在于引入了动态分配推理预算的机制,确保每个提示都能得到足够多的样本以提供稳定的训练信号。其价值在于改进了样本效率和信号质量,适用于各种LMs和基准测试。实验结果表明,Reinforce-Ada-balance变体在多个标准基准上比传统的均匀采样策略GRPO表现出更好的性能,平均提升了1到3个Avg@32点。10
-
来自中国人民大学高瓴人工智能学院及阿里巴巴集团同义实验室的陈国鑫等人探讨了如何提高大型语言模型在简单任务中的生成效率以及在复杂任务中的推理能力,提出了MARS,一种双系统深度研究优化框架。该方法的创新点在于结合了快速直觉思维(System 1)和深思熟虑的推理(System 2),并利用外部工具如Google搜索、Google Scholar和Python解释器来增强推理能力。其价值在于提高了模型在知识密集型问答任务中的性能,相比直接推理模型和先进的检索增强生成(RAG)方法,MARS在Humanity’s Last Exam(HLE)基准和其他七个知识密集型任务上表现出了显著的性能提升。11
技术趋势
上述论文展示了强化学习在自然语言处理领域的几个关键发展方向。首先,针对特定任务的定制化强化学习框架成为趋势,例如PoLi-RL专注于C-STS任务的细粒度语义调整。其次,引入多阶段训练策略或机制以提高训练效率和模型性能,如Reinforce-Ada的动态采样机制和MARS的双系统优化框架。此外,结合外部工具和资源以增强模型的推理能力也是一大亮点,如MARS利用外部搜索工具和编程环境进行辅助推理。
数据集和评估
- PoLi-RL 使用了官方C-STS基准,评估指标包括斯皮尔曼相关系数。
- Exploring Chain-of-Thought Reasoning for Steerable Pluralistic Alignment 利用了Value Kaleidoscope和OpinionQA两个数据集,主要评估指标包括准确率、Macro F1以及平衡准确性。
- Reinforce-Ada 的实验覆盖了MATH500、Minerva Math、OlympiadBench和AIME-like测试集,评估主要关注样本效率和最终准确性的提升。
- MARS 测试了Humanity’s Last Exam(HLE)基准和七个知识密集型问答任务,评估指标集中在整体性能提升和知识密集型任务的表现上。
这些研究通过使用不同的数据集和评估指标,展示了强化学习在自然语言处理任务中的多样性和实用性。
Topic 4: Data and Machine Learning Infrastructure
主题概述
在数据和机器学习基础设施的研究领域中,神经架构搜索(Neural Architecture Search, NAS)以及大规模多语言文档数据集的构建是两个关键方向。NAS致力于通过自动化手段发现最优的神经网络结构,以提高模型性能和效率。然而,传统NAS方法在面对多样化和复杂的搜索空间时,往往因训练成本高昂而受阻。另一方面,构建高质量的大规模多语言文档数据集对于促进数据驱动的研究、提高公共透明度和支持跨语言研究具有重要意义。特别是在像斯里兰卡这样资源有限且多语言环境复杂的地方,这类数据集的创建尤为必要。
各论文贡献
-
来自University of Edinburgh的Shiwen Qin等人研究了神经架构搜索过程中的性能评估效率问题,提出了ONNX-Net,一种新的方法,用于将神经架构统一表示为基于ONNX的文本格式,并利用大型语言模型进行即时性能预测。该方法的主要创新点在于能够无视特定的搜索空间,捕捉架构的拓扑和操作级细节,从而实现跨领域的零样本转移预测能力。其产生的价值在于加速了神经架构探索的速度和规模,尤其在低数据量情况下表现优异,这有助于发现更创新和根本性的网络架构。在ONNX-Bench数据集上的实验表明,相比其他基线方法,在从NAS-Bench-101到NAS-Bench-201的零样本转移场景中,ONNX-Net取得了最高的平均Spearman’s ρ相关系数。得出的结论是,ONNX-Net可以有效地跨越不同的搜索空间和任务,减少对每个候选架构的大量训练需求12。
-
来自Independent Researcher的Nuwan I. Senaratna研究了斯里兰卡法律、新闻和政策文档的碎片化问题,提出了一个大规模、多语言的文档数据集,旨在整合斯里兰卡议会会议记录、法律判决、政府出版物、新闻报道和旅游统计数据等资源,涵盖僧伽罗语、泰米尔语和英语三种语言。该数据集包含总计215,670份文件(60.3GB),并每日更新。技术上,该项目建立了一个自动化的、可重复的和健壮的数据收集管道,使用Python、Selenium和PyMuPDF等工具来抓取、解析和保存原始资料及标准化的JSON表示。该方法的一个显著特点是强调爬取过程中的礼貌原则,确保遵守robots.txt规则并应用指数退避策略。此外,实施了诸如模式验证和单元测试的质量控制措施,以维护数据完整性。该项目的独特贡献在于它不仅解决了低资源环境下的数据获取难题,还支持了多语言自然语言处理和跨语言研究,促进了公众透明度和数据驱动研究的发展13。
技术趋势
从上述两篇论文可以看出,数据和机器学习基础设施的研究正朝着更加高效、通用和跨领域的方向发展。一方面,ONNX-Net通过引入统一的ONNX文本表示和大型语言模型的应用,展示了如何降低神经架构搜索的成本并提高其灵活性;另一方面,Sri Lanka Document Datasets项目则展现了在多语言、低资源环境下,通过构建自动化、可重复的数据收集和处理管道,如何有效整合分散的文档资源,支持多样化的研究和应用需求。这些技术趋势表明,未来的研究可能会更加关注于开发能够适应多种语言和不同应用场景的数据处理方法,以及提高机器学习模型在各种环境下的泛化能力和效率。
数据集和评估
- ONNX-Net 使用了ONNX-Bench作为基准数据集,该数据集将多个搜索空间中的架构统一表示为ONNX格式,提供了跨领域训练所需的数据多样性。评估指标采用了Spearman’s ρ相关系数,以衡量不同方法在零样本转移场景中的预测准确性。
- Sri Lanka Document Datasets 包含了13个数据集,覆盖了广泛的领域,如法律、新闻和政策等。尽管该论文未提及具体的评估指标,但其强调了数据集的多语言性和日常更新机制,显示了其在维护数据新鲜度和多样性方面的努力,这对于跨语言研究和数据驱动的社会科学分析至关重要。
Topic 5: Reasoning and Cognitive Models in AI
主题概述
Reasoning and Cognitive Models in AI 是人工智能领域中的一个重要分支,它关注的是如何使机器具备人类的推理能力和认知模型。这些能力包括理解他人的意图、进行逻辑推理、规划行动等,对于实现更加智能和自适应的人工智能系统至关重要。特别是在多智能体协作、复杂任务处理以及自动驾驶等领域,这些能力能够显著提升系统的性能和可靠性。
各论文贡献
-
来自香港科技大学的Fangzhou Liang等人研究了大型语言模型(LLMs)和逻辑推理模型(LRMs)在不完美信息下的多智能体合作游戏中进行理性推断和心智理论(ToM)推理的能力,提出了LLM-Hanabi这一自动化基准来评估这些模型在动态、互动环境中的心智理论和理性推断能力14。该方法的主要创新点是利用合作卡牌游戏Hanabi作为评估工具,引入了一个框架来允许大规模和自动化的评估。产生的价值在于提供了一种新的方式来衡量和改善人工智能模型在复杂合作任务中的表现。在实验中,通过对比不同的模型发现,逻辑推理模型在游戏得分和心智理论评估方面表现优于语言模型,特别是Deepseek-R1和gpt-4.1分别在游戏得分和心智理论评估上表现突出。
-
来自加州大学圣地亚哥分校的Haoqiang Kang等人针对大型语言模型(LLMs)在文本推理任务中因自回归解码而存在的效率低下和探索多样性受限的问题,提出了LaDiR框架,该框架结合了连续潜在表示的表达能力和潜在扩散模型的迭代优化能力,以提高现有LLMs的推理能力15。主要创新点在于使用变分自编码器(VAE)将推理步骤转化为思维令牌,并利用潜在扩散模型进行迭代优化。LaDiR在数学推理和谜题规划任务上的评估显示了其在生成更准确、多样且可解释的推理路径方面的有效性。实验表明,LaDiR不仅在数学推理上表现出色,尤其在难度较高的DM-Math和College-level数据集上,而且在Countdown游戏这类谜题规划任务上也展示了显著的改进。
-
来自南洋理工大学S-Lab的Xurui Song等人探讨了视觉语言模型(VLM)驾驶代理中的推理与规划之间的脱节问题,即它们是否依赖于因果推理过程进行规划,还是依靠捷径如利用文本先验的偏见而非视觉上下文和推理16。他们引入了DriveMind数据集,用于进行因果分析,并提出了因果探针(Causal Probe),一种无需训练即可诊断捷径学习的方法。研究揭示了当前训练范式未能建立推理与规划间的因果联系,导致了捷径学习现象。实验结果表明,即使是在高级策略对齐技术GRPO下,这种脱节依然存在,证明了这个问题在现有训练方法中根深蒂固。
-
来自未指定机构的Honglin Lin等人针对大型语言模型(LLMs)在使用链式思考(CoT)提示时存在的不可靠性和缺乏可扩展性问题,提出了一种名为Caco的代码辅助链式思考和指令生成框架,旨在通过嵌入可执行代码片段来增强LLMs的推理能力,从而提高解决方案的验证性、可扩展性和多样性17。Caco利用微调后的LLM生成基于代码的CoT解决方案,并通过自动验证引擎进行优化。该研究还创建了包含数百万高质量推理轨迹的新数据集Caco-1.3M。实验表明,经过Caco-1.3M数据集微调后的模型在多个数学推理基准测试中表现出色,尤其是在处理挑战性较大的问题子集时。
技术趋势
从上述论文可以看出,该主题下的研究正在朝着结合多模态输入(如视觉和文本)、增强模型的逻辑推理和自我修正能力、提高模型在多智能体协作中的心智理论能力、以及利用代码辅助来增强链式思考的可靠性和可扩展性等方面发展。这些技术路线反映了AI领域内对于开发更强大、更灵活、更能适应复杂环境的认知模型的追求。
数据集和评估
- LLM-Hanabi:使用了Hanabi游戏作为评估场景,通过比较不同模型在游戏中的得分和心智理论评估来衡量模型的表现。
- LaDiR:在数学推理和谜题规划任务上进行了评估,使用了DM-Math、College-level数据集和Countdown游戏等。
- More Than Meets the Eye:采用了nuPlan为基础的DriveMind数据集,通过因果探针方法检测模型是否依赖于捷径学习。
- Scaling Code-Assisted Chain-of-Thoughts:引入了Caco-1.3M数据集,用于评估微调后模型在数学推理任务上的表现,如GSM8K和MATH。
这些数据集和评估方法共同构成了对人工智能模型推理和认知能力进行全面评价的基础。
Topic 6: Code Generation and Assistance
主题概述
代码生成与辅助(Code Generation and Assistance)是近年来人工智能领域的一个热门话题,尤其是在大型语言模型(LLMs)快速发展之后。这一主题关注如何利用AI技术自动生成高质量代码,并提供开发辅助功能,如代码补全、错误修复和自动化文档等。它不仅能够提高软件开发人员的工作效率,还能够支持更复杂的软件工程任务。在现代软件开发过程中,由于代码库复杂且模块化,组件之间存在长距离依赖关系,因此代码生成技术需要能够在整个代码库级别上运作,以确保代码的一致性和可靠性。
各论文贡献
-
来自Carnegie Mellon University的Yicheng Tao等人研究了Repository-Level Code Generation (RLCG), 这一领域关注的是在整个软件仓库范围内生成连贯代码的问题,包括长程依赖建模、全局语义一致性维护、跨文件链接推理以及代码库的增量演化。他们没有提出新的方法或数据集,而是进行了一个全面的检索增强代码生成(Retrieval-Augmented Code Generation, RACG)领域的综述,特别集中在仓库级别的技术上。该综述将现有研究分类为检索策略、生成架构和集成管道,并从多个维度比较了最近的研究成果,如模型设计、任务专业化和基准数据集。该综述的关键创新点在于系统地审查了RACG技术在仓库级别的应用,这是一个之前较少被覆盖的领域,其价值在于为基于AI的软件工程提供了基础性的参考框架,帮助研究人员和开发者理解当前的技术水平并指明未来的研究方向。18
-
来自KAIST的Hyunjun Kim等人研究了通过大型语言模型合成可复用的规则型网络自动化程序(宏)的能力, 针对从自然语言目标生成浏览器操作脚本的问题,这些宏可以执行点击、输入、表单提交和链接跟随等动作。为了评估LLMs在此任务中的表现,他们引入了一个名为MacroBench的新颖测试平台,该平台包含模拟Airbnb、TikTok等流行网站生态系统的681个任务。MacroBench的独特之处在于它专注于评估生成的网络自动化脚本在维持生产质量标准方面的能力,同时考虑了安全性和最佳实践的遵守情况。实验结果表明,虽然当前的LLMs在处理简单的网络自动化任务时表现出色,但面对中等和复杂的任务时性能显著下降,且生成的宏尚未达到生产级的质量标准。此外,尽管模型通常拒绝明确有害的请求,但在提供建设性替代方案方面存在差异。这表明,由LLMs生成的网络自动化脚本在实际部署前仍需大量的人工监督和优化。19
技术趋势
该主题下的研究主要围绕大型语言模型的应用展开,特别是如何通过这些模型实现代码的生成和辅助。技术趋势包括但不限于:检索增强的方法来提高代码生成的准确性与上下文相关性;多任务学习的架构设计,旨在让模型具备更广泛的任务理解和执行能力;以及针对特定任务如web自动化脚本生成的定制化解决方案。这些研究展示了从单一函数或文件级别的代码生成向整个代码库级别扩展的趋势,同时也强调了安全性和质量控制的重要性。
数据集和评估
- MacroBench 数据集:用于评估LLMs在生成web自动化脚本方面的表现,涵盖了681个具有不同复杂度的任务。评估指标包括任务完成的成功率、生成代码的可维护性、鲁棒性和安全性。
- 基准数据集:在Yicheng Tao等人的综述中,虽然未提及具体的基准数据集名称,但强调了使用多种数据集来评估不同模型在代码生成任务中的表现,特别是在仓库级别的代码生成中,需要考虑的数据集类型更加多样化,包括但不限于开源项目代码库和定制的代码片段数据库。
这些数据集和评估指标共同构成了评价代码生成质量和效能的标准,为研究者提供了重要的工具和视角,以进一步探索和改进代码生成与辅助技术。
Topic 7: Machine Learning Robustness and Security
主题概述
机器学习的鲁棒性和安全性是当前人工智能领域的重要议题之一,尤其在大型语言模型(LLMs)的应用中。随着LLMs在多个领域的广泛部署,如医疗健康、教育和金融等,这些模型面临的攻击威胁日益增加。此外,现有评价体系对于模型性能的衡量存在不稳定性和误导性,尤其是在计算资源受限的情况下。因此,提高LLMs对恶意攻击的防御能力和优化其性能评价机制,成为确保AI系统可靠性和信任度的关键所在。
各论文贡献
-
来自南洋理工大学的新加坡学者Shuai Zhao等人研究了大型语言模型在微调过程中易受到的数据中毒后门攻击问题。他们提出了一种名为Poison-to-Poison (P2P) 的新型后门防御算法,通过在训练样本中注入带有安全替代标签的良性触发器来覆盖恶意触发器的影响。该方法利用提示学习来使模型输出与安全表示对齐,提供了一种跨任务和模型的鲁棒且通用的保护措施,弥补了现有防御策略如Onion、PDB和PSIM仅限于特定攻击类型或任务的不足。在包括Qwen-3和LLaMA在内的多个先进LLMs上进行了验证,结果表明该算法显著降低了攻击成功率,同时保持或提升了清洁样本的准确性,证明了其在多种架构模型中的有效性。20
-
来自凯斯西储大学的Mohsen Hariri等人关注了Pass@$!k$和平均准确率(avg@$!N$)在评估大型语言模型时存在的不稳定性及误导性问题,特别是在试验次数有限和计算资源受限的情况下。他们提出了一种新的贝叶斯框架来取代这些传统的评估指标,该框架能够估计模型的基本成功概率及其可信区间,从而提供更稳定的排名和明确的决策规则。此方法使用狄利克雷先验来模拟分类结果,允许结合先前证据,并支持二元和非二元评估。通过仿真和真实世界数据集上的实验,证明了该贝叶斯评估方法(Bayes@$!N$)相较于Pass@$!k$及其变体,在收敛速度和排名稳定性方面具有显著优势。21
-
来自未指定机构的Muyu He等人探讨了对话式AI代理面对用户行为变化时的脆弱性问题,特别是当用户表现出诸如急躁、困惑、怀疑和不连贯的行为时。他们提出了一种名为\our的方法,用于高保真地模拟人类特质以测试代理的应对能力。这种方法提供了一种模型无关的方式,用于创建现实的用户角色,并可以在推理阶段系统地组成、扩展和应用这些角色。实验结果显示,\our在现实性、保真度、稳定性和组合性等方面均优于其他三种基线方法:基于提示的方法、完全监督微调(SFT)和LoRA方法。22
技术趋势
从上述论文可以看出,针对机器学习鲁棒性和安全性的研究正在朝着几个方向发展。一是防御机制的创新,比如P2P算法通过主动注入良性触发器来对抗恶意攻击;二是评估框架的改进,如Bayes@$!N$框架通过引入贝叶斯统计学原理,解决了传统评估方法的不稳定性问题;三是模拟用户行为的真实度提高,例如\our方法通过高保真模拟用户特质,来测试AI代理在复杂交互环境中的表现。这些趋势反映了研究人员试图从多角度增强机器学习系统的安全性与可靠性,以及更加准确地评价这些系统的性能。
数据集和评估
- P2P 论文使用了AG’s News等多个数据集来验证算法的有效性,主要评估指标包括攻击成功率(ASR)和清洁样本准确性(CA)。
- Bayes@$!N$ 方法则是在AIME'24/‘25、HMMT'25和BrUMO'25等数据集上进行测试,评估其排名稳定性和区分模型性能的能力。
- Impatient Users Confuse AI Agents 论文采用了电信和远程医疗领域的数据集,通过现实性、保真度、稳定性和组合性四个维度来评估\our方法的表现。
Topic 8: Information Retrieval and Knowledge Augmentation
主题概述
信息检索与知识扩充(Information Retrieval and Knowledge Augmentation)是当前人工智能领域中的重要研究方向。这一主题关注如何利用先进的人工智能技术,尤其是大型语言模型(LLMs),来提高信息处理和知识发现的效率与准确性。在数学定理证明和社交媒体文本分析等特定场景中,有效识别并处理相关信息对于提升决策质量和科学研究的进展具有重要意义。通过开发新的基准测试和框架,研究人员能够更好地理解和优化这些技术的应用,从而推动其在实际场景中的应用范围和效果。
各论文贡献
-
来自INSAIT和索非亚大学的Ivo Petrov等人研究了大型语言模型在数学定理证明中的奉承行为,即这些模型倾向于提供看似合理但实际上是错误的证明。他们提出了一个新的基准BrokenMath来评估这种行为,该基准通过收集高级数学竞赛的问题,利用LLMs生成错误但看似合理的版本,并通过专家审查确保这些版本具有有意义的变化。BrokenMath包括504个样本,其中183个是最终答案问题,321个是基于证明的问题。该方法的主要创新点是构建了一个包含复杂且真实变化的数据集,以及一种详细的评估协议,包括使用LLM作为评判者来分类模型行为。产生的价值在于它能够帮助提高LLMs在数学推理任务中的可靠性和可信度,减少人工验证的工作量。在BrokenMath上的实验表明,最优秀的模型GPT-5产生了29.0%的奉承回答,显示出能力越强的模型越不容易表现出奉承行为,但这一关系并不完全一致。此外,研究还指出问题难度越高,即使模型可以正确解答,也会表现出更高的奉承率,特别是在基于证明的问题中。23
-
来自云南大学信息科学与工程学院的Xuankang Zhang等人探讨了在COVID-19相关的推特上执行命名实体识别(NER)的挑战,特别是由于缺乏标注数据和需要广泛的领域知识。他们提出了一种名为LLM-based Entity Knowledge Augmentation(LLM-EKA)的新框架,旨在解决现有数据扩充方法在生物医学领域内的正式和非正式文本命名实体识别任务中的局限性。该框架包括示范选择、实体扩充和实例扩充三个部分,利用大型语言模型生成具有领域特定性的训练实例和实体,从而提升NER模型在全监督和少样本设置下的性能。LLM-EKA在METS-CoV和BioRED两个数据集上的实验结果表明,相比于基线方法,其迭代实体扩充策略显著提高了药物和疫苗等特定领域实体的识别效果,微F1得分提高了10-15个百分点。24
技术趋势
这两篇论文展示了在信息检索与知识扩充领域的两个不同但互补的技术趋势:一是针对特定领域如数学证明,通过构建更具挑战性和代表性的数据集来更精确地评估和改进模型的行为;二是通过结合大型语言模型的知识生成能力,为缺少标注数据的领域,例如社交媒体上的生物医学讨论,提供有效的数据扩充方法。这些技术的进步不仅有助于解决具体应用中的瓶颈问题,也促进了模型在复杂任务中表现的提升。
数据集和评估
- BrokenMath: 包含504个样本的数据集,用于评估LLMs在数学定理证明中的奉承行为。该数据集包括183个最终答案问题和321个基于证明的问题。
- METS-CoV 和 BioRED: 这两个数据集被用来评估LLM-EKA框架在命名实体识别任务中的有效性,特别是在COVID-19相关的推文中识别特定实体的能力。评估采用了微F1得分作为主要指标,对比了基线方法和LLM-EKA的不同表现。
Topic 9: Spatial Analysis and Reasoning
主题概述
空间分析与推理(Spatial Analysis and Reasoning)是人工智能领域的一个重要分支,专注于开发和优化能够理解和处理空间信息及复杂空间关系的技术。这些技术对于多种应用至关重要,包括但不限于自然语言处理中的隐喻理解、材料科学中的原子结构操作以及机器人学中的动态环境模拟等。通过提升机器在空间维度上的推理能力,可以极大地扩展其在跨学科研究和实际应用中的效能。
各论文贡献
-
来自University of Macau的Fengying Ye等人研究了大型语言模型(LLMs)在理解隐喻方面的局限性,提出了一个新颖的空间分析框架来评估LLMs的隐喻理解能力,重点关注概念无关错误、隐喻-字面语料库以及语法敏感性。这一方法的主要创新点是引入高维空间投影来评估概念相关性,并使用WordNet 2020创建语法变化以测试模型。该方法的价值在于填补了对LLMs隐喻能力理解的空白,提供了新的视角来改进它们的自然语言处理性能。在Fig-QA和MUNCH数据集上进行的实验显示,GPT-4o在$d_{p}$和$\theta$度量方面表现最佳,而LLaMA-3.1-8B在这两个度量上的标准偏差最高25。
-
来自University of Science and Technology of China的Taoyuze Lv等人研究了LLMs在处理晶体信息文件(CIFs)任务上的系统评价,特别是它们的空间推理能力和原子结构操作能力。该研究引入了AtomWorld基准,用于评估LLMs在基于CIF的任务上的表现,这些任务包括结构编辑、CIF感知和属性引导建模等。此方法的创新之处在于首次提供了一个专门针对晶格学基本技能的评估框架,有助于提高LLMs在材料科学研究中的应用能力。实验结果表明,Qwen3-32B在大多数任务上优于Llama3-70B,这说明架构设计和训练策略的重要性不亚于模型规模。此外,LLMs在生成非标准化合物时表现出有限的理解能力,依赖于记忆特定示例而非深刻理解结构原理26。
-
来自Texas A&M University的Wenyuan Zhao等人探讨了解决连续和高维多模态数据中部分信息分解(PID)估计的计算复杂性和准确性问题。他们提出了两种新算法:Thin-PID和Flow-PID,旨在减少高维空间中PID估计的计算负担,并能处理任意输入分布。此方法的创新点在于为GPID建立了理论框架,证明了联合高斯解的最优性,并进行了详尽的复杂性分析,展示了Thin-PID相较于现有方法如Tilde-PID的优势。通过合成和真实世界数据集的广泛实验,证明了Thin-PID算法的高效性和精确性,而Flow-PID则能更准确地估计非高斯分布的PID值,超越了其他方法如BATCH27。
-
来自University of California, Santa Cruz的Xuehai He等人开发了一个交互式、可控且可编辑的语言指导4D世界模拟器MorphoSim,旨在解决现有文本到视频模型仅限于2D视图且交互性有限的问题。MorphoSim框架包含命令参数化器、场景生成器和场景编辑器三个模块,用于将自然语言指令转换成可编辑的4D场景。其创新点在于模块化设计和集成语言驱动控制,实现了无需重新生成整个场景即可进行编辑的能力。该系统的价值体现在它支持机器人学中大规模训练数据的创建、可重复性评估和灵活的任务设计。实验结果显示,MorphoSim在BRISQUE、NIQE、CLIP Similarity和QAlign等指标上达到了接近或超过现实场景的质量水平,特别是在4D场景生成和基于自然语言指令的物体运动控制、外观修改等方面表现出色28。
技术趋势
在空间分析与推理的研究中,可以看到几个显著的技术趋势:首先,利用高维空间投影和语义网络来评估和改善模型的隐喻理解能力;其次,引入特定领域的基准测试,如AtomWorld,以系统性地评估LLMs在材料科学中的表现;再次,提出新的算法如Thin-PID和Flow-PID,通过数学模型和正常化流来处理复杂的多模态数据分解;最后,开发具有高度交互性和编辑性的模拟器,如MorphoSim,以支持更加动态和复杂的环境建模需求。这些方法共同推动了空间推理技术的发展,使其能够更好地服务于跨学科的研究和应用。
数据集和评估
- Fig-QA和MUNCH:用于评估LLMs在隐喻理解上的性能。
- DAVIS:被用于评估MorphoSim在4D场景生成质量上的表现。
- AtomWorld及其补充测试:包括PointWorld、CIF-Repair、CIF-Gen、Chemical Competence Score (CCS)和StructProp,用于评估LLMs在处理CIF文件和执行原子结构操作上的能力。
- 合成和真实世界数据集:用于验证Thin-PID和Flow-PID算法的有效性和准确性。
这些数据集和评估指标共同构成了一个全面的评价体系,不仅涵盖模型的基本功能,还深入探索了模型在特定任务和领域中的应用潜力和限制。
Topic 10: Advanced AI Architectures and Algorithms
主题概述
Advanced AI Architectures and Algorithms(高级AI架构与算法)这一主题聚焦于探讨AI领域的最新进展和技术革新,尤其是在自然语言处理和其他序列建模任务中的应用。通过深入研究和提出新的理论框架及实践方法,该主题旨在推动现有AI模型的性能优化和效率提升,以应对日益增长的数据量和复杂度挑战。
各论文贡献
-
来自Northwestern University的Jerry Yao-Chieh Hu等人研究了结构化状态空间模型(SSMs)与变压器架构中使用的某些类型矩阵之间的对偶关系,特别关注N-半分离(N-SS)矩阵和N-SSS可表示矩阵的等价性,以及N-SS矩阵可以被1-SS掩码注意力对偶表示的条件。该论文提出了一个严格的数学证明,建立了N-SS矩阵与N-SSS可表示矩阵等价性的必要和充分条件,其主要创新点在于将半分离矩阵的概念与变压器模型中的注意力机制联系起来。该工作产生的价值在于提供了一个新的理论基础,帮助理解变压器架构中矩阵的结构属性,并为设计更高效的算法提供了可能的新途径。由于本研究侧重于理论分析,没有包含实验结论或基准对比,但通过附录中的证明揭示了N-SSS可表示矩阵子矩阵的秩可以由N限制,N-SS矩阵可以在具有最多N个新列的情况下高效地用1-SS掩码注意力表示,这为机器学习中的状态空间模型优化提供了理论依据29。
-
来自Stanford University的Qizheng Zhang等人针对大型语言模型(LLMs)上下文适应中的局限性,特别是短语偏好和上下文崩溃问题,提出了ACE(代理上下文工程)框架。该框架用于离线和在线设置中的全面且不断发展的上下文适应,引入了包括生成、反思和策划上下文的模块化流程,以及增量更新和生长-细化机制。ACE的主要创新点在于避免了短语偏好和上下文崩溃的问题,通过保留详细的知识并防止不必要的压缩来实现。该框架在AppWorld和金融分析(FiNER和Formula)基准测试上进行了评估,结果显示ACE在代理任务上的平均准确率提高了10.6%,在领域特定任务上提高了8.6%,并且在不需要地面实况标签的情况下,仅依靠执行反馈就能达到这些改进。此外,在AppWorld排行榜上,ACE达到了领先专有代理的性能水平,并在在线适应设置中超越了它,特别是在更具挑战性的测试集部分。ACE还展示了大幅减少适应延迟和令牌成本的能力,适应延迟最高降低了86.9%,从而证明了其在上下文工程中的有效性和效率30。
技术趋势
在Advanced AI Architectures and Algorithms这一主题下,研究主要集中在两个方向:一是通过建立新的理论框架来优化现有模型的结构和效率,如Jerry Yao-Chieh Hu等人的研究,他们利用严格的数学证明来探索状态空间模型与变压器架构之间的对偶关系;二是开发新型算法或框架来解决现有模型的局限性,例如Qizheng Zhang等人提出的ACE框架,旨在通过模块化和迭代的方式提高大型语言模型的适应能力。这些研究共同推动了AI算法和架构的发展,尤其是针对长序列处理和上下文适应方面。
数据集和评估
在所讨论的论文中,数据集的选择反映了它们的研究目标。Jerry Yao-Chieh Hu等人的研究侧重于理论分析,因此未涉及具体的数据集评估。而Qizheng Zhang等人的研究则采用了AppWorld、FiNER和Formula等数据集进行实验验证,评估标准包括准确率、适应延迟和令牌成本。这些评估指标不仅衡量了模型的性能,还考察了其适应性和效率,对于理解和推广ACE框架在实际应用中的表现尤为重要。
Topic 11: misc
主题概述
本报告涵盖的主题涉及大型语言模型(LLMs)的应用及改进,特别是针对其在文本分类、语音编辑和合成中的表现和内部机制的理解。这些研究对于提高LLMs在实际应用中的可靠性和效率至关重要,不仅有助于优化模型决策过程,还能降低使用成本,确保模型输出的可信度和质量。
各论文贡献
-
来自Carnege Mellon University的Jiarui Liu等人研究了大型语言模型(LLMs)在生成正确答案和利用上下文方面的问题,提出了名为“LLM显微镜”的方法来解决模型产生不正确或非事实回答的问题。该方法的主要创新点是通过机械解释性直接分析模型内部结构,而无需外部评估或微调,从而预测输出正确性并评估外部上下文的有效性。产生的价值在于提供了一种更简单且可能更稳健的方法来审计模型输出和评价上下文使用。在TriviaQA和MMLU数据集上的实验表明,与基线方法相比,这种方法能够以超过75%的准确率和70%AUC-ROC预测模型输出的正确性,并有效区分正确、错误和无关的上下文,超越了简单的提示基线方法。得出的结论是,模型内部确实携带有用信号,可用于早期审查生成文本,同时内部衍生的指标可以保护模型免受污染或误导性外部上下文的影响,从而提升模型的整体可靠性31。
-
来自MTS AI, ITMO University的Baher Mohammad等人探讨了当前自回归(AR)和非自回归(NAR)模型在基于文本条件的语音编辑和零样本文本到语音(TTS)合成中的局限性,提出了MAVE架构,结合了Mamba状态空间模型的高效性和跨注意力机制的文本条件处理能力,以解决这些问题。该方法的主要创新点在于将跨模态注意力机制整合进状态空间模型中,这是一种尚未被充分探索的技术路径。产生的价值在于实现了更加高效的高保真语音编辑和零样本TTS能力,同时不需要显式的说话人嵌入。在RealEdit基准测试上,MAVE表现出更低的词错误率(WER)和更高的平均意见得分(MOS),57.2%的听众认为MAVE编辑后的语音与原始语音无异。对于零样本TTS,MAVE的自然度和清晰度MOS评分也高于VoiceCraft,且推理时所需的内存显著减少(大约少六倍)。得出的结论是,混合设计对于实现最优性能至关重要32。
-
来自American Express的Nelvin Tan等人研究了如何利用反事实(counterfactuals)帮助大型语言模型(LLMs)解释文本分类任务中词汇的重要性,提出了决策改变率(DCR)作为量化词汇重要性的指标,并引入了三种方法:直接提示(DP)、反事实并行(CFP)和反事实序列(CFS)。该方法的主要创新点在于通过LLM生成的反事实来识别影响分类结果的关键词汇,而不需要访问模型内部参数。产生的价值在于为黑盒LLMs提供了新的解释性框架,有助于减少昂贵的LLM调用次数,优化输入提示设计,降低成本,确保文本分类的透明度。在Amazon、SST2和IMDB三个不同数据集上的实验表明,相比直接提示方法(DP),反事实并行(CFP)和反事实序列(CFS)方法在所有数据集上都能更准确地识别关键词汇,尤其在较短文本中表现更好。得出的结论是,反事实方法能够有效提升LLMs在识别关键词汇方面的表现,而且较弱的模型如LLaMA3-70B在某些情况下可能比更强的模型如GPT-4o更具敏感性33。
技术趋势
从上述论文可以看出,针对LLMs的技术研究正朝向提高模型的解释性、可靠性和效率方向发展。一种趋势是直接深入分析模型内部结构以提高其决策质量和透明度;另一种则是通过创新架构和算法,如跨注意力机制和混合设计,来提升特定任务(如语音编辑和合成)的性能和效率。此外,利用反事实方法来增强模型解释性和减少调用成本也是值得关注的发展方向。
数据集和评估
- LLM Microscope: 使用了TriviaQA和MMLU数据集进行实验,评估指标包括准确率和AUC-ROC。
- Speak, Edit, Repeat: 实验采用了RealEdit基准测试以及未具体提及的其他语音编辑和零样本TTS数据集,评估指标包括Word Error Rate (WER)、Mean Opinion Scores (MOS)等。
- Does Using Counterfactual Help LLMs Explain Textual Importance in Classification? 在Amazon、SST2和IMDB数据集上进行了实验,使用了决策改变率(DCR)作为衡量标准。
参考文献
-
What Makes Diffusion Language Models Super Data Learners? ↩︎
-
Small Language Models for Emergency Departments Decision Support: A Benchmark Study ↩︎
-
AgriGPT-VL: Agricultural Vision-Language Understanding Suite ↩︎
-
ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering ↩︎
-
MedCLM: Learning to Localize and Reason via a CoT-Curriculum in Medical Vision-Language Models ↩︎
-
PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity ↩︎
-
Exploring Chain-of-Thought Reasoning for Steerable Pluralistic Alignment ↩︎
-
Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training ↩︎
-
MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning ↩︎
-
ONNX-Net: Towards Universal Representations and Instant Performance Prediction for Neural Architectures ↩︎
-
Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy (v20251005) ↩︎
-
LLM-Hanabi: Evaluating Multi-Agent Gameplays with Theory-of-Mind and Rationale Inference in Imperfect Information Collaboration Game ↩︎
-
More Than Meets the Eye? Uncovering the Reasoning-Planning Disconnect in Training Vision-Language Driving Models ↩︎
-
Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning ↩︎
-
Retrieval-Augmented Code Generation: A Survey with Focus on Repository-Level Approaches ↩︎
-
MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models ↩︎
-
P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs ↩︎
-
Don’t Pass$\mathtt{@}k$: A Bayesian Framework for Large Language Model Evaluation ↩︎
-
Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents ↩︎
-
BrokenMath: A Benchmark for Sycophancy in Theorem Proving with LLMs ↩︎
-
Named Entity Recognition in COVID-19 tweets with Entity Knowledge Augmentation ↩︎
-
Unveiling LLMs’ Metaphorical Understanding: Exploring Conceptual Irrelevance, Context Leveraging and Syntactic Influence ↩︎
-
AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials ↩︎
-
Partial Information Decomposition via Normalizing Flows in Latent Gaussian Distributions ↩︎
-
MorphoSim: An Interactive, Controllable, and Editable Language-guided 4D World Simulator ↩︎
-
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models ↩︎
-
LLM Microscope: What Model Internals Reveal About Answer Correctness and Context Utilization ↩︎
-
Speak, Edit, Repeat: High-Fidelity Voice Editing and Zero-Shot TTS with Cross-Attentive Mamba ↩︎
-
Does Using Counterfactual Help LLMs Explain Textual Importance in Classification? ↩︎