2025年10月07日NLP论文汇总(中文)
- Topic 1: Multimodal Reasoning and Integration (6 papers)
- Topic 2: Knowledge Graphs and Semantic Understanding (5 papers)
- Topic 3: Large Language Model Optimization and Adaptation (11 papers)
- Topic 4: Reasoning and Cognitive Processes (5 papers)
- Topic 5: Evaluation and Metrics (4 papers)
- Topic 6: Cross-Lingual and Multilingual Models (7 papers)
- Topic 7: Reinforcement Learning and Adaptive Systems (14 papers)
- Topic 8: Generative Agents and Social Simulations (6 papers)
- Topic 9: Natural Language Processing and Understanding (8 papers)
- Topic 10: Bias Detection and Mitigation (7 papers)
- Topic 11: misc (19 papers)
Topic 1: Multimodal Reasoning and Integration
主题概述
多模态推理与整合是人工智能领域中的一个重要研究方向,它涉及如何让模型从多种不同类型的数据源(如文本、图像、音频等)中提取信息并进行综合分析,以实现更高级别的理解与应用。这一领域的研究对于提高AI系统处理复杂任务的能力至关重要,尤其是在生物学、语音识别以及自然语言处理等多个应用场景中,多模态技术的进步能够推动跨学科的研究与发展,促进智能系统的进一步成熟与实用化。
各论文贡献
-
来自Virginia Tech的Sajib Acharjee等人研究了大语言模型(LLMs)和代理框架在单细胞生物学中的应用问题,提出了LLM4Cell来解决单细胞生物学中数据模态、监督类型及评估标准不一致的问题。该方法的主要创新点是引入了一个统一的分类法,涵盖了五种方法学家族,并使用十维度评分标准评估每个模型。产生的价值在于提供了标准化基准数据集,促进了跨模型比较和再现性。虽然没有提及具体的实验结果,但强调了标准化基准的重要性1。
-
来自King Abdullah University of Science and Technology的Alhim Vera等人研究了多模态生成代理在社交模拟环境中安全性的评价问题,提出了一个可重现的模拟框架用于评估这些代理的安全性。该框架的核心创新在于构建了包含1,000个社交活动场景描述的数据库,每个场景都配有安全和不安全计划及其对应图片,以此来模拟各种社会情境。产生的价值在于填补了MLLM(多模态大型语言模型)代理在动态社交环境中的评价空白。通过实验发现,Claude 3.5 Sonnet在减少不安全行为方面表现最佳,达到了75%的成功转换率,而其他模型如GPT-4o-mini和Qwen-VL则分别达到55%和58%的成功率2。
-
来自MaiNLP lab的Verena Blaschke等人探讨了NLP工具在处理标准语言到方言转移时的稳健性问题,特别是针对德语及其方言。该工作的主要创新在于创建了一个新的带有意图和话题分类的口语数据集,并评估了专门用于语音识别的NLP模型在方言数据上的表现。产生的价值在于揭示了语音模型在处理方言数据上的优势,尤其是Whisper large-v3在方言数据上表现出显著的准确性提升3。
-
来自Kunming University of Science and Technology的Yuxin Huang等人研究了多语言生成检索的有效实施问题,提出了一种名为**Multilingual Generative Retrieval via Cross-lingual Semantic Compression (MGR-CSC)**的新框架,以解决跨语言标识符错位和多语言标识符膨胀的问题。该方法的创新之处在于通过跨语言语义压缩构建文档ID,使多语言文档共享语义空间,并采用动态约束的多步骤解码策略来降低解码复杂度。产生的价值在于提高了多语言信息检索的质量,特别是在资源较少的语言上。实验结果显示,MGR-CSC在mMarco100k和mNQ320k数据集上实现了更高的召回率,同时减少了DocID令牌的数量,提升了解码效率和可扩展性4。
-
来自Krutrim AI的Dhruv Jain等人研究了语音助手在代理任务中的准备情况,设计了VoiceAgentBench (VAB)基准测试,旨在评估语音语言模型(SpeechLMs)在多语言、文化背景复杂的实际对话场景中的能力。该方法的创新点在于利用基于说话者嵌入的新采样算法,模拟不同的口音、说话风格和声音特征,以增强评估的真实性和多样性。产生的价值在于填补了现有评估体系忽视的多语言和文化敏感性方面的空白。实验表明,尽管像KimiAudio 7B这样的大型SpeechLMs在某些任务上表现出色,但在需要复杂工具调用和文化背景理解的任务中仍落后于ASR-LLM管道5。
-
来自未指定机构的Yi-Jen Shih等人研究了如何增强语音大型语言模型(speech LLMs)在复杂推理任务中的能力,同时保持实时响应。他们提出了“边听边思考”的新范式,专注于通过细粒度调整将chain-of-thought (CoT)推理纳入语音LLMs。主要创新点包括多流架构的并发处理用户语音和推理标记,以及一个新的问题完整度(QC)度量和基于DPO训练的偏好调整方案。产生的价值在于提升了语音LLMs在复杂推理任务中的性能,同时保持了低延迟。实验显示,相比于Moshi基线和其他预训练的大规模数据集,这种方法在多种口语推理任务上表现更佳6。
技术趋势
在多模态推理与整合领域,技术趋势呈现出几个关键方向:一是通过构建统一的分类法或框架来解决不同数据模态之间的整合问题,如LLM4Cell和MGR-CSC;二是开发新的评估方法和基准测试,以确保模型在真实世界应用中的安全性和可靠性,例如VoiceAgentBench和Multimodal Safety Evaluation;三是探索如何将复杂推理能力融入到语音模型中,实现更加智能化的交互,如Can Speech LLMs Think while Listening?所提出的“边听边思考”范式。这些努力共同推动了该领域向更加实用化、智能化的方向发展。
数据集和评估
- LLM4Cell: 使用了超过40个公开可用的数据集,涵盖RNA、ATAC、多组学、空间、扰动和植物领域。
- Multimodal Safety Evaluation: 构建了包含1,000个社交活动场景描述的数据集,每个场景都配有一套安全和不安全计划及其对应的图片。
- Standard-to-Dialect Transfer Trends Differ across Text and Speech: 引入了新的带有意图和话题分类的口语数据集,用于评估德语及其方言的NLP模型。
- Multilingual Generative Retrieval via Cross-lingual Semantic Compression: 提供了两个新的多语言数据集mMarco100k和mNQ320k,覆盖了广泛的语言,包括资源较少的语言。
- VoiceAgentBench: 包含超过5,500个合成语音查询,涵盖7种语言,包括英语、印地语及其他5种印度语言。
- Can Speech LLMs Think while Listening?: 采用了从已建立的文本基准中导出的一系列单轮口语推理任务作为评估集,同时引入了QC度量来控制推理过程中的准确性与延迟之间的平衡。
Topic 2: Knowledge Graphs and Semantic Understanding
主题概述
知识图谱与语义理解是人工智能领域中的重要课题,旨在通过结构化的知识表示和深度学习技术提高机器的理解能力和推理能力。随着多语言知识图谱和大型语言模型的发展,如何有效利用这些资源进行知识补全、推理以及合成特定风格的语音成为当前的研究热点。这些研究不仅有助于完善知识图谱,还能提升自然语言处理任务的表现,包括信息检索、问答系统、机器翻译等。此外,对大型语言模型内部知识和偏见的理解,以及如何控制和编辑这些知识,对于提高其可靠性和公平性具有重要意义。最后,通过模拟人类非字面表达(如讽刺)的方式,可以进一步丰富人机交互的体验,使机器生成的语音更加自然和富有表现力。
各论文贡献
-
来自昆明理工大学信息工程与自动化学院的Cunli Mao等人研究了多语言知识图谱补全(MKGC)方法中存在的效率低下和局限性问题,提出了Knowledge-level Grouped Mixture of Experts (KL-GMoE)和Iterative Entity Reranking (IER)框架来解决这些问题。该方法的主要创新点在于引入了一种新的专家路由机制和迭代实体重排名策略,以更有效地处理多语言知识和提高实体预测的准确性。产生的价值在于显著提升了多语言知识图谱的完整性与一致性,使得知识图谱在实际应用中更具价值。在多个语言的数据集上进行的实验表明,相比现有的最先进方法,该框架在Hits@1、Hits@3、Hits@10及MRR等指标上均有显著提升7。
-
来自University of Tübingen和ScaDS.AI Dresden/Leipzig & TU Dresden的Shrestha Ghosh等人研究了前沿大型语言模型(LLMs)内部的知识结构及其潜在偏差问题。他们提出了一种通过大规模递归知识挖掘构建知识库的方法,并使用此知识库对GPT-4.1进行了深入分析。该方法的主要创新点在于通过大规模知识提取揭示模型内部的知识与偏差,这与传统的基于样本的研究或直接查询方法形成鲜明对比。产生的价值在于提供了关于前沿LLMs内部知识结构的新视角,帮助改进模型的可靠性和公平性。实验显示,虽然GPT-4.1的整体知识准确率为75%,但仍然存在不一致、模糊和幻觉等问题8。
-
来自KAIST和Amazon的Soyeong Jeong等人探讨了长文本语言模型(LCLMs)在执行复杂知识密集型多跳推理任务时面临的挑战。他们开发了Thought Template Augmented LCLMs(ToTAL)框架,通过构建和迭代优化可复用的推理模式来改善LCLMs处理复杂证据的能力。该方法的主要创新点在于利用训练数据构造推理模板并结合自然语言反馈进行优化,从而提供结构化指导,增强LCLMs的推理能力。产生的价值在于无需额外的模型微调即可显著提高LCLMs在多跳问答任务上的性能。实验结果显示,ToTAL在MuSiQue、CRAG、FanOutQA和Housing QA等多个基准测试中均超越了现有方法9。
-
来自HKUST(GZ)和Deep Interdisciplinary Intelligence Lab的Jiayu Yang等人研究了在大型语言模型中进行多跳事实召回时现有知识编辑(KE)方法存在的性能衰退问题,特别是当推理链涉及隐式主体时。他们提出了AcE(Attribution-Controlled Knowledge Editing)框架,该框架通过神经元级别的归因来识别和编辑关键的查询值路径,以提升多跳推理的准确性。该方法的主要创新点在于对神经元级别知识链路的系统性理解和编辑,尤其适用于多跳推理任务。产生的价值在于提供了一个新的途径来增强KE的能力,基于对LLMs内部推理机制的深刻理解。实验结果表明,AcE框架在MQuAKE-3K数据集上显著优于其他方法,在GPT-J和Qwen3-8B上分别实现了9.44%和37.46%的性能提升10。
-
来自多个未指定机构的Zhu Li等人关注于讽刺语音合成这一具有挑战性的任务,即如何通过技术手段让机器生成听起来带有讽刺意味的语音。他们提出了一种结合了LoRA微调的LLaMA 3和检索增强生成模块的框架,用于捕捉讽刺相关的语义嵌入和寻找合适的韵律示例。该方法的主要创新点在于融合了语义和韵律建模技术,以实现更自然且富有表现力的讽刺语音合成。产生的价值在于填补了现有TTS研究中关于讽刺语音合成的空白,提升了讽刺表达的自然度和准确性。实验表明,相比标准VITS模型及其他基线方法,该框架在自然度、表达性和下游讽刺检测方面均有显著提升11。
技术趋势
本主题下的论文展示了从不同的角度和技术路线探索知识图谱和语义理解的进展。Cunli Mao等人的工作侧重于多语言知识图谱补全的效率和跨语言知识共享;Shrestha Ghosh等人的研究则致力于通过大规模知识挖掘理解前沿LLMs的知识和偏见;Soyeong Jeong等人的ToTAL框架专注于通过构建可复用的推理模板来提高LCLMs的推理能力;Jiayu Yang等人的AcE框架则是针对多跳事实召回任务中的知识编辑问题,提出了神经元级的归因控制编辑方法;而Zhu Li等人的工作则是在TTS领域内,通过结合语义和韵律建模来实现讽刺语音的合成。总体来看,这些研究采用了先进的深度学习技术和知识图谱技术,展现了从知识补全到语义理解再到语音合成的广泛应用场景和技术创新。
数据集和评估
- Multilingual Knowledge Graph Completion: 使用了多种语言的知识图谱数据集,评估指标包括Hits@1、Hits@3、Hits@10及MRR。
- Mining the Mind: 构建了名为GPTKB v1.5的知识库,使用大规模递归知识挖掘技术,评估了GPT-4.1的知识准确率。
- Reusable Reasoning for Long-Context LMs: 使用了MuSiQue、CRAG、FanOutQA和Housing QA四个多跳问答基准数据集进行验证。
- Attribution-Controlled Knowledge Editing: 在专门设计用于评估多跳事实召回能力的MQuAKE-3K数据集上进行了广泛的实验,比较了AcE与其他KE方法的性能差异。
- Sarcastic Speech Synthesis: 利用了HiFi-TTS和MUStARD++两个数据集进行预训练和讽刺语音检索数据库的构建,并使用News Headlines Sarcasm数据集对LLaMA 3模型进行了微调,评估指标包括自然度、表达性和下游讽刺检测。
以上总结涵盖了知识图谱补全、大型语言模型内部知识分析、长文本推理能力提升、神经元级知识编辑以及讽刺语音合成等领域内的最新研究成果,突显了它们在各自领域的独特贡献和创新点。
Topic 3: Large Language Model Optimization and Adaptation
主题概述
大型语言模型(LLMs)优化与适应是当前人工智能领域的热点话题之一。随着LLMs在各种任务中的广泛应用,如何提高其性能、效率以及适应特定场景的能力成为了研究的重点。这些研究不仅关注于改进模型本身的架构和训练方法,还涉及如何通过不同的策略和技术提升LLMs在特定应用领域中的表现,如长文本处理、临床编码、非洲语言支持等。该主题的重要性在于它直接关系到AI技术能否更加高效地模拟人类的认知过程,并在实际应用中发挥更大的作用。
各论文贡献
-
来自Tel Aviv University的Imry Ziv等人研究了大型语言模型(LLMs),特别是GPT-2,在区分人类可能的语言与不可能的语言方面的敏感度。提出了六种扰动类型(全局打乱、局部打乱、部分反转、完全反转、交换、跳跃)应用于九种不同语言,以生成不可能的语言变体,进而通过跨语言困惑度指标评估学习难度。该方法的主要创新点在于扩展了先前的研究范围,不仅限于英语及其变体,而是覆盖了多种语言和扰动类型。产生的价值在于挑战了人类语言认知中的生成假设,即人类具有强大的内在学习偏见。在实验中发现,GPT-2未能系统地区分可能和不可能的语言,表明其在捕捉定义语言类型的内在人类学习偏见方面存在不足12。
-
来自Purdue University的Manish Nagaraj等人针对识别用于微调LLMs至下游任务的高影响力指令数据的问题,提出了TRIM(Token Relevance via Interpretable Multi-layer Attention)。TRIM利用注意力衍生的聚合显著性从模型隐藏状态构建一个基于标记的框架,从而更高效地选择样本并减少计算成本。主要创新点在于将注意力机制应用于标记层面,而非样本层面,这使得TRIM能够在多个数据集上提供更高的精度和效率。实验结果表明,TRIM在常识推理、社交推理、故事推理和数学推理任务上均优于其他方法,尤其是在低资源情况下表现出色13。
-
来自上海交通大学的Peize He等人提出AudioMarathon,这是一个专门设计用于评估LALMs(Large Audio Language Models)在处理长时间音频输入时的理解能力和推理效率的基准测试。AudioMarathon涵盖了一系列复杂的音频理解任务,包括语音、声音和音乐。该工作的创新点在于探索和量化了各种推理效率技术的有效性,如标记修剪和KV缓存驱逐。实验显示,Qwen2.5-Omni-3B模型在语音内容提取和音频分类任务上表现良好,而Frame方法和SnapKV策略分别在保留稀有或短暂声学事件和维持局部语义连贯性方面表现出色14。
-
来自University of Pennsylvania的Yuzhe Gu等人解决了在LLMs中处理长上下文输入时KV缓存的内存开销问题,提出了OBCache。该方法结合最优脑损伤理论,形成了一种新的KV缓存驱逐框架。主要创新点在于提供闭合形式的表达式来估计由修剪标记引起的注意力输出变化,增强了现有的驱逐策略。实验结果显示,OBCache及其变体在长上下文推理任务中表现出色,能够保持或提高模型准确性,同时减少KV缓存预算15。
-
来自University of Cambridge的Zhangdie Yuan等人探讨了使用LLMs进行门诊病历临床编码的准确性问题。提出了一个双专家标注的基准数据集,并开发了一个包含生成、扩展和验证步骤的流水线,以改善LLM预测的准确性。主要创新点在于轻量级干预措施,包括提示工程和小规模微调。实验表明,通过这种方法可以有效减少层次错位错误,提高整体准确性16。
-
来自York University的Md Tahmid Rahman Laskar等人研究了在资源受限环境中使用小型LVLMs作为图表理解任务的自动评判者。提出了多标准提示和领域适应性迁移学习两种方法。主要创新点在于利用合成评判数据集对小型LVLMs进行微调,使其能够有效执行图表相关任务。实验结果显示,尽管这些模型较小,但它们在成对评估上表现出色,并且能够有效地将知识转移到其他图表数据集上17。
-
来自Seoul National University的Jaeseong Lee等人解决的是推测解码方法在处理长上下文输入时的一般化问题。他们引入了LongSpecBench基准测试和OWL模型,后者通过使用仅依赖最后一个标记状态的LSTM草稿人来克服上下文长度依赖问题。主要创新点在于统一设计,通过单一超参数调整线性和全注意力行为之间的平衡。实验表明,OWL及其混合版本HOWL在长上下文推理任务中表现出色,特别是在接受长度和速度提升方面18。
-
来自Sunbird AI的Benjamin Akera等人致力于扩大LLMs对非洲语言的支持,特别是乌干达地区使用的语言。提出了Sunflower模型,这是基于Qwen 3基础模型的14B和32B参数版本,旨在支持乌干达的所有语言。主要创新点在于采用继续预训练、监督微调和直接偏好优化的强化学习相结合的方法,同时注重本地语言多样性和当地专业知识的融入。实验表明,Sunflower模型在机器翻译和AfriMMLU评估中取得了卓越的表现,显示出区域语言模型在提升多语言能力方面的潜力19。
-
来自Mahidol University的Watcharapong Timklaypachara等人研究了科学图示说明生成的问题,提出了一个两阶段的管道,首先使用上下文过滤和类别特定提示优化技术生成内容相关的说明,然后通过基于作者档案的少样本提示进行风格修正。主要创新点在于将上下文理解与作者特定风格适应相结合。实验结果表明,该方法在准确性和风格一致性上都优于基线模型20。
技术趋势
这些论文展示了LLMs优化与适应领域的几个主要技术趋势:
-
跨语言学习和评估:越来越多的研究开始探索LLMs在不同语言环境下的表现,以及如何通过特定的扰动方法来检验模型的学习偏见。
-
数据高效微调:TRIM和Native Hybrid Attention (NHA)等方法强调了在不牺牲性能的情况下,如何通过数据高效的方式进行模型微调,特别是针对特定任务的数据选择和处理策略。
-
长上下文处理:AudioMarathon和OWL模型展示了在处理长上下文输入时,如何通过特定的技术如KV缓存管理和推测解码方法,来提升模型的效率和性能。
-
领域适应性:Toward Reliable Clinical Coding with Language Models和Deploying Tiny LVLM Judges for Real-World Evaluation of Chart Models等论文强调了模型在特定领域内(如临床编码、图表理解)的适应性和有效性,通过特定的干预措施和训练策略来改善模型表现。
数据集和评估
论文中使用的主要数据集和评估指标包括:
- Kallini et al. ([2024]) 和 Global Populism Database (GPD) 用于评估模型对语言偏见和政治现象的敏感度。
- CommonsenseQA, SocialIQA, HellaSwag, GSM8K 等通用推理基准数据集,用于评估TRIM方法的准确性和效率。
- AudioMarathon 包含长时音频理解和推理效率评估的任务,用于测试LALMs在复杂音频场景下的表现。
- LongSpecBench 设计用于评价推测解码方法在长上下文输入上的性能。
- LaMP-Cap 集成了与科学图示相关的文本上下文和作者特定写作风格,用于生成科学图示说明。
- Afrobench 包括机器翻译和常识推理组件,用于评估非洲语言模型如Sunflower在多语言环境下的性能。
评估指标涵盖了困惑度(perplexity)、精确率(precision)、召回率(recall)、F1分数、BLEU分数、chrF分数、CCC和ICC值等多种衡量标准,反映了对模型性能、效率和适应性的全面考量。
Topic 4: Reasoning and Cognitive Processes
主题概述
推理与认知过程(Reasoning and Cognitive Processes)是人工智能领域中的一个重要分支,它涉及如何使计算机系统具备人类的认知能力,如逻辑推理、知识理解以及处理复杂任务的能力。这一主题的研究对于提高AI系统的可靠性、准确性和可信度至关重要,尤其是在医疗、数学推理和自然语言处理等应用领域。通过改进这些认知过程,可以使AI更好地服务于人类社会,提供更高质量的服务和解决方案。
各论文贡献
-
来自The Chinese University of Hong Kong, Shenzhen的Youliang Yuan等人研究了大型语言模型(LLMs)在数学推理中出现的“奇迹步骤”现象,即模型通过错误的推理路径得出正确答案的情况。他们提出了**Rubric Reward Model (RRM)**来解决这一问题,这种方法通过细粒度评分和基于问题特定评分标准的奖励机制,旨在促进模型的逻辑严谨性。该方法的主要创新点在于其三阶段管道设计:评分标准合成、评分数据合成和奖励模型训练。产生的价值在于提高了模型在复杂推理任务中的可靠性和准确性。在AIME2024等数据集上的实验表明,相比其他模型,RRM在Standard Pass@N和Verified Pass@N指标上均有显著提升,特别是在减少“奇迹步骤”的频率方面。21
-
来自Yourika Labs, The University of British Columbia的Md Tawkat Islam Khondaker等人针对缺乏专门用于护理领域的大型语言模型的问题进行了探讨。他们提出了NurseLLM,这是首个专注于护理领域的多选题解答LLM,并开发了一个多阶段的数据生成管道,创建了一个包含125,000个样本的多样化护理相关多选题数据集。此外,还构建了三个专门的基准测试来评估NurseLLM在护理任务中的表现。该方法的主要创新点在于其专注于护理领域并采用了护理相关的评价标准。产生的价值在于提升了AI工具在护理实践中的质量与效率。实验结果显示,NurseLLM在护理相关的基准测试中优于现有的通用和医学专家LLMs。22
-
来自未指定机构的Heyang Liu等人关注了语音到语音LLMs在处理中英文代码切换场景时的语言对齐问题。他们引入了CS3-Bench作为第一个专门用于评估这种场景的基准,并提出了**Chain of Recognition (CoR)和Keyword Highlighting (KH)**两种方法以改善语言对齐。该方法的主要创新点在于其针对代码切换的特殊处理策略和技术实现。产生的价值在于增强了智能语音助手在多文化环境中的理解和响应能力。实验显示,通过这些改进,现有模型的知识准确性从25.14%提升到了46.13%,开放性对话理解率也有所提高。23
-
来自未指定机构的Jiaoyang Li等人解决了LLMs在处理多跳问答任务时的局限性,即无法实时更新内部知识和依赖单一检索策略导致的狭窄视野和错误累积。他们提出了一种名为SubQRAG的新框架,该框架将复杂问题分解成一系列简单且逻辑相连的子问题,并通过动态更新知识图谱来解决信息不足的问题。该方法的主要创新点在于其子问题分解和动态知识图谱更新机制。产生的价值在于提高了多跳问答任务的准确性和可靠性。实验结果表明,SubQRAG在MuSiQue等多个多跳问答数据集上显著优于零样本和其他RAG基线方法,在EM和F1分数上有明显提升。24
-
来自未指定机构的Chengshuai Zhao等人研究了跨风格仇恨言论检测的难题,特别是隐含仇恨言论的识别。他们提出了CADET框架,利用因果表示学习来区分真实的仇恨意图和表面语言线索。该方法的主要创新点在于采用了因果图模型和反事实推理方法,包括风格干预和循环一致性机制。产生的价值在于增强了仇恨言论检测模型的鲁棒性和泛化能力。实验表明,CADET在IsHate等多个真实世界数据集上表现出色,平均宏观F1值达到0.815,比最强基线高出13%。25
技术趋势
这些论文展示了在推理与认知过程中使用奖励机制、领域特定模型、因果表示学习、动态知识图谱更新和多阶段数据生成管道等技术的趋势。奖励机制被用来引导模型的逻辑过程更加合理;领域特定模型的构建则强调了针对特定领域的需求定制模型的重要性;因果表示学习方法用于提升模型在复杂任务中的性能,尤其是当任务涉及多个因素相互作用时;动态知识图谱更新机制使得模型能够实时获取新的信息,从而提高其在多步推理任务中的表现;而多阶段数据生成管道则是为了创建更适合训练特定领域模型的数据集。
数据集和评估
这些论文使用的数据集包括AIME2024, MATH500, AMC2023, OlympiadBench, NCLEX-Test, GPT4o-Test, MultiNurseQA, MuSiQue, 2Wiki, HotpotQA, IsHate, IHC, AbuseEval, DynaHate等。评估指标方面,除了传统的准确率和召回率之外,还包括了Standard Pass@N, Verified Pass@N, EM, F1, 宏观F1值等更为细致的评估标准,以全面衡量模型在不同任务中的表现。
Topic 5: Evaluation and Metrics
主题概述
Evaluation and Metrics(评估与度量)是人工智能领域尤其是大型语言模型(LLMs)研究中的一个重要主题。随着LLMs在越来越多的应用场景中被部署,确保这些模型的行为符合既定的规范和原则变得愈发关键。此外,如何有效地评估模型的表现以及它们在特定任务中的性能也是亟待解决的问题。因此,这一主题不仅涉及模型行为的规范性和一致性,还包括对模型训练数据的质量评估和对模型在心理测量评估中的数据污染量化,对于保证AI系统的安全性和可靠性具有重要意义。
各论文贡献
-
来自Anthropic Fellows Program的Jifan Zhang等人研究了AI模型规范中存在的内部冲突和覆盖不足问题,这些问题可能导致LLMs的行为不一致且存在潜在风险。他们提出了一种新的压力测试方法,通过生成大量多样化的查询场景,使LLMs在不同的价值观之间做出权衡。这种方法的主要创新点是利用了细粒度的价值分类体系,并引入了加权k中心目标用于去重和筛选揭示模型规范缺陷的场景。产生的价值在于提供了一个更加系统和细致的模型规范分析框架,有助于改进模型规范并减少意外后果。在超过300,000个场景的数据集上的实验表明,相比传统方法,这种方法能更有效地识别模型规范违反情况和不一致行为26。
-
来自Michigan State University的Chongyu Fan等人探讨了从LLMs中选择性移除不需要的数据、知识或行为而不损害其在常规任务上的表现能力的问题。他们提出了一个原则性的分类法,将最近的12种状态化卸载方法分为三类:分歧驱动优化、表示偏离和拒绝式目标卸载。此外,还引入了开放问答(Open-QA)度量作为传统多项选择题(MCQ)评估的补充,以更好地评估卸载的有效性和效用保留。这项工作的独特之处在于它提供了对LLM卸载的全面审视,揭示了卸载有效性和效用保留之间的权衡关系,以及模型级和输入级稳健性的相互作用。通过使用WMDP基准测试,实验结果表明,面向稳健性的设计一般可以提高对各种攻击的抵抗能力,但RMU+LAT除外27。
-
来自East China Normal University的Yike Zhao等人分析了为了提高LLMs在数学推理能力上的训练数据优化问题,即增加数据量还是提高数据质量更能带来正面影响。他们提出了一种统一的评估管道,模拟训练和部署场景,从而提供更真实的评估。此外,还提炼出了实用的数据选择策略,并建议未来的研究方向,如基于强化学习的数据合成技术。这项工作的创新在于它聚焦于工业应用,批判性地分析了数据质量相对于数据数量的重要性,填补了以往研究中忽视工业约束条件的空白。实验结果表明,在某些情况下,采用更易解释的数据格式或从更强的模型中合成数据比单纯增加数据量更有益28。
-
来自Seoul National University的Jongwook Han等人研究了LLMs在心理测量评估中的数据污染量化问题,这是由于LLMs记忆了用于评估高阶心理特征的项目和评分程序所致。他们提出了一套框架,旨在测量三项方面的数据污染:项目记忆、评估记忆和目标分数匹配。该框架引入了平均编辑距离(AED)、成功记忆关键信息率、F1得分等定量指标,以系统化地衡量污染程度。这项工作的价值在于首次提供了严格的数据污染测量方法,帮助研究人员和实践者更准确地评估LLMs的心理特征。实验结果显示,LLMs在评估记忆方面表现出接近天花板的性能,尤其在项目维度映射上平均F1得分为0.95,而较大的模型往往显示出更低的MAE和更高的F1得分,表明随着模型规模增大,污染程度会增加直到饱和29。
技术趋势
上述论文展示了在评估和度量LLMs性能时采用的技术趋势,包括利用大规模多样化场景的压力测试、面向稳健性的卸载技术设计、以及数据质量的精细化管理和评估。这些方法共同促进了对LLMs行为规范、数据卸载有效性和心理测量可靠性的深入理解,反映了当前研究中对模型行为控制和性能评估方法的不断探索和改进。
数据集和评估
- 论文30使用了一个包含超过300,000个场景的数据集,通过高争议场景和异常响应来检测模型规范的差距。
- 论文40采用了WMDP基准测试来评估卸载方法的稳健性。
- 论文54虽然没有具体提及使用的数据集,但强调了统一的评估管道的重要性,该管道涵盖了常见的知识、逻辑推理、数学推理和编码能力,并使用了准确性作为前三个类别的评估指标,编码任务则使用Pass@1。
- 论文52使用了四个广泛使用的心理测量库存,包括BFI-44、PVQ-40、MFQ和SD-3,来评估21个来自主要家族的LLMs的数据污染情况。评估指标包括平均编辑距离(AED)、F1得分和平均绝对误差(MAE)。
Topic 6: Cross-Lingual and Multilingual Models
主题概述
跨语言和多语言模型是自然语言处理领域中的一个重要研究方向,旨在使模型能够理解和处理多种语言,尤其是资源较少的语言。这些模型不仅对全球范围内的交流具有重要意义,而且对于学术研究、外交事务、医疗保健和工业应用等领域也至关重要。它们能够促进信息的无障碍传播,并确保不同文化背景下的公平性和包容性。然而,现有的跨语言和多语言模型在处理低资源语言时,往往面临性能不均衡和潜在偏见放大等问题,这些问题影响了模型的可靠性和适用性。
各论文贡献
-
来自United International University的Md. Faiyaz Abdullah Sayeedi等人研究了大语言模型(LLMs)在不同语言家族和专业领域中的翻译性能差距和潜在偏见问题,提出了Translation Tangles,这是一个统一的框架和数据集,用于评估开源LLMs的翻译质量和公平性。该方法的主要创新点是引入了一个混合偏见检测管道,结合规则基础启发式、语义相似度过滤和基于LLM的验证,以更准确地检测和分类偏见。产生的价值在于提供了一套多维度的基准测试套件,以及高质量的人类验证数据集,用于评估自动偏见检测系统的有效性。在该框架上的实验表明,相比传统方法,它能更好地识别并减少偏见,从而提高了翻译质量的公平性和可靠性30。
-
来自京都大学的Chengzhi Zhong等人探讨了如何高效且可解释地控制大语言模型(LLMs),以便生成不同语言的文本,特别是在非英语数据有限的情况下。他们提出了一种无需训练的方法,仅需少量单语数据即可实现语言控制。这种方法的主要创新点在于揭示了LLMs内部存在的一致且稀疏的语言特定维度,这些维度控制着向语言特定标记空间的投影。产生的价值在于增强了LLMs在多语言场景下的适应性和效率。实验结果显示,通过操纵大约400个维度(或隐藏层大小的7.8%),可以有效提高模型的翻译质量,尤其是在单语环境中,显著优于基于神经元的方法31。
-
来自Sharif University of Technology的Amir Hossein Yari等人解决了印度语言机器翻译(MT)和文本摘要(TS)系统评估中存在的自动度量标准不足的问题。他们引入了ITEM,这是一个专门设计用于评估印度六种主要语言MT和TS任务的基准测试平台。该方法的主要创新点是通过广泛的度量标准评估和异常值检测方法,提供了一个更细粒度和严格的评估方法。产生的价值在于提供了与人类判断高度一致的评估结果,尤其在处理内容忠实度和流畅性方面表现优异。实验表明,DeepSeek-V3在翻译和摘要任务上达到了最高的相关性,成为最可靠的度量标准之一32。
-
来自University of Luxembourg的Fred Philippy等人致力于创建一个高质量的指令微调数据集LuxInstruct,特别针对低资源语言卢森堡语。该数据集避免了传统机器翻译方法可能带来的语义和文化偏差。主要创新点在于利用英语、法语和德语的对齐数据来构建LuxInstruct,确保了指令输出对语言和文化的准确反映。产生的价值在于为卢森堡语等低资源语言的指令微调提供了新的方法,有助于提高这些语言的AI系统服务质量。尽管没有具体的实验对比结果,但该方法理论和方法论上都强调了保持语言和文化完整性的必要性33。
-
来自印度理工学院孟买的Amruta Parulekar等人解决了自动语音识别(ASR)评估指标在印度语言等形态复杂的语言中无法准确评估性能的问题。他们提出LASER,一种基于大语言模型的ASR评分和评估准则,该方法的主要创新点在于通过语境学习能力来更精准地惩罚错误。产生的价值在于提供了一个更加公平和准确的ASR性能评估工具,特别是在形态丰富且复杂的语言中。实验表明,LASER,特别是使用Gemini 2.5 Pro模型时,与人类注释高度相关,显著优于WER和BERTScore等其他度量标准34。
-
来自HiTZ Center - Ixa的Olia Toporkov等人研究了词形还原(lemmatization)的挑战,即当前监督分类方法需要大量的标注数据并在域外设置下表现不佳的问题。他们探索了使用大语言模型(LLMs)进行直接词形生成的可能性,无需特定领域的训练数据。主要创新点在于展示了LLMs在通常需要大量标注数据的任务上的潜力。产生的价值在于证明了LLMs在数据稀缺环境下的有效性,尤其是对于像捷克语、俄语和土耳其语这样形态复杂丰富的语言。实验表明,Claude-3.7-Sonnet和Mistral-Large-Instruct-2407等LLMs在直接词形生成上表现出色,甚至超过了经过域内微调的传统编码器模型35。
-
来自Krutrim AI的Neel Prabhanjan Rachamalla等人研究了现有后训练数据集中存在的文化背景缺失、任务多样性缺口及翻译偏差和错误问题,这些问题主要集中在印度语言上。他们提出了一种人机协作(HITL)的数据集制作流程,以改善LLMs在印度语言和文化背景下的表现。主要创新点在于通过合成扩展和手动编辑相结合的方式,强调了语言准确性、文化适宜性和任务复杂性。产生的价值在于为印度语言和文化背景下的LLMs提供了一种新的高质量数据集,如Pragyaan-IT和Pragyaan-Align。实验显示,使用这些数据集进行直接偏好优化(DPO)后,Krutrim-2-12B和Llama-3-8B模型的表现得到了显著提升,尤其是在推理和释义等任务类别中36。
技术趋势
这些论文展示了跨语言和多语言模型研究中的几个关键趋势:(1) 多维度评估:不仅关注翻译质量,还重视偏见检测和语言控制;(2) 无监督和少样本学习:通过利用少量标注数据或无监督学习方法,提高模型在低资源语言中的性能;(3) 语义和文化敏感度:开发出更加敏感于语义和文化差异的评估指标和数据集,以更好地反映人类的实际需求和偏好;(4) 大语言模型的应用:广泛利用LLMs的强大语境理解和生成能力,解决传统方法难以应对的挑战。
数据集和评估
- Translation Tangles:用于评估LLMs翻译质量和公平性的数据集。
- PUD treebank 和 Armiarma corpus:用于比较LLMs与传统模型在词形还原上的性能。
- ITEM:用于印度六种主要语言MT和TS任务的基准测试平台。
- LuxInstruct:针对卢森堡语的高质量指令微调数据集。
- IndicVoices:用于ASR评估的多语言语音数据集。
- Pragyaan-IT 和 Pragyaan-Align:覆盖10种印度语言的文化背景数据集,用于LLMs的后训练数据集制作。
- 评估指标:包括BLEU、chrF、TER、BERTScore、WER、CER、ROUGE和COMET等,覆盖了词汇变化、所需编辑、语义充分性、流利度和内容重叠/扭曲等多个维度。
这些数据集和评估指标共同推动了跨语言和多语言模型研究的进步,使得研究人员能够更精确地衡量模型性能,并针对性地改进模型。
Topic 7: Reinforcement Learning and Adaptive Systems
主题概述
强化学习与自适应系统是当前人工智能领域的重要研究方向之一,旨在通过不断优化模型的决策过程和提高其在不同场景中的适应能力,推动人工智能系统的性能和可靠性达到新的高度。这些研究不仅对于构建更高效、可靠的大型语言模型(LLMs)至关重要,同时也为实现人工通用智能(AGI)奠定了基础。此外,将强化学习应用于多模态模型、虚拟细胞建模等复杂任务,能够有效提升这些系统的推理能力和应用范围,为未来的科学研究和技术发展提供有力支持。
各论文贡献
-
来自University of Science and Technology of China的Houcheng Jiang等人研究了大型语言模型(LLMs)在弱到强泛化过程中存在的鲁棒性和泛化能力不足的问题,提出了**Contrastive Weak-to-Strong Generalization (ConG)**方法来解决这一核心问题。该方法的主要创新点是利用隐式奖励和对比解码生成更高质量的样本用于训练更强的模型,从而提升泛化和鲁棒性。在UltraFeedback数据集上的实验表明,相比DPO、ORPO、SimPO等基线方法,ConG实现了显著的性能提升,平均提升了约15.0%至17.8%,并且小模型的能力差距越小,提升越明显。37
-
来自University of Michigan的Xinliang Frederick Zhang等人探讨了大型语言模型(LLMs)在处理简单查询时,长链推理导致的资源浪费问题。他们提出了TRACE框架,用于定义并量化过度思考现象,并引入了一个基于效用的过度思考定义,通过四阶段流程来优化模型的行为。在ASDiv、GSM8k等数据集上进行的实验显示,过度思考主要发生在数学和时间推理任务中,且随着模型规模和任务难度的增加,过度思考的效果减弱。38
-
来自The University of Texas at Dallas的Peilin Wu等人针对代理检索增强生成系统(RAG)中的搜索行为效率低下问题,提出了HiPRAG框架。该框架通过引入分层过程奖励机制,解决了过搜索和欠搜索的问题,同时提高了生成的准确性和检索效率。实验结果显示,HiPRAG显著降低了过搜索率和欠搜索率,提升了整体准确率。39
-
来自Imperial College London的Krinos Li等人综述了大型语言模型在虚拟细胞建模中的应用,提出了一个统一的分类法,将现有方法分为两类:作为预言机直接建模细胞结构和功能,以及作为代理协调复杂科学任务。通过HyenaDNA和PertFormer等新方法的应用,展示了LLMs在细胞表示、扰动预测和基因调控推断方面的潜力。40
-
来自National University of Singapore的Leigang Qu等人针对文本视频生成中出现的文本-视频不一致问题,特别是涉及运动、数字和空间关系的场景,提出了TTOM框架。该框架结合大语言模型生成时空布局并通过优化注意力图确保布局与视频模型的一致性,还引入了参数化的记忆机制以减少计算成本。实验表明,TTOM在T2V-CompBench和VBench数据集上显著提升了视频生成的质量和一致性。41
-
来自University of Illinois Urbana-Champaign的Emre Can Acikgoz等人关注于标准语言模型(LM)在获取新技能时的低效性问题,提出了一种测试时自我改进的框架,即Test-Time Self-Improvement (TT-SI) 和 Test-Time Distillation (TT-D)。该框架通过识别不确定样本和自动生成额外训练数据来增强模型的推理能力,使用少量样本即可实现显著的性能提升。实验结果表明,在NexusRaven、SealTool等多个基准测试上,TT-SI和TT-D均表现优异。42
-
来自Taobao & Tmall Group of Alibaba的Yuhan Sun等人研究了如何将大规模推理模型(LRMs)部署在实时AI驱动的直播环境中,提出了LiveThinking框架。该框架通过拒绝采样微调(RFT)和集团相对策略优化(GRPO)相结合的方式,显著减少了响应延迟,同时保持了高质量的回答。实验显示,LiveThinking在Tblive-E-Commerce QA数据集上优于DeepSeek-R1教师模型。43
-
来自University of Cambridge的Lekang Jiang等人专注于专利的层次文本分类问题,提出了RHC框架,将HTC视为逐步推理任务。该框架包括冷启动阶段和强化学习验证奖励阶段,以提高多步推理能力。实验结果表明,RHC在PCD-BD数据集上显著提高了准确性和宏观F1分数。44
-
来自The Chinese University of Hong Kong的Yuntao Gui等人探讨了如何将推理和嵌入生成整合到大型语言模型中,提出了Search-R3框架。通过引入独特的嵌入令牌和强化学习环境,该框架能够改善检索任务的表现,如CoSQA和LitSearch。实验结果证明,Search-R3在多个公共基准测试上达到了最佳性能。45
-
来自University of North Carolina, Chapel Hill的Shuqing Luo等人研究了解决测试时扩展(TTS)在复杂推理任务中的高内存占用问题,提出了AsyncSpade框架。该框架通过异步稀疏解码减少每个输出令牌的时间消耗,提高了模型的推理效率。实验表明,AsyncSpade在AIME24和MultiArith等数据集上显著降低了计算成本。46
-
来自OPPO的Fu Chen等人针对使用GRPO算法训练弱大型语言模型时遇到的训练不稳定和性能下降问题,提出了ToolExpander框架。该框架通过动态多轮硬采样和自示例思维机制,显著提高了模型的训练稳定性和准确性。实验显示,Qwen2.5-7B模型在APIBank上的准确率提升到了81.76%。47
-
来自University of California, Riverside的Yinglun Zhu等人针对多模态模型在组合推理任务中的评估不足问题,提出了**Test-Time Matching (TTM)**框架。该框架引入了一种新的评价指标GroupMatch,并通过迭代自改进算法使用伪标签来优化模型,即使在没有预定义组结构的数据集上也能取得显著的性能提升。实验表明,SigLIP-B16和GPT-4.1在Winoground等数据集上的表现大幅超越了之前的记录。48
技术趋势
从上述论文可以看出,当前强化学习与自适应系统领域的研究主要集中在以下几个方面:
- 优化模型的泛化能力:通过对比学习和分层奖励机制来提升模型从弱到强的泛化能力。
- 减少计算资源消耗:通过引入高效的解码机制、记忆模块或优化检索过程,降低模型运行时的计算成本。
- 增强特定领域的应用:例如在虚拟细胞建模、文本视频生成和实时AI辅助直播等领域,通过引入新的推理和学习机制来提升模型的适用性和效果。
- 提升模型的推理效率:通过引入新的评价指标和优化推理过程,使得模型在处理复杂任务时更加高效。
- 强化学习与知识表示的结合:将强化学习与嵌入生成相结合,以提高模型在检索任务中的表现。
数据集和评估
- UltraFeedback: 用于偏好对齐的实验。
- ASDiv, GSM8k: 数学推理任务的数据集。
- Cover Exact Match (CEM): 用于评估检索增强生成系统的准确性。
- T2V-CompBench, VBench: 用于评估文本视频生成的质量和一致性。
- PCD-BD: 专利分类任务的平衡数据集。
- CoSQA, LitSearch, MedicalQA, MKQA-eng, SciFact: 用于评估检索任务性能的公开数据集。
- AIME24, AIME25, GPQA-Diamond, MATH500: 测试时扩展的基准测试。
- Winoground, MMVP-VLM, ColorSwap, 1×k基准测试: 多模态模型组合推理能力的评估。
- Tblive-E-Commerce QA, MSMARCO: 实时AI辅助直播环境中的问答任务。
- BFCL, APIBank, ACEBench: 工具使用的强化学习基准测试。
Topic 8: Generative Agents and Social Simulations
主题概述
生成式代理(Generative Agents)与社会模拟是当前人工智能领域的热门研究方向之一。该领域聚焦于利用大型语言模型(LLMs)等先进AI技术创建能够模仿人类行为和社会互动的智能代理系统,以及通过这些代理系统进行复杂的社会现象模拟。研究这一主题的重要性在于它不仅能够推动AI技术的发展,还能够帮助我们更好地理解人类社会的行为模式,并应用于城市规划、金融服务、隐私保护等多个实际场景中。
各论文贡献
-
来自乔治梅森大学的Murong Yue等人研究了在创建和组织大量特定问题工具以增强LLMs推理能力方面的可扩展性挑战,特别是针对物理、数学和医学等复杂领域。他们提出了ToolLibGen管道,通过重构分散的工具集合为结构化的Python库来系统地应对这一挑战。该方法的主要创新点是采用了编码代理和审查代理的多代理框架,确保工具的有效聚合和验证。产生的价值在于减少了冗余并提高了检索准确性,从而提升了LLMs在实际应用中的表现和效率。在科学、数学和医疗QA三个专业领域的数据集上进行了测试,结果显示,ToolLibGen在已知和未知案例的表现上均优于CoT、PoT、Fragmented Toolset (FT)、Clustered Toolset (CT) 和KTCE基准,平均提升幅度为5%-10%和2-3%49。
-
来自孟加拉国工程技术大学的Md. Nazmul Islam Ananto等人探讨了基于历史轨迹数据识别热门路径查询的问题,特别是在稀疏轨迹数据集中的挑战。他们提出了CompassLLM框架,这是一个专为地理空间推理设计的多代理架构,包含搜索和生成两个阶段,解决了直接路径缺失的情况。该方法的创新之处在于引入了四个专门代理:路径发现、流行度排名、路径合成和路径选择。产生的价值在于提供了实时推理的能力、成本效益的令牌使用和无需重新训练模型的适应性,尤其适用于动态环境和数据稀缺的场景。实验结果表明,CompassLLM在F1分数和可穿越性评分方面超越了传统的机器学习和深度学习方法以及其他LLM方法,特别在稀疏数据集如主题公园中表现优异50。
-
来自谢菲尔德大学的Anthony Hughes等人关注的是语言模型在推断过程中泄露个人身份信息(PII)的问题,这带来了显著的隐私风险。他们提出了一种名为Patch的方法,用于识别并编辑负责泄漏PII的模型电路。Patch使用边缘属性修补结合集成梯度(EAP-IG)作为电路发现机制,并比较了零消减和均值消减两种边缘消减技术。产生的价值在于提供了一个更好的隐私与实用性的权衡方案,相比差分隐私(DP)等现有防御机制,在隐私保护方面表现更佳。实验结果显示,Patch-Baseline显著降低了PII提取的精度和召回率,同时保持了适度的实用成本;而Patch-DP则进一步增强了隐私保护,但需注意在高安全需求的应用中可能存在的问题51。
-
来自马来亚大学的Xin Jie Chua等人致力于解决传统数字银行工作流程中效率低下且缺乏灵活性的问题,尤其是在核心金融交易执行方面。他们介绍了Ryt AI,一种基于LLM的代理框架,允许客户通过自然语言对话完成核心金融交易。该框架的创新点在于其模块化、多代理架构,包括专门处理护栏、意图分类、支付执行和常见问题解答的代理。产生的价值在于引入了一种新的方法,能够处理复杂的银行业务任务,同时满足严格的监管和安全标准。实验表明,Ryt AI在多个关键指标上均优于其他LLM,包括GPT-4o、GPT-4o mini、Gemini 2.0 Flash及其Lite版本,特别是在低幻觉率和高安全性操作方面表现出色52。
-
来自印第安纳大学布鲁明顿分校的Rasika Muralidharan等人探索了多代理系统(MAS)中团队动力学的研究,特别是如何将人类团队的结构、多样性及互动动态应用于由LLMs驱动的AI团队中。该研究的创新点在于首次尝试将人类团队科学的原则应用于设计和评估AI团队,填补了关于结构和多样性对AI协作影响的文献空白。实验结果表明,扁平团队结构通常在四种任务中表现优于层级结构,引入多样性可以增强团队凝聚力,但在扁平团队中可能导致沟通不一致,而在层级团队中则影响更大。这些发现对于设计高效、合作性强且具有社会意识的AI团队具有重要意义53。
技术趋势
该主题下的研究展示了多代理系统在不同应用场景中的潜力,尤其是通过构建结构化的工具库、应用地理空间推理、实现隐私保护和改进金融服务交互等方面。技术创新点集中在多代理协作机制的设计和优化上,包括通过多阶段处理流程提高系统的灵活性和实用性,以及利用LLMs的语义理解和推理能力来增强代理之间的沟通和协作效率。
数据集和评估
- ToolLibGen使用了特定专业领域的数据集进行评估。
- CompassLLM使用了真实世界和合成数据集,特别强调了合成数据集在引入空间多样性和模仿现实世界移动模式方面的优势。
- PATCH在欧洲人权法院(ECHR)数据集等上进行了评估。
- Ryt AI使用了约$10^5$个匿名监督指令样例的数据集,涵盖马来西亚银行业对话的噪声语言模式。
- Rasika Muralidharan等人的研究虽然没有提及具体数据集,但使用了包括CommonsenseQA、StrategyQA、Social IQa和隐含仇恨检测在内的多种任务进行评估。评估指标涵盖了模型性能、隐私保护程度、实用成本、对话质量、团队结构和互动质量等多个维度。
Topic 9: Natural Language Processing and Understanding
主题概述
自然语言处理与理解(Natural Language Processing and Understanding, NLP&U)是人工智能领域的一个重要分支,专注于使计算机能够理解、解释和生成人类语言的能力。随着大型语言模型(LLMs)的发展,NLP&U的应用范围不断扩展,从简单的文本生成到复杂的语义理解和推理。然而,这些模型也面临着诸如信息遗漏、主观问题自动评分、社会偏见检测、多语言代码切换处理等挑战。这些问题不仅影响模型的性能,还可能引发伦理和社会问题。因此,改进和优化这些模型以提高其全面性和准确性,确保它们在实际应用中的可靠性和公正性,是当前NLP&U研究的重要方向。
各论文贡献
-
来自Imperial College London和IBM Research的Adam Dejl等人研究了大语言模型生成文本的全面性评估问题,特别是识别模型输出中的缺失信息或观点不足。他们提出了三种新的自动评估方法:基于自然语言推断的方法、基于问答的方法以及端到端的方法,直接识别模型输出中缺少的具体信息片段。该方法的主要创新点在于直接关注识别缺失的内容,并提供细粒度的结果作为诊断工具。在WikiContradict和ConflictBank数据集上的实验显示,问答方法和端到端方法在识别不完整答案方面优于基于自然语言推断的方法。针对r/explainlikeimfive Reddit论坛的真实世界问题,这些方法揭示了gpt-oss-120b是最全面的模型,而Qwen 2.5 72B则表现最差。54
-
来自Alibaba Group、Hangzhou City University、Zhejiang Hospital和其他机构的Fanwei Zhu等人探讨了考试中主观问题自动评分的难题。他们提出了一种统一的大语言模型增强自动评分框架,包含四个互补模块:关键点匹配模块、伪问题匹配模块、基于大语言模型的通用评估模块和文本相似度匹配模块。此框架通过模拟人类评分来应对冗余、模糊性和弱答案对齐等问题,从而提供更复杂和精细的评估手段。实验和现实部署结果显示,该框架在多个数据集上显著提升了评分的准确性,尤其是在领域特定数据集上,提高了Quadratic Weighted Kappa (QWK)得分。55
-
来自University of Southern California的信息科学研究所Virginia K. Felkner等人讨论了利用大语言模型进行社会偏见评估时,基于词汇概率(TP)的评估方法存在的局限性。他们提出将自然语言推理,尤其是文本蕴含,作为一种新颖的中期偏见评估任务,并开发了一个新的NLI偏见基准数据集WinoQueer-NLI。该方法的主要创新点在于提供了标准化的方式比较不同偏见评估方法的有效性。实验结果表明,NLI方法能更有效地检测出某些类型的社会偏见,但对反刻板印象句子的措辞更加敏感。56
-
来自Tel Aviv University的Samuel Joseph Amouyal等人致力于比较大语言模型与人类在处理复杂句法结构时的表现差异。通过测试多种不同类型的大语言模型,他们发现这些模型在某些情况下展现出类似人类的困难,尤其是在处理花园路径(garden-path)句子时。这项研究填补了以往仅依赖间接指标评估模型能力的空白,直接测量理解结果。研究指出,模型大小与模仿人类处理难度之间存在正相关关系,且“思考”模式对模型表现的影响取决于基础模型的强度。57
-
来自University of Washington和Stanford University的Taylor Sorensen等人解决了多智能体系统(MAS)中有效提示优化的问题。他们提出的Multi-Agent PRompt Optimization (MAPRO)框架将MAS提示优化视为最大后验估计(MAP)推理问题,引入了语言指导的最大产品信念传播算法以高效找到最优提示组合。此外,该框架还包括一个拓扑感知的细化机制,利用执行反馈和下游责任来选择性更新智能体提示。实验表明,MAPRO在多个任务上超越了手动设计和近期自动化方法的基准。58
-
来自University of Zurich和其他机构的Zifan Jiang等人探讨了有意义的手势为基础的国际手语评价方法。他们提出了一种基于人体姿态评估手语翻译系统输出质量的框架,包括距离度量、嵌入度量和回译可能性度量。通过自动元评估和人类评估,研究表明精心调整的关键点距离度量可以媲美更先进的方法。59
技术趋势
这些论文展示了自然语言处理与理解领域的几个技术趋势:
- 全面性和诊断能力:通过提出新的评估方法,如基于问答的方法和端到端的方法,来提高对生成文本全面性的评估能力,同时提供详细的诊断信息。
- 主观问题自动评分:引入了结合多个模块的框架,以更好地模拟人类评分者的行为,特别是在处理开放性答案时。
- 偏见评估:从单一的词汇概率转向更为复杂的自然语言推理方法,试图提供更加真实和全面的偏见评估。
- 复杂句法处理:研究了大语言模型在处理复杂句法结构时的困难,探索了模型规模和处理方式之间的关系。
- 多智能体系统优化:利用统计推理和机器学习技术优化多智能体系统中的提示设计,以提升系统整体性能。
- 手势语言评估:开发基于人体姿态的评估方法,以改善国际手语翻译系统的输出质量。
数据集和评估
这些论文采用了多种数据集和评估方法,以验证其方法的有效性:
- WikiContradict 和 ConflictBank: 用于评估模型生成文本的全面性。
- General-Type Dataset (GT) 和 Domain-Specific Dataset (DS): 用于评估主观问题自动评分框架的效果。
- WinoQueer-NLI: 一个新的自然语言推理偏见评估数据集。
- Signsuise: 用于评估基于姿势的国际手语翻译系统。
- MP 和 CSC: 大型语言模型训练和评估的数据集。
- HumanEval-ET, MBPP-Plus, NewsQA, MATH, GSM8K: 用于测试多智能体系统优化框架的性能。
评估方法包括但不限于:
- Quadratic Weighted Kappa (QWK)
- Mean Squared Error (MSE)
- F1 Score
- BLEU Score
- Key Point Matching
- Back-Translation Likelihood
这些数据集和评估方法共同推动了NLP&U领域的发展,帮助研究人员更好地理解和改进模型的性能。
Topic 10: Bias Detection and Mitigation
主题概述
偏见检测与缓解(Bias Detection and Mitigation)是人工智能领域特别是自然语言处理中的一个重要议题。随着大型语言模型(LLMs)的广泛应用,它们在训练过程中可能会吸收并放大数据中的偏见,从而导致不公平或不准确的结果。因此,开发有效的方法来识别并减少这些偏见对于确保模型的公正性和实用性至关重要。这不仅有助于提高模型的性能和可靠性,还能够增强用户信任,特别是在虚拟助手、推荐系统等互动应用中。
各论文贡献
-
来自University of Science and Technology of China、City University of Hong Kong及Baidu Inc.的Jingyu Peng等人研究了小型语言模型(SLMs)在低延迟和计算效率要求严格的场景下的性能问题,提出了AdaSwitch自适应切换生成方法来解决知识蒸馏中的探索与指导平衡问题。该方法的主要创新点是通过实时质量评估动态调整策略,结合了在线策略和离线策略的优点。产生的价值在于它使SLMs能够在对话摘要和算术推理任务上接近大模型的性能,同时保持计算效率。在SUMM和GSM数据集上的实验表明,AdaSwitch相比其他方法分别提高了7.2%和11.8%的性能60。
-
来自University of Illinois Urbana-Champaign和Adobe Research的Vardhan Dongre等人关注了多轮次对话中大型语言模型的“上下文漂移”问题,即输出逐渐偏离用户的初始目标或约束。他们提出了一种动力学框架,利用恢复力和可控干预来解释和测量这种漂移现象。该方法的主要创新点是引入了提醒干预措施来降低漂移水平。产生的价值在于通过这些干预措施,模型可以在长对话中保持更好的一致性,这对于增强用户信任和满意度至关重要。在τ-bench模拟实验中,提醒干预显著减少了KL散度,提升了模型的表现61。
-
来自北京大学和香港中文大学的Shiman Zhao等人探讨了在低资源对话领域中实现少量样本多标签意图检测的挑战。他们提出了Instance Relation Learning Network (IRLN)结合标签知识传播的新方法,以直接推断多标签结果而不依赖于表示分类。该方法的主要创新点是构建了一个全连接的实例关系图,并设计了双关系增强损失函数。产生的价值在于显著提升了少样本条件下的多标签预测性能,填补了传统方法在标签知识传播方面的不足。在TourSG数据集上的实验显示,该方法相比最强的基线DCKPN,在AUC和Macro-F1得分上有平均11.50%和10.49%的提升62。
-
来自Deakin University的Omar Mahmoud等人研究了提高大模型事实准确性(truthfulness)时,模型安全性的潜在下降问题。他们提出了一种基于稀疏自动编码器(SAEs)的机制,用于分离拒绝和幻觉特征,特别针对某些注意力头。该方法的主要创新点是通过SAEs来识别和隔离这些行为特征,从而在提升任务效用的同时维持模型的安全性。产生的价值在于提供了一种有效的方法来改善大模型在防止有害内容生成方面的能力。实验结果显示,该方法在LLaMA3-8B-Instruct模型上将攻击成功率降低了超过15倍,同时保持了高任务效用63。
-
来自University of Freiburg和ELLIS Institute Tübingen的Arjun Krishnakumar等人解决了训练和部署大型语言模型的成本高昂问题,提出了通过子网络选择和蒸馏来初始化小型语言模型的新方法。该方法的主要创新点是引入了四种不同的子网络初始化搜索空间,以及一个进化搜索算法来识别最优子网络架构。产生的价值在于大幅减少了小型模型预训练所需的计算资源,使得先进语言模型更容易被资源有限的研究团体所使用。实验表明,通过该方法,小型模型可以达到与Pythia-2.8B模型相当的性能,但所需预训练数据量减少了9.2倍64。
-
来自多个机构的Benjamin Akera等人专注于低资源非洲语言如Kinyarwanda和Kikuyu的语音识别系统开发。他们通过Whisper模型进行了系统性的数据规模分析和详细的错误分析,以确定语音数据需求。该方法的主要创新点是提出了一个标准化的微调管道和数据增强技术。产生的价值在于提供了关于数据量和质量如何影响模型性能的具体证据,有助于缩小非洲语言社区的数字鸿沟。实验表明,使用50小时的训练数据即可实现实用的语音识别性能(WER<13%),并且进一步增加数据至200小时能带来显著的性能提升65。
技术趋势
从上述论文可以看出,偏见检测与缓解的技术路线正朝着更加精细化的方向发展。例如,AdaSwitch通过动态调整策略来优化知识蒸馏过程;Drift No More?则聚焦于通过控制机制来稳定多轮次交互中的上下文漂移;Instance Relation Learning Network强调了标签知识传播的重要性;The Unintended Trade-off of AI Alignment提出了使用进化算法来选择最优子网络结构的方法;而Where to Begin则展示了通过子网络选择和蒸馏来提高小模型训练效率的技术。这些方法都体现了对特定问题更深入的理解和技术创新。
数据集和评估
- SUMM, GSM, GSM_Plus: 对话摘要和算术推理任务的数据集,用于评估AdaSwitch方法的性能。
- TourSG: 旅游领域的对话数据集,用于测试多标签意图检测方法的效果。
- LLaMA3-8B-Instruct, Qwen2.5-Instruct: 开源模型,用于测试AI对齐方法的安全性和准确性。
- Nemotron-CC: 预训练数据集,用于评估小模型初始化和预训练方法的效率。
- Whisper: 多语言语音识别模型,应用于Kinyarwanda和Kikuyu两种非洲语言的语音识别性能评估。
评估指标包括:AUC和Macro-F1得分、Kullback-Leibler Divergence (KLD)、语义相似度、LLM判断分数、Word Error Rate (WER)、Character Error Rate (CER)等,这些指标反映了不同任务中的模型表现和改进程度。
Topic 11: misc
主题概述
该研究主题涵盖了一系列针对大型语言模型(LLMs)在特定领域应用中的优化和改进方法。这些研究不仅关注于提高LLMs在数学推理、化学机制解析、机器生成文本检测等任务中的性能,还探讨了如何通过多代理系统、轻量化模型设计以及新颖的数据合成策略来减少计算资源消耗,提高模型效率,并且更贴近实际应用场景。这些研究对于推动LLMs在复杂任务处理、移动设备部署、信息检索及生成等方面的应用具有重要意义。
各论文贡献
-
来自香港大学的Jingyuan Wang等人研究了小型语言模型能否教导大型语言模型进行逻辑推理的问题,提出了LightReasoner这一方法来解决大型语言模型在系统性推理任务中的局限性。该方法的主要创新点在于利用小型语言模型的行为差异作为监督信号,从而提高大型语言模型的推理能力,同时大幅减少了资源消耗。在多个数学推理基准数据集上的实验表明,相比传统的监督微调方法,LightReasoner实现了更高的准确性和更低的计算成本,特别是在GSM8K数据集上,Qwen2.5-Math-1.5B的准确性提高了+28.1%66。
-
来自多个机构的Eric Hanchen Jiang等人研究了多代理系统中动态生成通信拓扑结构的问题,提出了Guided Topology Diffusion(GTD)框架以适应不同的任务需求。该方法的主要创新点在于使用条件离散图扩散过程来实时调整拓扑结构,从而在保证任务效率的同时降低了通信成本。实验结果表明,GTD在GSM8K、MATH等数据集上表现出色,特别是在模拟代理故障的情况下,其表现更加稳定,显示出强大的鲁棒性和成本效益67。
-
来自普渡大学的Tianci Liu等人研究了当前奖励模型在从人类反馈中学习强化学习时存在的不足,特别是难以捕捉主观领域的人类偏好。他们提出OpenRubrics,这是一个大规模、跨领域的评分标准集合,以及一种新的对比评分标准生成(CRG)方法。该方法的创新之处在于利用负向对比来提高评分标准的质量和可靠性,进而指导LLMs的训练和推断过程,使其更好地与人类偏好对齐。实验显示,Rubric-RM模型在八个基准数据集上平均优于强基线模型6.8%,并且在政策优化过程中展现出更高的性能增益68。
-
来自伊利诺伊大学厄巴纳-香槟分校的Ruiling Xu等人研究了缺乏用于评估有机机制阐明和推理能力的稳健基准的问题。他们引入了oMeBench,一个包含超过10,000个注释机制步骤的大型基准,以及oMeS动态评估框架。该方法的创新之处在于专注于有机反应机理的详细推理过程,而不仅仅是反应物到产物的映射。实验结果显示,通过采用提示策略和在其数据集上进行微调,可以显著提升LLMs在有机化学推理任务上的性能,尤其在复杂或长机制上表现突出69。
-
来自北京大学的Peiyang Liu等人研究了检索增强生成(RAG)系统未经授权使用内容的问题,提出了双层水印检测系统和Interrogator-Detective框架。该方法的主要创新点在于在语义层面嵌入知识型水印,在词汇层面操纵token的统计分布,以检测未经授权的RAG使用。实验表明,该双层水印方法在所有对抗场景中都能实现完美的检测准确率,同时保持高质量的文本输出,这对于保护知识产权和确保信息生态系统的真实性至关重要70。
-
来自东北大学的Ziyi Wang等人研究了如何通过基于大型语言模型的代理来模拟个性化在线购物行为的问题,提出了Customer-R1方法。该方法的创新之处在于结合了强化学习和显式用户人格信息,提高了模拟个性化用户行为的准确性和可信度。实验结果显示,Customer-R1在预测下一个动作方面表现出最高的准确率(39.58%),并显著提升了宏观F1得分和细粒度类型准确率,展示了其在理解和模拟个人化用户行为方面的优势71。
-
来自约翰霍普金斯大学的Miriam Wanner等人研究了Sinclair广播集团收购地方新闻站后,新闻内容是否从本地转向国家议题,以及政治化话题的覆盖是否有增加。他们的研究采用了YouTube频道转录作为数据源,通过语料库分析和结构化主题模型(STM)来研究这些变化。实验结果揭示,Sinclair收购后的地方新闻站确实出现了更多关于国家和政治话题的内容,这影响了公众对地方事务的关注和参与72。
-
来自卡拉布里亚大学的Lucio La Cava等人研究了如何测量和表征Reddit平台上机器生成文本的存在及其影响。他们提出了使用Fast-DetectGPT进行检测的方法,并结合非参数检验来比较机器生成文本与人类生成文本之间的互动水平。实验发现,机器生成文本在某些子论坛中比人类生成文本吸引了更高的互动水平,但其可读性和长度通常不如人类生成文本,这为社交媒体平台上的内容真实性提供了新的视角73。
-
来自卡内基梅隆大学的Yeskendir Koishekenov等人研究了如何在不改变模型架构、参数数量或训练数据的情况下提升大型语言模型的推理能力。他们提出了Encode–Think–Decode(ETD)方法,通过递归地迭代关键推理层来优化推理深度。实验表明,ETD方法在17个推理基准上显著提升了性能,尤其是在数学和逻辑推理任务上74。
-
来自约翰霍普金斯大学的Baixuan Xu等人研究了自主代理在操作环境中的认知带宽瓶颈问题,特别是在涉及大量或无界行动空间的长期任务中。他们引入了认知带宽视角作为分析框架,并提出了规划与模式(PwS)方法。实验结果表明,在复杂的环境中,当行动空间较大时,PwS方法相对于传统规划与行动(PwA)方法表现更好,有助于提高代理在开放世界中的自主性75。
-
来自三星英国研究院的Junyi Zhu等人研究了在移动设备上部署自然语言处理模型时面临的挑战,特别是需要适应多种任务如命名实体识别和文本分类,同时保持资源效率。他们提出了Multi-Task Pre-Finetuning with Task-Primary LoRAs(MTPF-TPL)框架,通过模块化的适配器来解决预微调策略的不兼容问题。实验显示,MTPF-TPL框架在多个下游任务上显著提升了性能,尤其是文本分类任务76。
-
来自香港科技大学的Shuichiro Haruta等人研究了结构化剪枝对大型语言模型性能的影响,特别是由于方向信息丢失导致的错误补偿问题。他们提出了RCPU方法,结合旋转约束和方差感知的重要性评分来优化剪枝后的模型性能。实验表明,RCPU方法在各种剪枝比例下都优于基线方法,并在多个任务上表现出色,证明了这种方法在减少计算成本的同时也能保持模型性能77。
-
来自约翰霍普金斯大学的Miriam Wanner等人研究了机器生成文本在Reddit上的存在和影响。他们的研究通过大规模数据分析揭示了机器生成文本的分布和特性,指出信息寻求和身份认同社区中机器生成文本的采纳率较高。实验表明,尽管机器生成文本通常较长且可读性较低,但在大多数情况下仍能吸引较高的用户互动73。
-
来自香港科技大学的Baixuan Xu等人研究了自主代理在执行多步推理任务时的认知带宽瓶颈问题,尤其是处理大型或无边界行动空间的任务。他们提出的规划与模式(PwS)方法能够在高复杂度环境下提高代理的性能,实验结果显示在某些环境中,PwS比传统规划与行动(PwA)方法更有优势75。
-
来自三星韩国电子的Junyi Zhu等人研究了轻量级变压器编码器在多任务预微调中的应用,特别是针对文本分类和命名实体识别任务。他们提出了一种名为MTPF-TPL的新颖框架,通过任务特定的LoRA模块解决了NLP任务中预微调策略的不兼容问题。实验表明,该框架在21个下游任务上分别提高了+0.8%和+8.8%的性能,展示了其在低资源设置下的优越性76。
-
来自Meta AI的Mufei Li等人研究了在异构和代理驱动的长上下文评估中,大型语言模型如何有效处理噪声和偏差的上下文。他们构建了HaystackCraft,一个模拟真实世界信息检索挑战的基准,实验表明,即使是最先进的模型也容易受到级联错误的影响,而在更广泛的上下文中表现更好78。
-
来自KDDI研究所的Shuichiro Haruta等人研究了如何通过旋转约束补偿方法减少结构化剪枝对大型语言模型性能的影响。他们提出的方法RCPU能够有效维护输出表示的范数和内积结构,避免过度拟合问题,实验表明RCPU在多项任务上优于基线方法,尤其是在零样本推理任务上的表现显著77。
-
来自伊利诺伊大学厄巴纳-香槟分校的Lingcheng Kong等人研究了如何利用大型语言模型生成高效的GPU内核,特别是CUDA内核。他们提出了一种名为ConCuR的数据合成和整理管道,用于生成高质量的CUDA内核数据集。实验显示,更简洁的推理轨迹能够产生更高的准确率,且KernelCoder模型在KernelBench基准测试中表现优异79。
-
来自国立阳明交通大学的Yong-En Tian等人研究了如何通过内容感知的方式对提供的方面进行细化,以提高大型语言模型在摘要生成中的性能。他们提出了CARPAS任务,并设计了两种预测文档相关方面数量的方法:#Aspect-LLM和#Aspect-RM。实验表明,#Aspect-RM方法在多个数据集上显著提高了摘要质量,尤其是在COVID-19-PC数据集上,BERTScore和ROUGE-L指标分别提升了30.1%和24.4%80。
技术趋势
- 多代理系统:通过引入新的通信拓扑生成方法(如GTD框架)来优化多代理系统的效率和性能。
- 轻量化模型设计:通过结合小型模型的行为差异(如LightReasoner)或结构化剪枝技术(如RCPU)来减少大型模型的计算资源消耗。
- 数据合成与处理:开发新的数据合成策略(如ConCuR)和评估框架(如HaystackCraft),以支持更高效的任务特定模型训练和评估。
- 模块化和多层次方法:通过引入模块化适配器(如MTPF-TPL)或多层次水印检测系统(如双层水印方法)来提高模型的适应性和鲁棒性。
- 自适应推理:采用递归深度策略(如ETD方法)或基于状态的多代理进化搜索框架(如stateful multi-agent evolutionary search),以增强模型在推理任务中的性能。
数据集和评估
- 数学推理:GSM8K、MATH、SVAMP、ASDiv、MinervaMath、OlympiadBench、MMLU STEM等数据集被广泛用于评估模型的数学推理能力。
- 化学机制解析:oMeBench,包含超过10,000个注释的机制步骤,用于评估LLMs在有机化学推理任务上的性能。
- 机器生成文本检测:RPD数据集,专用于捕获GenAI工具生成的内容,帮助检测未经授权的RAG使用。
- 在线购物行为模拟:未明确提及具体数据集,但提到了使用OPeRA数据集,包括丰富的用户交互日志和详细的用户画像。
- 新闻内容分析:YouTube频道转录数据,用于分析Sinclair广播集团收购后地方新闻站内容的变化。
- CUDA内核生成:未明确提及具体数据集,但提到了使用合成数据集进行训练。
- 摘要生成:构造了两个合成数据集——收益电话会议记录和COVID-19新闻发布会材料,以及真实世界的收益电话会议数据。
- 长上下文推理:Natural Questions(NQ)、MuSiQue数据集,用于评估模型在长上下文推理任务上的性能。
- 事实准确性评价:VitalErrors数据集,由六种问答数据集构成,用于测试事实准确性评价指标对关键信息错误的敏感性。
以上总结涵盖了各个论文的主要贡献和独特之处,以及它们在特定数据集上的实验结果和性能提升情况。
参考文献
-
LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology ↩︎
-
Multimodal Safety Evaluation in Generative Agent Social Simulations ↩︎
-
Standard-to-Dialect Transfer Trends Differ across Text and Speech: A Case Study on Intent and Topic Classification in German Dialects ↩︎
-
Multilingual Generative Retrieval via Cross-lingual Semantic Compression ↩︎
-
VoiceAgentBench: Are Voice Assistants ready for agentic tasks? ↩︎
-
Multilingual Knowledge Graph Completion via Efficient Multilingual Knowledge Sharing ↩︎
-
Mining the Mind: What 100M Beliefs Reveal About Frontier LLM Knowledge ↩︎
-
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs ↩︎
-
ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall ↩︎
-
Making Machines Sound Sarcastic: LLM-Enhanced and Retrieval-Guided Sarcastic Speech Synthesis ↩︎
-
Biasless Language Models Learn Unnaturally: How LLMs Fail to Distinguish the Possible from the Impossible ↩︎
-
TRIM: Token-wise Attention-Derived Saliency for Data-Efficient Instruction Tuning ↩︎
-
AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs ↩︎
-
OBCache: Optimal Brain KV Cache Pruning for Efficient Long-Context LLM Inference ↩︎
-
Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation ↩︎
-
Deploying Tiny LVLM Judges for Real-World Evaluation of Chart Models: Lessons Learned and Best Practices ↩︎
-
OWL: Overcoming Window Length-Dependence in Speculative Decoding for Long-Context Inputs ↩︎
-
Sunflower: A New Approach To Expanding Coverage of African Languages in Large Language Models ↩︎
-
Leveraging Author-Specific Context for Scientific Figure Caption Generation: 3rd SciCap Challenge ↩︎
-
Curing Miracle Steps in LLM Mathematical Reasoning with Rubric Rewards ↩︎
-
NurseLLM: The First Specialized Language Model for Nursing ↩︎
-
CS3-Bench: Evaluating and Enhancing Speech-to-Speech LLMs for Mandarin-English Code-Switching ↩︎
-
Causality Guided Representation Learning for Cross-Style Hate Speech Detection ↩︎
-
Stress-Testing Model Specs Reveals Character Differences among Language Models ↩︎
-
LLM Unlearning Under the Microscope: A Full-Stack View on Methods and Metrics ↩︎
-
More Data or Better Data? A Critical Analysis of Data Selection and Synthesis for Mathematical Reasoning ↩︎
-
Quantifying Data Contamination in Psychometric Evaluations of LLMs ↩︎
-
Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains ↩︎
-
Language Lives in Sparse Dimensions: Toward Interpretable and Efficient Multilingual Control for Large Language Models ↩︎
-
Revisiting Metric Reliability for Fine-grained Evaluation of Machine Translation and Summarization in Indian Languages ↩︎
-
LuxInstruct: A Cross-Lingual Instruction Tuning Dataset For Luxembourgish ↩︎
-
Lemma Dilemma: On Lemma Generation Without Domain- or Language-Specific Training Data ↩︎
-
Pragyaan: Designing and Curating High-Quality Cultural Post-Training Datasets for Indian Languages ↩︎
-
Do LLMs Really Need 10+ Thoughts for “Find the Time 1000 Days Later”? Towards Structural Understanding of LLM Overthinking ↩︎
-
HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation ↩︎
-
TTOM: Test-Time Optimization and Memorization for Compositional Video Generation ↩︎
-
LiveThinking: Enabling Real-Time Efficient Reasoning for AI-Powered Livestreaming via Reinforcement Learning ↩︎
-
Reasoning for Hierarchical Text Classification: The Case of Patents ↩︎
-
Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models ↩︎
-
AsyncSpade: Efficient Test-Time Scaling with Asynchronous Sparse Decoding ↩︎
-
ToolExpander: Extending the Frontiers of Tool-Using Reinforcement Learning to Weak LLMs ↩︎
-
Test-Time Matching: Unlocking Compositional Reasoning in Multimodal Models ↩︎
-
ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning ↩︎
-
CompassLLM: A Multi-Agent Approach toward Geo-Spatial Reasoning for Popular Path Query ↩︎
-
PATCH: Mitigating PII Leakage in Language Models with Privacy-Aware Targeted Circuit PatcHing ↩︎
-
Banking Done Right: Redefining Retail Banking with Language-Centric AI ↩︎
-
Can Lessons From Human Teams Be Applied to Multi-Agent Systems? The Role of Structure, Diversity, and Interaction Dynamics ↩︎
-
Comprehensiveness Metrics for Automatic Evaluation of Factual Recall in Text Generation ↩︎
-
Towards Human-Like Grading: A Unified LLM-Enhanced Framework for Subjective Question Evaluation ↩︎
-
Textual Entailment and Token Probability as Bias Evaluation Metrics ↩︎
-
Comparing human and language models sentence processing difficulties on complex structures ↩︎
-
MAPRO: Recasting Multi-Agent Prompt Optimization as Maximum a Posteriori Inference ↩︎
-
AdaSwitch: Adaptive Switching Generation for Knowledge Distillation ↩︎
-
Drift No More? Context Equilibria in Multi-Turn LLM Interactions ↩︎
-
Instance Relation Learning Network with Label Knowledge Propagation for Few-shot Multi-label Intent Detection ↩︎
-
The Unintended Trade-off of AI Alignment:Balancing Hallucination Mitigation and Safety in LLMs ↩︎
-
Where to Begin: Efficient Pretraining via Subnetwork Selection and Distillation ↩︎
-
How much speech data is necessary for ASR in African languages? An evaluation of data scaling in Kinyarwanda and Kikuyu ↩︎
-
LightReasoner: Can Small Language Models Teach Large Language Models Reasoning? ↩︎
-
Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models ↩︎
-
OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment ↩︎
-
oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning ↩︎
-
Who Stole Your Data? A Method for Detecting Unauthorized RAG Theft ↩︎
-
Customer-R1: Personalized Simulation of Human Behaviors via RL-based LLM Agent in Online Shopping ↩︎
-
Does Local News Stay Local?: Online Content Shifts in Sinclair-Acquired Stations ↩︎
-
Machines in the Crowd? Measuring the Footprint of Machine-Generated Text on Reddit ↩︎ ↩︎
-
Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts ↩︎
-
The Cognitive Bandwidth Bottleneck: Shifting Long-Horizon Agent from Planning with Actions to Planning with Schemas ↩︎ ↩︎
-
Multi-Task Pre-Finetuning of Lightweight Transformer Encoders for Text Classification and NER ↩︎ ↩︎
-
RCPU: Rotation-Constrained Error Compensation for Structured Pruning of a Large Language Model ↩︎ ↩︎
-
Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation ↩︎
-
ConCuR: Conciseness Makes State-of-the-Art Kernel Generation ↩︎
-
CARPAS: Towards Content-Aware Refinement of Provided Aspects for Summarization in Large Language Models ↩︎