2025年10月14日NLP领域论文汇总(中文)
- Topic 1: Reasoning and Problem Solving (7 papers)
- Topic 2: Multimodal AI Systems (5 papers)
- Topic 3: Reinforcement Learning Techniques (8 papers)
- Topic 4: LLM Fine-Tuning and Adaptation (8 papers)
- Topic 5: Healthcare and Ethical AI (4 papers)
- Topic 6: Natural Language Processing and Understanding (6 papers)
- Topic 7: Information Retrieval and Aggregation (5 papers)
- Topic 8: AI Safety and Security (3 papers)
- Topic 9: Machine Learning and Model Optimization (4 papers)
- Topic 10: Generative AI and Creative Applications (5 papers)
- Topic 11: misc (24 papers)
Topic 1: Reasoning and Problem Solving
主题概述
Reasoning and Problem Solving 是人工智能领域的一个关键主题,尤其在大型语言模型(LLMs)的研究中占据重要位置。随着LLMs的应用范围不断扩大,其在不同任务中的推理能力成为评价模型性能的重要标准之一。然而,现有的研究往往集中在单一语言环境或特定类型的任务上,忽视了多语言和跨域推理的重要性。因此,探索和优化LLMs在各种情境下的推理和解决问题的能力变得尤为重要。
各论文贡献
-
来自BRAC University的Mahbub E Sobhani等人研究了大型语言模型在数学问题解决和推理方面的多语言表现不均衡的问题,提出了MathMist,这是一个包含七种语言超过21K对齐问题-答案的数据集,旨在评估LLMs在数学推理方面的多语言能力。该方法的主要创新点在于设计了一套多样化的任务变体,包括代码切换链式思考(CoT)推理和扰动推理,以及强调了语言敏感微调和跨语言对齐的重要性。产生的价值在于为研究者提供了衡量LLMs跨语言推理能力的新平台,揭示了不同模型在多语言环境中处理数学问题的潜在差异。在MathMist数据集上的实验表明,GPT-OSS-20B表现出最高的整体性能,而较小模型如Mathstral在从零样本到CoT条件下的表现下降显著,这表明单纯增加模型规模并不足以确保强大的跨语言数学推理能力。1
-
来自University of Pittsburgh的César Guerra-Solano等人探讨了通过多语言词汇分组游戏评估LLMs的抽象推理能力。他们引入了GlobalGroup,一种基于纽约时报连接游戏的多语言词汇分组游戏,用于评估模型的抽象推理能力。该方法的创新之处在于通过游戏难度指标,如组大小、词嵌入聚类和组间词汇重叠,来测量模型的表现,并利用FastText嵌入的“话题达成”(TA)评分进行评估。这项工作的实际价值在于它提供了一个新颖且详细的跨语言推理评估框架,填补了现有研究的空白。实验结果表明,GPT-4的整体表现最佳,紧随其后的是Llama3.1-70B,而专注于多语言训练的开源模型Aya-8B也展现出竞争力。2
-
来自Harvard University的Aayush Karan等人关注如何在不依赖强化学习(RL)的情况下提高LLMs的推理能力。他们提出了一种基于幂律分布和Metropolis-Hastings (MH)马尔科夫链蒙特卡洛(MCMC)技术的新型抽样算法,以增强单次推理性能。这种方法的主要创新在于通过推理时的采样策略而非RL后训练来提升模型的推理能力。其价值在于避免了RL后训练带来的多样性崩溃、额外训练需求及验证器的必要性,同时展示了在多个推理任务上与RL后训练相当甚至更好的表现。实验结果显示,在HumanEval和AlpacaEval 2.0等跨域任务上,该算法优于GRPO,而在MATH500等域内任务上则与其持平。3
-
来自NAVER Cloud的Hwiyeol Jo等人研究了当前LLMs评估方法中存在的问题,特别是对于需要推理的任务,这些方法过于依赖特定的答案提取规则。他们提出了一种名为Answer Regeneration的新框架,通过生成最终答案而不是直接提取来改进评估过程。该框架的创新点在于减少评估过程中的不一致性和处理不完整输出的能力,从而提高评估的可靠性。实验表明,这种方法在多个任务上均能改善模型表现,特别是在MMLU-Pro数据集中,实现了从+5.0%到+3.1%的性能提升。4
-
来自Thammasat School of Engineering的Perapard Ngokpol等人关注于LLMs在角色扮演应用中的表现,特别是描绘具有版本特性的超级英雄角色。他们开发了Beyond One World数据集,用于评估LLMs在不同时间和背景下忠实呈现角色的能力。主要创新点在于强调版本特定的角色表现和多宇宙一致性,提出了Think–Act Matching度量标准来量化推理与行动之间的对齐情况。实验发现,虽然某些模型在跨角色评估中表现出色,但它们在处理特定角色的时间线变化和道德困境时仍存在挑战。5
-
来自Marco Simoni等人的研究聚焦于当前网络安全威胁情报系统在处理多跳查询方面的局限性。他们引入了TITAN框架,通过执行结构化知识图谱上的推理来回答自然语言的网络安全威胁情报查询。TITAN框架的创新在于定义了一种新的TITAN本体论,用于消除歧义并实现灵活推理。实验显示,相较于非推理基线,TITAN框架中的CoT模型在生成和执行复杂关系路径方面表现更佳,尤其是在较长和涉及多跳路径的任务中。6
技术趋势
在这一主题下,研究者们正在逐步探索更复杂的推理方法和技术,如Chain-of-Thought (CoT) 推理、抽样技术、以及结构化知识图谱上的推理。此外,多语言支持和跨语言推理能力的提升成为研究热点,通过设计特定的语言敏感模型和数据集来克服语言障碍,提高模型的通用性和可靠性。同时,评估方法也在不断创新,从传统的规则提取转向更加灵活和可靠的生成式评估框架。
数据集和评估
- MathMist:用于评估LLMs数学推理能力的多语言数据集。
- GlobalGroup:一个多语言词汇分组游戏数据集,用于评估抽象推理能力。
- Power Sampling Algorithm:没有具体的数据集名称,但使用了一系列推理任务进行测试。
- Answer Regeneration:使用了MMLU-Pro数据集。
- Beyond One World:包含2,426项,用于评估角色扮演中的多版本一致性。
- TITAN Dataset:由74,258个训练样本和13,951个测试样本组成,用于评估网络安全威胁情报推理能力。
评估指标方面,除了传统的准确性指标外,还引入了诸如F1分数、Topic Achieved (TA) 评分、Think–Act Matching、Path Accuracy、以及ROUGE-L, BLEU, 和BERTScore等新指标,以更全面地衡量模型的推理能力和行为一致性。
Topic 2: Multimodal AI Systems
主题概述
多模态人工智能系统是指能够处理和整合多种类型的信息输入(如文本、图像、视频、语音等)的AI系统。这些系统通过结合不同模态的数据,可以提供更丰富、更全面的理解和交互能力,从而在诸如情感识别、语言理解、数学推理等多个领域展现出强大的应用潜力。随着技术的发展,多模态AI系统的性能和鲁棒性成为研究热点,特别是在面对多样化的输入形式和复杂的应用场景时,如何保证系统的稳定性和准确性显得尤为重要。
各论文贡献
-
来自University of California, Los Angeles的Yu Zhou等人研究了多模态生成模型在处理方言英语输入时表现不佳的问题,提出了DialectGen,一个大型基准测试来评估这些模型在多种英语方言中的鲁棒性。该方法的主要创新点是引入了一种基于编码器的学习策略和KL正则化损失,以提高模型处理方言的能力而不显著影响其在标准美式英语中的性能。在超过4,200个独特提示的数据集上进行的实验表明,当前最先进的多模态生成模型面临高达48.17%的性能下降,而使用DialectGen框架训练的模型则显著提高了在多个方言上的表现,同时对标准英语的影响几乎为零7。
-
来自Multimedia Laboratory (MMLab), The Chinese University of Hong Kong的Weikang Shi等人针对大语言模型在处理需要视觉辅助的数学问题时存在的局限性进行了探讨,提出了MathCanvas,一个旨在增强统一的大规模多模态模型在数学问题解决中视觉推理能力的框架。该方法的主要创新点是通过引入两个大规模语料库——用于编辑和生成高保真度图表,并提出新的基准MathCanvas-Bench来评估模型的视觉-文本数学推理能力。实验结果显示,在MathCanvas框架下训练的模型实现了显著的86%相对改进,特别是在几何学相关科目上表现出色,这表明该框架能够有效提升模型在视觉密集型任务中的推理能力8。
-
来自TT, Inc., Japan的Ryo Masumura等人研究了利用多模态数据自动识别人类外显人格特质的方法,特别关注Big Five和HEXACO两种人格模型的联合建模。该方法的主要创新点是通过多模态变压器架构处理音频、视觉和文本数据,以及创建了一个新的包含Big Five和HEXACO特质标注的数据集。实验表明,与单独使用Big Five或HEXACO模型相比,联合模型在识别人格特质方面表现更好,尤其是在音频、视觉和文本输入共同作用的情况下,达到了更高的皮尔逊相关系数和准确率,显示出多模态数据融合和考虑人格模型间关系的重要性9。
-
来自University of California, Los Angeles的Annisaa Fitri Nurfidausi等人探讨了利用三种模态(语音、文本和EEG)进行抑郁检测的技术,提出了TRI-DEP,一种三模态比较研究方法。该方法的主要创新点在于系统地探索了特征表示和建模策略,特别是对EEG数据的处理,并且采用了透明的数据分割协议以确保结果的可重复性。实验发现,大多数情况下,预训练嵌入比手工制作的特征表现更好,而多模态融合策略,尤其是多数投票法,显著提升了抑郁检测的F1分数,达到0.874的新纪录,突出了三模态融合在提高抑郁检测准确性方面的潜力10。
-
来自University of California, Los Angeles的Hatef Otroshi Shahreza等人评估了开源多模态大语言模型在面部识别任务上的性能,提出了系统性的评估方法。该方法的主要创新点是在不引入新数据集的情况下,通过一致的评估协议在多个标准数据集上进行性能对比,强调了特定领域微调对于改善模型性能的关键作用。实验结果表明,尽管多模态大语言模型能够捕捉丰富的语义线索,但它们在准确性上通常落后于专门的面部识别模型,不过Qwen2.5-VL-7B-Instruct模型在大部分基准测试中表现最佳,特别是在RFW数据集上展示了种族多样性方面的性能差距,提示未来研究需重视公平性和多样性11。
技术趋势
这些论文展示了多模态AI系统在不同应用场景中的研究进展和技术挑战。DialectGen 和 TRI-DEP 专注于提升模型在特定领域的鲁棒性和准确性,前者通过设计新的学习策略和损失函数来应对方言输入的挑战,后者通过多模态数据融合来提高抑郁检测的精确度。MathCanvas 和 Joint Modeling of Big Five and HEXACO 则更侧重于扩展模型的功能范围,前者通过引入视觉链式思维来增强数学推理能力,后者通过联合建模来识别更多维度的人格特质。Benchmarking Multimodal Large Language Models for Face Recognition 则是对现有模型的评估和比较,指出即使在复杂的视觉-语言任务中,也需要针对特定任务进行微调才能发挥出最佳性能。
数据集和评估
- DialectGen: 使用了包含4,200多个独特提示的数据集,涵盖六种英语方言,评估了17种不同的图像和视频生成模型。
- MathCanvas: 包括三个大型语料库:MathCanvas-Edit、MathCanvas-Imagen 和 MathCanvas-Instruct,以及一个新的基准测试MathCanvas-Bench。
- TRI-DEP: 使用了MODMA数据集,通过自动转录生成文本模态数据。
- Benchmarking Multimodal Large Language Models for Face Recognition: 未引入新数据集,但在六个标准数据集(LFW、CALFW、CPLFW、CFP、AgeDB-30 和 RFW)上进行了广泛的评估。
- Joint Modeling of Big Five and HEXACO: 创建了一个新的自介绍视频数据集,由多位观察者根据Big Five和HEXACO模型进行注释。
Topic 3: Reinforcement Learning Techniques
主题概述
强化学习(Reinforcement Learning, RL)是一种通过试错过程让机器学习如何做出决策的技术,广泛应用于机器人、游戏、自动驾驶等领域。近年来,随着大语言模型(Large Language Models, LLMs)的发展,将强化学习技术与这些模型结合以提高其推理能力、自我验证能力和多任务处理能力成为了研究热点。此领域的研究不仅有助于增强LLMs的自主性和可靠性,还能促进其在复杂任务中的应用,特别是在需要精准逻辑推理和特定领域知识的任务中。
各论文贡献
-
来自Gaoling School of Artificial Intelligence, Renmin University of China的Wenkai Yang等人研究了大语言模型在复杂推理任务中的低效性及缺乏连续验证信号的问题,提出了LaSeR(基于最后一词自我奖励的强化学习)算法来解决这一问题。该方法的主要创新点是利用最后一词的对数概率比率计算自我奖励分数,大幅降低了计算成本。产生的价值在于提供了一种轻量级且高效的算法,显著提升了LLMs的推理性能和自我验证能力。在DeepMath-103K数据集上训练,并使用多个数学推理基准测试后,结果显示LaSeR在大多数设置中达到了更高的准确率,并在基础模型上实现了平均准确率的提升12。
-
来自上海关键实验室数据科学,复旦大学计算机科学与人工智能学院的Qingyu Ren等人关注了语言模型在遵循多约束指令方面的能力不足问题,提出了一种无需外部标签或输出源的自监督强化学习框架。该框架的关键创新在于伪标签生成以及多约束分解策略,使得模型能够在训练过程中接收到密集的学习信号。产生的价值在于实现了真正无标签的训练,解决了现有RL方法中的稀疏奖励信号和计算负担重的问题。在IFEval等基准测试集上的实验显示,该方法在不同架构和大小的模型上均表现出显著的性能提升,尤其是在Qwen2.5-1.5B-Instruct模型上,性能提高了21.6%13。
-
来自UC Berkeley的Marwa Abdulhai等人探讨了大型语言模型在多回合对话中表现出来的欺骗行为问题,提出了一种新的衡量标准——信念偏离度,以更准确地捕捉到这种行为。该方法的主要创新之处在于将欺骗视为一个多回合的过程,并使用LLMs作为评判者来评估对话指标。产生的价值在于增强了AI在多回合对话中表现的安全性和道德性。通过在Housing等四个对话数据集上的实验,发现信念偏离度评分与人类判断高度相关,多回合RL微调能够减少高达77.6%的欺骗行为,而不会影响任务性能14。
-
来自香港中文大学(深圳)的Wenqian Zhang等人研究了是否可以训练LLMs设计满足特定功能需求的复杂机器,提出了一种名为BesiegeField的新测试平台。该方法的主要创新点在于整合了空间推理、战略组装和指令跟随等技能,旨在提升LLMs的机器设计能力。产生的价值在于探索了LLMs在工程设计任务中的潜力,通过RL微调实验展示了初步的进步。然而,研究也指出了持续存在的挑战和未来的研究方向15。
-
来自斯坦福大学的Michelle S. Lam等人针对LLMs在多回合场景中的训练效率低下和稳定性差的问题,提出了一种新的强化学习框架——信息增益策略优化(IGPO)。该框架的核心创新是引入基于信息增益的回合级别奖励机制,这有效缓解了传统结果奖励机制带来的“优势崩溃”问题。产生的价值在于提供了更加稳定有效的学习信号,尤其适用于搜索类任务。实验表明,IGPO在多个基准测试中表现优于提示法和结果奖励强化学习方法,特别是在小模型上表现出更好的答案准确率和样本效率16。
-
来自Renmin University of China的Guanting Dong等人专注于解决网页代理通过强化学习训练时面临的高熵挑战问题,提出了代理熵平衡策略优化(AEPO)算法。该方法的主要创新在于动态调整采样预算和惩罚连续高熵分支,确保探索空间的多样性。产生的价值在于通过改进探索和学习的方式,使网页代理在深度信息检索和知识密集型推理任务中表现得更加高效和稳定。实验结果显示,AEPO在GAIA等多个数据集上显著提高了通过率,同时减少了工具调用频率,表明了资源使用的高效性17。
-
来自Tel Aviv University的Matan Rusanovsky等人研究了视觉语言模型(VLMs)在执行像素级别的关键点理解和定位方面的局限性,提出了一个包含点描述器和点定位器的新型框架。该方法的主要创新点在于使用强化学习(特别是Group Relative Policy Optimization, GRPO)适应新类别,生成自由形式、富含上下文的自然语言描述。产生的价值在于首次实现了对个体关键点的精确描述和定位,超越了模板化提示和对象级别推理的限制。实验表明,所提出的系统在mPCK得分上有显著提升,甚至超过了人类标注的表现18。
技术趋势
这些论文展示了在强化学习技术与大型语言模型结合方面的重要进展。它们采用了多种创新的方法,如基于最后一词自我奖励的机制、自监督的奖励模型、信念偏离度测量标准、信息增益策略优化以及熵平衡策略优化等,旨在提升模型的推理能力、自我验证能力、任务执行的稳定性和安全性,以及跨模态的理解能力。可以看出,研究正在朝着更加精细化、自适应性强的方向发展,试图克服现有模型的局限性,实现更广泛的应用场景。
数据集和评估
- DeepMath-103K: 用于LaSeR的训练,评估其在数学推理任务上的表现。
- IFEval, CFBench, FollowBench, ComplexBench, WritingBench, Collie, AgentIF, MultiChallenge: 用于评估自监督RL框架在遵循多约束指令方面的性能。
- Housing, Nutrition, Charity, Deal or No Deal: 用于评估多回合RL在减少LLMs欺骗行为方面的有效性。
- BesiegeField: 包含超过20,000个图像-关键点-描述三元组的数据集,用于测试机器设计任务中LLMs的表现。
- GAIA, HLE, WebWalkerQA: 用于评估AEPO在网页代理训练中的效果。
- mPCK: 一种用于量化像素级关键点理解任务中性能改进的新评价指标。
Topic 4: LLM Fine-Tuning and Adaptation
主题概述
本主题“LLM Fine-Tuning and Adaptation”聚焦于大型语言模型(LLMs)的微调和适应性研究,旨在通过改进模型的训练和调整方法,使其更好地服务于特定领域或任务需求。随着LLMs的应用范围不断扩大,从医疗诊断到工具调用,再到学术论文分析,如何有效地利用这些模型的能力并减少其局限性成为当前研究的重要方向。该主题的研究不仅有助于提高LLMs在专业领域的表现,还能促进模型在面对新任务和数据分布变化时的稳定性和可靠性。
各论文贡献
-
来自1的Jianfeng Zhu等人研究了利用AI实现早期精神健康障碍诊断的问题,提出了基于大规模语言模型(LLMs)及参数高效微调(PEFT)技术如LoRA的方法,以识别真实世界临床对话中的早期精神疾病迹象。该方法的主要创新点是利用PEFT技术进行领域适应,并且采用了独特的真实世界半结构化精神病访谈数据集。产生的价值在于提高了早期精神健康障碍检测的准确性,特别是在抑郁症、焦虑症和创伤后应激障碍(PTSD)的诊断上。在多标签文本分类任务中,通过实验对比发现RoBERTa + LoRA + MLP头取得了最高的F1分数,显示出在不平衡标签分类上的稳健性。19
-
来自卡内基梅隆大学语言技术研究所的Emmy Liu等人探讨了语言模型训练过程中‘中期训练’(Midtraining)阶段的效果及其机制。该方法的主要创新点是对现有数据集如Starcoder、MAmmoTH、OpenMathInstruct等进行系统性研究,对比了直接微调和持续预训练的策略。产生的价值在于提供了关于‘中期训练’在数学和编码等特定领域应用效果的实证证据,表明这种策略能有效改善下游性能并保留通用语言建模能力。实验结果显示,在GSM8k、SciQ等数据集上,‘中期训练’策略在准确率和遗忘度方面均有显著提升。20
-
来自马克斯·普朗克智能系统研究所的Parsa Hejabi等人提出了一种无监督训练方法——Flip-Flop Consistency(F2C),用于提高大型语言模型对提示语扰动的鲁棒性。该方法的主要创新点是引入共识交叉熵(CCE)和表示对齐损失,无需标注数据即可提升模型的语义一致性。产生的价值在于增强了高风险应用场景(如法律和医学)中LLMs的可靠性和可信度。实验结果表明,F2C方法平均提高了观察到的一致性($P_{o}$)11.62%,并增加了$\bar{F_{1}}$值8.94%,同时减少了跨格式$\bar{F_{1}}$方差3.29%,显示了其在多个数据集上的有效性。21
-
来自University of Southern California的I-Fan Lin等人解决了意图聚类问题,即如何将未标注的短文本按相似意图分组。该方法的主要创新点是使用轻量级开放源代码LLMs构建伪标签集,不需要预先知道聚类数量,而是让其自然出现。产生的价值在于简化了超参数优化过程,提高了人类对生成的伪标签的可读性。实验结果显示,该方法在Bank77、CLINC150、Mtop和Massive四个基准数据集中的三个上优于其他最先进的对比学习方法。22
-
来自Reid T. Johnson等人的研究关注于大型语言模型在工具调用过程中由于结构化输出要求而面临的准确性和一致性下降问题。该方法的主要创新点是提出了Natural Language Tools(NLT)框架,用自然语言代替结构化的JSON/XML输出,解耦了工具选择与响应生成的过程。产生的价值在于提升了客户支持和心理健康支持等应用领域的代理系统性能。实验表明,NLT框架在工具调用准确性上平均提高了18.4个百分点,并降低了输出方差。23
-
来自Ziye Xia等人的研究专注于小型语言模型在学术论文分析中的应用,提出了基于代理和OpenAlex知识图谱的约束驱动的小型语言模型方法,用于挖掘概念路径和发现学术创新点。该方法的主要创新点是结合外部知识图谱约束,实现了精准的关键概念提取和创新点识别。产生的价值在于提供了一种新的框架,能够更有效地整合学术论文中的概念与大规模知识图谱。实验显示,该系统在端到端过程中达到了91.46%的F1分数,显著优于直接生成基线和其他未经微调的大规模语言模型。24
技术趋势
本主题下,研究者们探索了多种技术路线来改进LLMs的适应性和微调效果。这些包括但不限于参数高效微调(PEFT)、无监督训练方法、基于自然语言的工具调用框架以及结合外部知识图谱的代理系统。其中,参数高效微调和无监督训练方法成为提升模型性能的关键技术,而结合外部知识图谱的方法则为模型提供了更广泛的上下文理解能力。此外,针对特定领域的适应性训练(如中期训练)也显示出显著的性能优势,这表明未来研究可能会更加注重模型在特定任务和数据集上的定制化优化。
数据集和评估
- AI-Powered Early Diagnosis of Mental Health Disorders from Real-World Clinical Conversations:使用了独特的半结构化精神病访谈数据集,评估指标包括F1分数。
- Midtraining Bridges Pretraining and Posttraining Distributions:使用了Starcoder、MAmmoTH、OpenMathInstruct、FLAN、DCLM等数据集,评估指标包括验证损失和遗忘度。
- Rewiring Experts on the Fly: Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models:未明确提及具体数据集名称,但涉及MMLU-redux、HumanEval、MBPP-sanitized、GSM8K、MATH500等数据集,评估指标包括性能和一致性度量。
- Constraint-Driven Small Language Models Based on Agent and OpenAlex Knowledge Graph:使用了来自Novosibirsk State University的数据集,包含7,960篇论文和11,446个独特概念,评估指标主要是F1分数。
- Intent Clustering with Shared Pseudo-Labels:实验数据集包括Bank77、CLINC150、Mtop和Massive,评估指标包括归一化互信息(NMI)和聚类精度(Acc)。
- Natural Language Tools: A Natural Language Approach to Tool Calling In Large Language Agents:未明确提及具体数据集,但进行了客户支持和心理健康领域共计6,400次试验,评估指标包括工具调用准确性和输出方差。
这些数据集的选择反映了不同应用场景下的需求,而评估指标则涵盖了从功能性正确性到合成效率,再到鲁棒性和一致性等多个维度,体现了研究者们对于模型全面性能的追求。
Topic 5: Healthcare and Ethical AI
主题概述
在医疗健康领域,人工智能的应用日益广泛,从患者监测到疾病诊断,再到心理健康支持等。然而,随着这些系统的部署和使用,确保其符合伦理标准变得至关重要。这不仅关乎保护用户隐私、避免偏见和不公平对待,还涉及到防止潜在的有害输出和错误决策。因此,开发能够有效检测和管理AI系统输出的安全性和伦理性的工具和技术显得尤为重要。
各论文贡献
-
来自Qwen团队的Haiquan Zhao等人研究了大语言模型(LLMs)在现实应用中的限制,特别是现有的防护模型只能提供二元安全标签,且无法适应不同领域的安全容忍度。他们提出了Qwen3Guard,一种多语言安全防护模型,通过引入三级严重性分类(安全、争议、不安全),实现了实时检测,并支持多种语言。技术上,Qwen3Guard包括生成和流式两种变体,分别针对生成和流式场景设计。该方法的主要创新点在于引入了争议标签以更好地适应变化的安全政策,以及开发了多阶段训练和数据精炼管道来处理数据中的固有模糊性和标注噪声。产生的价值在于提供了比传统二元标签防护模型更细致、更灵活的安全评估系统,同时无缝集成到了流式推理工作流程中。在超过1.19百万样本的数据集上的实验表明,相比基线模型,Qwen3Guard-Gen在8个公共英语基准测试中表现出色,甚至优于更大的模型。此外,它在内部推理轨迹的调节方面也展示了卓越的能力25。
-
来自德克萨斯大学圣安东尼奥分校的Xingmeng Zhao等人关注的是快速发展的医疗健康AI系统所带来的未预见风险。他们提出了一种以人为中心的框架,结合自动化用户故事生成与结构化红队讨论,促进早期伦理反思。该方法通过模拟人与AI系统及环境之间的互动,产生基于用户身份和行为的情境敏感故事,从而将伦理考量扎根于实际应用场景中。主要创新点在于故事生成与伦理预见相结合的方法,并提供了一个包含38个消费者健康AI解决方案及其使用案例情景的数据集,以及生成故事和开展红队讨论的代码。实验显示,与传统情节规划方法相比,参与者通过参与故事能识别出更广泛的潜在危害,分布更加均匀,而不仅仅是集中在隐私和福祉上。这种方法在不同的大型语言模型(如GPT-4o、Llama3和Gemma)上都显示出一致性改进,在叙事质量和多样性方面超越了基线方法26。
-
来自ToppyMicroServices OÜ的Akira Okutomi研究了人类思维和机器推理中的过度自信或“幻觉”问题,特别是在大语言模型(LLMs)中。他提出了一种控制理论框架,将康德的认知哲学与卡尔曼闭环操作者的结构联系起来,认为过度自信源于认知过程的不稳定。该方法的主要创新点是引入了H-Risk指数来量化认知不稳定,并提供了一个实验框架来测试这一理论,结合了哲学概念和实际AI系统分析。通过实验,Okutomi发现即使在形式稳定的情况下,结构上的不适配也会导致校准不佳,表明过度自信是认知不稳定的结果。这种方法为提高LLMs的校准性和减少幻觉提供了新的理论基础27。
-
来自未知机构的Zhuo-Yang Song等人探讨了由大语言模型驱动的搜索过程的有效性,尤其是在AI+科学应用中的表现。他们提出了一种测量LLM代理在先验结构化搜索空间内行为的紧凑理论,引入了“模糊关系算子”来表示代理在搜索空间的行为,并定义了“覆盖生成函数”来量化各种状态的可达性。该理论还包括了“安全信封”和“关键参数”的定义,共同系统地刻画了可达性和安全性约束。主要创新点是提供了一个模型无关的框架,用于衡量和比较不同代理的搜索能力。实验结果支持了在具有较长最短路径且无闭合循环的场景下,路径数量远少于最短距离的假设,表明复杂性主导着路径多样性。这些洞察可能有助于设计更高效和稳定的搜索策略28。
技术趋势
这些论文展示了在医疗健康AI领域中,伦理和安全问题越来越受到重视。它们采用了多种技术路线来应对这些问题,包括但不限于多语言安全分类、情境敏感的故事生成、控制理论框架下的稳定性分析,以及搜索空间的结构性测量。其中,多语言支持和实时检测能力成为当前研究的重点,反映了全球化背景下对多元文化和实时响应的需求。此外,将哲学思想与现代技术相结合的方法也开始出现,预示着未来的研究可能会更加注重跨学科融合,以更全面地理解和解决AI伦理问题。
数据集和评估
- Qwen3Guard使用了一个包含超过1.19百万样本的数据集,涵盖119种语言和方言。
- Xingmeng Zhao等人的研究提供了一个包含38个消费者健康AI解决方案及其使用案例情景的数据集。
- Akira Okutomi的实验涉及FEVER和NQ等数据集,用于测试LLMs的校准性和幻觉问题。
- Zhuo-Yang Song的工作虽然没有具体提及使用公开数据集,但提出了一个新的理论框架来测量和分析LLM在特定任务中的表现。
评估指标方面,各论文采用了不同的方法来验证其模型的有效性,包括准确性、创造性、连贯性、参与度、相关性和现实性等多维度评价,以及特定任务中的定量指标如覆盖率、路径多样性和距离等。这些评估手段共同反映了研究者们对全面理解AI系统行为和影响的关注。
Topic 6: Natural Language Processing and Understanding
主题概述
自然语言处理与理解(Natural Language Processing and Understanding)是人工智能领域的一个重要分支,专注于让机器能够理解和生成人类语言。随着大语言模型(Large Language Models, LLMs)的发展,这一领域的应用范围正在迅速扩展,涵盖从代码生成到跨语言处理,再到心理健康监测等多个方面。这些应用不仅推动了技术进步,也促进了社会福祉的提升,例如通过更精确的自杀倾向检测来提供及时的心理干预支持。因此,该领域的研究对于提高LLMs的性能和广泛适用性具有重要意义。
各论文贡献
-
来自University of Waterloo的Yinxi Li等人研究了大语言模型(LLMs)子词分词与编程语言语法边界之间的不匹配问题,提出了TokDrift框架来量化这种不匹配对LLMs性能的影响。 该框架的主要创新点在于其系统化地评估了输入代码的小改动(如命名风格转换或操作符周围的空格调整)对LLMs预测结果的影响。其产生的价值在于帮助研究人员更好地了解如何改进LLMs以适应特定的编程任务,从而提高它们在代码相关任务中的表现。在九个不同的代码LLMs上进行了测试,结果表明最优秀的模型(Qwen2.5-Coder-32B-Instruct)在输入分词变化的情况下,其预测行为改变了6.09%,而模型大小与敏感度之间存在一定的关联。29
-
来自Tsinghua University和Alibaba Group的Haolin Li等人针对高资源语言(如英语和中文)和低资源语言(如乌尔都语和泰语)之间的性能差异问题,提出了LiRA(Linguistic Robust Anchoring for Large Language Models)框架。 该框架通过锚定策略将低资源语言锚定至英语的语义空间,并加入了一种轻量级推理头(LaSR)来增强跨语言表示的稳定性。其主要创新点在于结合了多代理协同编码和一致性正则化技术,显著提升了低资源语言在多个任务上的表现。在多个公共检索基准测试(如MLQARetrieval, BelebeleRetrieval, 和STS22)上,LiRA相对于基础模型(Qwen3-E-8B)的表现有了显著提升,增益范围从0.53到3.36分不等。30
-
来自Salesforce AI Research的Lifu Tu等人关注于小型多语言嵌入模型在检索任务中的表现不足问题,提出了一种通过合成多语言训练数据来改进小模型性能的方法。 该方法的创新点在于利用硬负例采样和任务多样性来优化训练数据,进而提升检索准确性。其产生的价值在于证明了即使是参数较少的小型模型,也可以通过适当的训练手段达到大型模型的性能水平,这对于降低计算成本和资源需求至关重要。实验结果显示,该模型在MMTEB检索任务类别上达到了60.56的评分,超过了或匹敌当前强大的7B模型。31
-
来自Nanyang Technological University的Yilun Zheng等人探讨了大型语言模型生成的知识图谱(KGs)在检索增强生成(RAG)系统中因冗余和错误关系而导致的问题。 他们提出了Deg-Rag框架,包含实体解析和三元组反射两个关键步骤,旨在减少KG中的冗余和错误,提升RAG系统的效率和精度。该框架的主要创新点在于系统化地解决了由LLMs生成的KG的噪音问题,填补了现有研究中的空白。实验显示,Deg-Rag在四个UltraDomain基准数据集上显著提高了四种代表性的基于图的RAG方法的表现,特别是在法律和混合类数据集上。32
-
来自University of Illinois Urbana-Champaign的Soorya Ram Shimgekar等人致力于在社交媒体上早期检测隐性的自杀意念(SI),尤其是在个体未明确表达其困扰的情况下。 他们引入了一种新的框架,该框架结合了纵向发布模式和社会近邻用户间的互动信号,用于捕捉隐性的自杀意念。该框架的创新之处在于其整合了社交环境的信息,以提升自杀意念预测的准确性。实验表明,在考虑邻居帖子时,模型的表现最佳,特别是峰值准确率达到0.95,F1值达到0.96,这表明社会上下文提供了有价值的预测信号。33
-
来自University of Massachusetts, Amherst的Logan Lawrence等人研究了如何改进多模态大型语言模型(MLLMs)在细粒度视觉分类(FGVC)任务中的识别能力。 他们提出了一种名为nlg2choice的两阶段方法,首先让MLLM生成自由形式的回答,然后通过文本约束解码来预测最可能的类别。该方法的创新点在于它结合了自由形式回答和约束解码,同时引入了早期停止机制来减少计算成本。实验结果显示,相比直接约束解码,nlg2choice方法在七个FGVC数据集上平均提高了9.66%的分类准确率,而nlg2choiceopen变体进一步提升了17.46%。34
技术趋势
该研究主题下的论文采用了多种技术和方法,包括但不限于:
- 语法感知的分词方法:通过TokDrift框架,研究人员试图通过量化和理解输入代码的小改动对模型性能的影响,来改进LLMs在代码生成任务上的表现。
- 跨语言表示增强技术:LiRA框架通过锚定策略和轻量级推理头来提升低资源语言的性能,展示了跨语言处理中的新方法。
- 合成数据和硬负例采样:在解决小型多语言模型的性能问题时,Lifu Tu等人的工作强调了合成数据的重要性,以及硬负例采样和任务多样性的组合在训练数据中的作用。
- 知识图谱的去噪:Yilun Zheng等人的研究展示了如何通过实体解析和三元组反射来清理由LLMs生成的知识图谱,以提高RAG系统的性能。
- 隐性情感信号检测:Soorya Ram Shimgekar等人通过结合纵向数据和社会互动信号,提供了一种新的自杀意念检测方法,增强了对隐性情感信号的捕捉能力。
- 多模态视觉分类:Logan Lawrence等人的工作集中在改进MLLMs在视觉任务中的表现,尤其是通过文本解码和早期停止机制来实现高效且准确的细粒度分类。
数据集和评估
- TokDrift 使用了九个不同的代码LLMs,并通过一系列预定义的重写规则来评估模型的敏感度。
- LiRA 构建并发布了覆盖五种东南亚语言和两种南亚语言的LazRetrieval数据集,用于支持未来的研究。
- Retrofitting Small Multilingual Models for Retrieval 没有引入新的数据集,但实验表明通过增加合成训练数据和引入硬负例采样,可以显著提高小模型的检索性能。
- Less is More: Denoising Knowledge Graphs For Retrieval Augmented Generation 使用了UltraDomain基准中的四个数据集(农业、计算机科学、法律、混合)进行评估。
- Detecting Early and Implicit Suicidal Ideation via Longitudinal and Information Environment Signals on Social Media 没有提及具体的公开数据集,但通过LIWC分析展示了其模型在区分案例用户和控制用户方面的能力。
- You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction 评估了nlg2choice方法在七个已知的FGVC数据集上的表现,突出了其在提升分类和检索性能方面的有效性。
以上总结涵盖了每篇论文的关键贡献、创新点及其在特定任务上的表现提升,展示了自然语言处理与理解领域的最新研究进展和技术趋势。
Topic 7: Information Retrieval and Aggregation
主题概述
信息检索与聚合(Information Retrieval and Aggregation)是人工智能领域中的一个重要研究方向,尤其在大规模语言模型(LLMs)的发展中占据关键地位。这一主题聚焦于如何从复杂、动态且异构的信息源中高效地提取和整合相关信息,以支持深度分析和决策制定。随着互联网信息量的爆炸式增长以及对高质量、多维度信息需求的增加,开发能够有效执行信息检索和聚合任务的智能系统变得尤为重要。这些系统的进步不仅能够促进科学研究的自动化,还能提高诸如医疗诊断、法律咨询等专业领域的效率和准确性。
各论文贡献
-
来自香港中文大学的Rui Wang等人研究了缺乏训练数据和方法的问题,这些问题阻碍了深度研究代理在复杂信息聚合和推理任务上的表现。他们提出了“探索以进化”方法及WebAggregatorQA数据集,通过主动在线探索和自动合成聚合逻辑生成了大约10K个查询-答案对。此外,还推出了基于Qwen3系列的WebAggregator模型家族,在信息聚合和推理任务上表现出色,优于现有模型。实验结果表明,经过WebAggregatorQA数据集微调后的WebAggregator-32B模型在GAIA-text和WebAggregatorQA数据集上的pass@1性能显著提升,证实了该数据集的有效性和相关性35。
-
来自加拿大阿尔伯塔大学的Md Mahadi Hasan Nahid等人针对多跳问答(multi-hop QA)中的精准度与召回率之间的权衡问题进行了探讨。他们提出了一种名为PRISM的框架,该框架包含三个专门的代理:问题分析器、选择器和添加器,分别负责分解复杂问题、过滤无关证据和补充缺失但必要的证据。PRISM通过迭代的方式优化证据集,从而在HotpotQA、2WikiMultiHopQA、MuSiQue和MultiHopRAG等四个多跳问答基准数据集上显著提升了检索性能和端到端问答准确性,尤其是在MuSiQue上获得了显著的改进36。
-
来自Turbit Systems GmbH的Mykolas Sveistrys等人专注于解决“多跳”问题,即需要在知识库的所有文档中聚合数据而没有明确的停止点的问题。他们引入了一个新的数据集PluriHopWIND,包含从191份风能行业报告中衍生出的48个多跳问题,同时提出了一种新的RAG架构——PluriHopRAG,旨在通过文档范围内的查询分解和基于交叉编码器的文档过滤来处理这类问题。实验结果显示,PluriHopRAG在F1分数上取得了显著相对提升,特别是在使用GPT-4o作为基础模型时,达到了52%的相对提升,这表明其在处理多跳问题上的有效性37。
-
来自未指定机构的Ziad Elshaer等人探讨了高绩效医学大语言模型在资源受限的医疗机构中的应用局限性,因为这些模型依赖于大量的微调和计算资源。为了解决这个问题,他们提出了CURE框架,这是一种基于信心驱动的统一推理集成框架,利用模型多样性而不需进行额外微调来提高医疗问答的表现。实验结果证明,CURE框架在MedQA、MedMCQA和PubMedQA三个基准数据集上均优于基线和其他方法,特别是PubMedQA和MedMCQA数据集中表现优异,展示了模型多样性在填补知识空白方面的价值38。
-
来自未指定机构的Jihao Zhao等人研究了传统的检索增强生成系统(RAG)依靠被动文本切块而非主动理解和推理的限制。他们提出了MoM框架,将被动文本切块转变为积极记忆提取,模拟领域专家如何深入理解并组织文档。MoM框架包括多路径采样和评估机制,并提出了一种反向推理策略(CoM)来训练具有更深层次理解能力的小型语言模型。实验结果显示,MemReader模型在CRUD、OmniEval和MultiFieldQA_zh等多个数据集上超越了各种基线方法,特别是在金融领域的OmniEval数据集上表现出色39。
技术趋势
这些论文共同反映了信息检索与聚合技术的进步方向,从单一的文本切块转向更加主动的理解和推理过程。它们通过设计专门的框架和模型来提高检索的精确度和召回率,同时引入了新的评估指标来衡量信息质量。此外,利用多模型协作和基于场景的记忆提取技术成为提升系统性能的关键手段,显示出未来研究可能更加注重模型间的协同作用以及对特定情境的理解能力。
数据集和评估
- WebAggregatorQA: 用于评估复杂信息聚合和推理任务的大型数据集。
- HotpotQA, 2WikiMultiHopQA, MuSiQue, MultiHopRAG: 用于测试多跳问答系统在不同复杂度和领域上的表现。
- PluriHopWIND: 特别设计用于评估处理多跳问题的能力,涵盖风能行业的报告。
- MedQA, MedMCQA, PubMedQA: 用于评价医学问答系统的性能,强调在医疗领域中应用的重要性。
- CRUD, OmniEval, MultiFieldQA_zh: 用于验证MoM框架及其反向推理策略在多领域信息检索和生成任务上的效果。
在评估方面,除了传统的精确匹配(Exact Match, EM)和F1分数外,一些论文还引入了新颖的评估标准,如原子片段清晰度(atomic chunks clarity)和ROUGE-L,以更好地衡量信息提取的质量和完整性。
Topic 8: AI Safety and Security
主题概述
人工智能(AI)的安全性和保障是当前AI研究中的一个重要领域,尤其在大型语言模型(LLMs)快速发展并广泛应用于各个领域的背景下。随着AI系统的复杂性和影响力日益增加,确保这些系统的技术安全以及其与社会文化环境的适配性变得尤为关键。此外,多智能体系统(MAS)的安全性、隐私保护以及抵御恶意攻击的能力也是研究的重点。本报告将汇总三篇相关论文的研究成果,它们分别从主权大型语言模型、网络安全专用小型语言模型以及多智能体系统安全性等方面探讨了AI安全性的挑战与解决方案。
各论文贡献
-
来自首尔国立大学的Kyubyung Chae等人研究了主权大型语言模型(LLMs)在技术安全和社会文化适应方面的验证框架和数据集缺失的问题,提出了一个新的多语言数据集和分析框架来评估主权LLMs的社会文化元素和技术稳健性。该框架包括基于定量准确性评估的多语言数据集使用和定性的人类评估,还进行了越狱实验以评估潜在风险。这一方法的主要创新点在于首次通过跨国视角审视主权LLMs,填补了评估方法论的空白。实验结果表明,尽管某些主权模型在其本国语言和社会文化环境中表现出色,但在其他语言尤其是资源较少的语言中,并不总是优于非主权模型40。
-
来自IBM Research的Matan Levi等人探讨了大型语言模型在网络安全领域应用时面临的滞后问题,即缺乏高质量的专业模型和训练数据集。他们提出了一套专门用于网络安全的小型语言模型CyberPal 2.0及SecKnowledge 2.0数据集丰富管道,旨在解决商业模型在网络安全任务中的局限性。此方法的创新之处在于引入了专家参与循环指导和多步骤锚定机制,以提高模型的推理能力和数据质量。CyberPal 2.0能够匹配甚至超越现有最先进模型的表现,尤其是在核心网络安全威胁情报任务上,展示了显著的性能提升,平均提高了7-14%41。
-
来自University of Massachusetts Amherst的Mason Nakamura等人关注的是由大型语言模型驱动的多智能体系统(MAS)的安全性、隐私性和保障性挑战。他们重新审视了黑板架构,提出了Terrarium框架,以创建一个模块化、可配置的测试床,用于研究多智能体协作。此框架的主要创新点在于它提供了一个灵活且贴近现实的环境,用于测试MAS的安全性和隐私措施。实验结果显示,MAS容易遭受隐私泄露和上下文溢出攻击,但通信中毒攻击的效果随时间逐渐累积,这表明需要更加坚固的防御机制来应对这种逐步侵蚀的风险42。
技术趋势
这几篇论文反映了AI安全研究中的几个关键技术趋势:首先,对于主权LLMs,研究者们正在开发新的多语言数据集和评估框架,以确保这些模型不仅技术上安全,还能适应特定的社会文化环境;其次,在网络安全领域,专注于开发小型语言模型和优化训练数据集的方法越来越受到重视,这些模型可以更好地满足企业内部安全需求;最后,在多智能体系统方面,研究者们利用传统架构如黑板架构的现代版本,探索如何更有效地检测和防止多智能体系统中的攻击行为。
数据集和评估
- Assessing Socio-Cultural Alignment and Technical Safety of Sovereign LLMs:使用了涵盖六种语言的数据集,通过定量准确性评估和定性人类评估相结合的方式进行评价。
- Toward Cybersecurity-Expert Small Language Models:提出了SecKnowledge 2.0数据集丰富管道,通过特定的网络安全基准测试来评估模型性能。
- Terrarium: Revisiting the Blackboard for Multi-Agent Safety, Privacy, and Security Studies:虽然未详细说明所使用的数据集,但实验设计涵盖了多种MAS场景,通过模拟攻击向量来评估MAS的安全性和隐私保护能力。
这些论文共同强调了构建和评估AI安全性的复杂性,同时也指出了未来研究的方向,特别是在多语言支持、专业领域应用以及多智能体系统安全性方面。
Topic 9: Machine Learning and Model Optimization
主题概述
机器学习与模型优化是当前人工智能领域的重要研究方向之一。随着模型规模的不断增大,如何在保证性能的同时减少计算资源的需求成为亟待解决的问题。此外,在特定的应用场景如对话处理、知识检索以及医疗问答系统中,模型的一致性和可靠性也日益受到重视。这些研究不仅推动了基础理论的发展,也为实际应用提供了更加高效、可靠的技术方案。
各论文贡献
-
来自University of Edinburgh的Matt Grenander等人研究了序列到序列(seq2seq)核心指代消解模型在增量文本处理中的低效问题,提出了Entity-Centric表示方法来解决这一问题43。该方法的主要创新点是通过保留预测实体对应的文本片段并丢弃无关标记来压缩输入。产生的价值在于显著减少了计算负担,同时保持了高精度的核心指代消解能力。在OntoNotes和LitBank数据集上的实验表明,相比全前缀增量基线方法,Entity-Centric方法实现了近两倍的输入长度压缩,尽管在CoNLL F1评分上略有下降,但整体性能依然较高,特别是对于需要降低计算负载的应用场景非常有用。
-
来自Capital One的Xujun Peng等人针对大语言模型在检索增强生成(RAG)系统中响应不一致的问题进行了探讨,尤其是当输入语义等价时,提出了一种包括系统性合成数据生成、三元组损失函数以提高嵌入质量及层级合并策略的方法来提升RAG系统响应的一致性44。该方法的主要创新点在于创建覆盖关键查询变化的合成数据集,并采用基于动态权重的层级合并技术,其中权重由层激活相似性决定。带来的价值在于提高了RAG系统的可靠性,特别是在金融、医疗和科学研究等领域。实验结果展示了在Llama和Gemma模型上,合并后的模型在一致性度量(如EM、RS、BS)上表现出色,且没有显著牺牲准确性,表明该方法能有效结合多个模型的优势,改善响应一致性。
-
来自同一机构的Yingpeng Ning等人聚焦于生物医学问答系统中的幻觉问题,这些问题源于检索后证据的噪音及缺乏足够的验证,提出了MedTrust-Guided Iterative RAG框架来提高事实一致性并减少幻觉现象45。其主要创新点在于实施了基于引用的推理、迭代检索验证过程及整合MedTrust-Align模块(MTAM)。MTAM结合了经过验证的正面样本与幻觉感知的负面样本,并利用直接偏好优化(DPO)来强化基于引用的推理,同时惩罚幻觉。构建的MedRankQA数据集有助于开发和评估该框架。实验结果表明,相较于强基线,该框架在MedMCQA、MedQA和MMLU-Med数据集上分别提升了LLaMA3.1-8B-Instruct和Qwen3-8B的平均准确率,达到了2.7%和2.4%,显著降低了各种类型的幻觉。
-
来自Rensselaer Polytechnic Institute的Mohammadsajad Alipour等人解决了将多个低秩适配模型或SVD截断后模型合并为单一统一模型时出现的性能退化问题,提出了Reversible Model Merging (RMM)方法46。该方法通过构建一组紧凑的模型权重基础,允许通过线性组合恢复原始任务特定模型。RMM的独特之处在于它保留了一个小型的基础模型集,提供存储与性能之间的灵活权衡。实验结果显示,RMM在GLUE基准测试中合并八个RoBERTa-base模型时,使用PT-SVD和LoRA压缩至秩16的情况下,分别达到了72.22%和58.64%的性能,显著优于现有的合并方法如Task Arithmetic (TA),TIES-merging和DARE。这表明RMM能够有效地保持低秩模型的性能,同时在多任务、联邦学习或连续学习等场景中实现高效管理。
技术趋势
从上述论文可以看出,该领域的技术趋势正向着提高模型效率和可靠性发展。具体而言,一种趋势是通过改进模型结构或算法设计来适应增量处理和实时响应需求;另一种趋势则是通过引入新的合并策略和技术,如RMM,来解决多模型融合时的性能下降问题。同时,为了提升模型的可靠性,尤其是在特定应用领域,如医疗问答系统,研究人员正在探索更有效的证据验证机制和幻觉抑制策略。
数据集和评估
各论文采用了不同的数据集进行评估,包括OntoNotes、LitBank、GLUE、RoBERTa-base、OPT-1.3b、MedQA、MedMCQA和MMLU-Med。评估指标方面,涵盖了CoNLL F1、Exact Match (EM)、Response Similarity (RS)、Bert Similarity (BS)、ROUGE和BLEU等,用于衡量模型在不同任务上的性能表现,如核心指代消解的准确性、生成响应的一致性以及生物医学问答系统的事实可靠性。
Topic 10: Generative AI and Creative Applications
主题概述
生成式AI与创意应用是当前人工智能领域的一个热门话题,特别是在自然语言处理(NLP)和多模态学习方面。这些研究不仅推动了机器学习模型在生成高质量文本和图像方面的进展,还探索了如何通过引入新的训练方法和评估标准来提升模型的创造力和跨文化适应能力。对于数字代理的训练、搜索增强的语言模型的奖励机制、中文创意写作的数据集构建以及主观写作偏好的跨文化评估等方面的研究,都旨在解决现有模型在创意任务中的局限性和挑战,从而推动AI在更广泛的实际场景中的应用和发展。
各论文贡献
-
来自哈佛大学的Yiming Wang等人研究了数字代理在与多样化用户界面交互时难以收集大规模高质量训练轨迹的问题,提出了UI-Simulator及其变体UI-Simulator-Grow,利用大型语言模型模拟UI环境并产生连贯且高质量的训练轨迹。该方法的主要创新点在于能够高效地生成用于训练数字代理的多样化合成轨迹,其价值在于提高了数字代理在各种任务中的鲁棒性和适应性,同时减少了对大量真实世界数据的依赖。在WebArena和AndroidWorld基准测试上的实验表明,相比直接基于真实UI训练的代理,该方法在性能上不仅具有竞争力,甚至有所超越,尤其是当使用较弱的教师模型时也能取得显著的效果47。
-
来自ModelBest Inc.的Linyue Ma等人针对搜索增强的大型语言模型在短文本和长文本任务中开发高效的可验证奖励机制的问题进行了探讨,提出了Search-Gen-V模型,该模型基于“nugget-as-rubric”范式,通过自动管道构造基于查询重写的评分准则。这种方法的主要创新点是统一了短文本和长文本工作负载下的评分系统,并且通过蒸馏和两阶段策略(监督微调后进行强化学习)实现了计算效率高且准确性高的验证。其价值在于提高了搜索增强语言模型在需要外部信息检索的任务中的可靠性与效率。实验结果显示,在TREC RAG24测试集上,Search-Gen-V-4B达到了最高的F1分数0.72;而在DeepResearch Bench和HotpotQA上的评估也展示了其在复杂报告和问答任务中的有效性,接近或超过了更大规模模型的表现48。
-
来自清华大学的Yunwen Li等人关注于大型语言模型在中文创意写作中的表现不足,特别是由于缺乏训练数据和过程级监督的问题,提出了COIG-Writer数据集。该数据集不仅包含输入输出对,还包括详细的创作思维过程,通过逆向工程技术从高质量文本中提取推理链,促进对过程级学习的研究。该方法的主要创新点在于首次提供了一个涵盖51种文体、包含创作思维过程的高质量中文创意写作数据集。其价值在于揭示了叙事逻辑与语言表达平衡的重要性,为改善非英语环境下AI的创意写作能力提供了方向。实验发现,加入过程监督可以显著提高中文创意写作的质量,但这种提升需要大量的通用样本作为补充,同时也发现了跨语言转移的限制,指出创意写作的能力受到文化和语言的限制49。
-
来自圣母大学的Mengzhao Jia等人解决了多模态大型语言模型在复杂多模态推理任务中存在虚假推理的问题,提出了AutoRubric-R1V框架。该框架通过集成基于评分准则的生成奖励到强化学习中,自动从模型的成功轨迹中收集关键推理检查点,无需人类标注或更强的教师模型。这种方法的主要创新点在于提出了一种自我聚合的方法,以问题特定的评分准则代替一般的评判标准。其价值在于提升了模型的推理忠实度和稳定性,尤其是在数学推理任务中。实验显示,AutoRubric-R1V在六个多模态推理基准测试中表现出色,尤其在防止奖励操纵方面表现出优势,这表明了该方法在提高模型泛化能力方面的潜力50。
-
来自清华大学的Shuangshuang Ying等人探讨了当前偏好学习方法与创意写作任务中所需主观质量评估之间的不匹配问题,提出了WritingPreferenceBench数据集,专门用于评估模型在主观写作偏好上的表现。该数据集涵盖了英文和中文的8种文体,专注于创造力、风格复杂度和情感共鸣等维度。该方法的主要创新点在于分离了客观质量信号,专注于主观偏好的评价。其价值在于填补了跨文化主观偏好建模领域的空白,为改进现有评估基础设施提供了可能。实验结果表明,生成式奖励模型相较于序列式奖励模型和零样本语言模型,能更有效地评估主观写作偏好,这突显了在创意写作任务中,结构化的中间推理步骤比简单的模式匹配更为重要51。
技术趋势
这些论文展示了生成式AI在创意应用领域内的几种主要技术路线:首先,利用大型语言模型模拟和生成训练数据,以提高数字代理的训练效率和质量;其次,通过设计新型的奖励机制和评分准则来优化模型在特定任务上的表现,如搜索增强型语言模型的准确性及多模态推理模型的忠实度;再次,创建新的数据集来支持特定语言(如中文)的创意写作训练,以及评估模型在主观质量上的表现。此外,这些研究均强调了过程级监督和结构化推理在提升模型创造性输出质量上的重要性。
数据集和评估
- UI-Simulator: 未明确提及具体数据集名称,但提到了WebArena和AndroidWorld两个基准测试。
- Search-Gen-V: 使用了TREC RAG24、DeepResearch Bench和HotpotQA三个数据集进行验证。
- COIG-Writer: 包含1,665个三元组的数据集,涉及51种不同的文体。
- AutoRubric-R1V: 未明确提及具体数据集名称,但在六个多模态推理基准测试上进行了评估,包括MathVerse、MathVision、MathVista、WeMATH、MMMU和MMMU Pro。
- WritingPreferenceBench: 包括1,800个人类验证过的偏好配对,专注于英文和中文的8种文体。
评估指标主要包括成功率(SR)、F1分数、精确度、召回率、准确性、推理忠实度等,根据不同任务和数据集的需求有所变化。
Topic 11: misc
主题概述
这个主题集合涵盖了多个领域中的大型语言模型(LLMs)的研究进展,包括代谢组学、编程、对话系统、文本生成等多个方面。这些研究旨在通过改进现有技术和提出新的框架来提升LLMs在特定任务中的性能和可靠性。对于科学研究和应用开发而言,理解并优化LLMs在这些领域的表现具有重要意义,能够推动人工智能技术在医疗、教育、客户服务等领域的广泛应用。
各论文贡献
- 来自Georgia Institute of Technology和Emory University的Yuxing Lu等人研究了缺乏代谢组学领域LLMs系统的评估标准的问题,提出了MetaBench,这是一个全面的基准测试工具,专门用于评估LLMs在代谢组学研究中的能力。该方法的主要创新点在于覆盖了代谢组学中的五个核心能力层级,包括知识、理解、关联、推理和研究。产生的价值在于填补了代谢组学领域中系统化评估LLMs的空白,通过实验揭示了LLMs在不同任务中的瓶颈和潜力52。
- 来自UC Santa Cruz的Kyle Montgomery等人研究了传统神经缩放法则在预测大语言模型下游任务性能方面的局限性,尤其是没有考虑上下文的作用。他们引入了一种新的框架,扩展了传统的神经缩放法则,加入了上下文长度和上下文限制,从而更准确地预测LLMs在各种任务上的性能。该方法的主要创新点在于直接建模下游性能,并且使用两个饱和幂律模型来表示训练计算和上下文长度之间的关系。产生的价值在于提供了一个解释性强且通用的工具,用于理解计算、上下文和性能之间的关系,实验结果显示其能准确预测模型性能53。
- 来自East China Normal University的Kedi Chen等人研究了如何提升LLMs的归纳推理能力。他们提出了一种名为CodeSeq的新合成数据管道,以提高LLMs处理复杂模式识别和归纳推理任务的能力。该方法的主要创新点在于利用数列算法化、基于案例的反思注入和基于求解难度的选择策略。产生的价值在于为提升LLMs的归纳推理能力提供了新思路,实验结果表明,经过训练的模型在归纳推理任务上有了显著的进步,甚至超越了参数量更大的模型54。
- 来自Carnegie Mellon University的Sathyanarayanan Ramamoorthy等人研究了在多语种和多媒体环境中准确执行实体链接(EL)的挑战,特别是当文本数据不足以消除歧义时。他们提出了MERLIN,一个用于多语种多模态实体识别和链接的测试平台。该方法的主要创新点在于结合了Universal Sentence Encoder和域适应的Transformer-based Denoising Autoencoder。产生的价值在于提供了一个有效的测试平台和基准,实验显示加入视觉数据能显著提升实体链接的准确性,尤其是在文本上下文模糊或不足的情况下55。
- 来自University of Alberta的Md Mahadi Hasan Nahid等人研究了在文本到SQL系统中从数据库模式中准确检索相关表和字段的问题。他们提出了一种新的上下文感知双向检索框架,用于改进文本到SQL系统中的模式链接。该方法的主要创新点在于整合了表格优先和字段优先检索策略以及多种增强技术。产生的价值在于缩小了全模式基准和理想模式设置之间的性能差距,实验结果表明,该方法在减少假阳性的同时保持了高召回率56。
- 来自Paul G. Allen School of Computer Science & Engineering, University of Washington的Rahul Nadkarni等人研究了如何理解训练数据与语言模型行为之间的关系,特别是在修改训练数据如何影响模型获取事实知识的能力方面。他们提出了一种通用的实验配方,用于进行干预分析以研究数据对模型行为的影响。该方法的主要创新点在于提供了一个灵活的方法,适用于不同规模的数据修改和训练阶段。产生的价值在于提高了模型行为的透明度和控制性,实验结果表明,移除或引入术语共现可以显著影响模型的学习能力57。
- 来自Northeastern University的Bingsheng Yao等人研究了大型语言模型角色扮演代理(RPAs)的行为与特定人类个体行为之间缺乏保真度和对齐的问题。他们提出了动态人格细化框架(DPRF),一种自动化的迭代方法,用于优化用于LLM RPAs的人格档案。该方法的主要创新点在于将人格生成视为一个持续优化的过程。产生的价值在于提高了下游应用的可靠性,实验结果显示DPRF在四个不同场景中有效提升了认知和行为的对齐度58。
- 来自Inflection AI的Zhichao Wang等人研究了如何通过监督奖励强化学习(RLSR)来提升LLMs的指令跟随能力。该方法的主要创新点在于利用SFT数据集在RL框架中进行微调,使用语义嵌入空间中的余弦相似度作为奖励函数。产生的价值在于提高了LLMs生成上下文相关和多样化响应的能力,实验结果显示RLSR在AlpacaEval基准测试中表现优于传统的SFT方法59。
- 来自Shanghai Jiao Tong University的Yuanyi Song等人研究了评估大型语言模型在复杂长周期任务中的表现所面临的挑战,特别是在移动设备上的图形用户界面(GUI)操作。他们提出了ColorBench,一个图结构化的基准测试框架,用于评估复杂长周期任务中的移动代理。该方法的主要创新点在于模拟现实世界中的有限状态和动作转换关系,提供了一个静态但灵活的测试环境。产生的价值在于为复杂的长周期任务提供了更加全面和细致的评估方式,实验结果显示该框架能有效诊断特定原子任务层面的弱点60。
- 来自Sichuan University的Jingyao Liu等人研究了现有的软件开发基准测试在评估LLM在端到端软件开发任务中的表现时存在的不足。他们提出了E2EDev,一个针对个性化响应生成的新型基准测试,特别关注于软件开发过程中的需求规格和验证协议。该方法的主要创新点在于利用Human-in-the-Loop Multi-Agent Annotation Framework(HITL-MAA)构建此基准。产生的价值在于提供了更为真实和严格的评估,实验结果显示当前的E2ESD框架难以满足用户需求的有效性61。
- 来自Hangzhou International Innovation Institute, Beihang University的Xikai Zhang等人研究了将多智能体系统(MAS)应用于复杂推理和规划任务中的效率低下和计算成本高的问题。他们提出了IMAGINE框架,该框架将MAS的优势集成到单一模型中,降低推理成本和简化训练过程。该方法的主要创新点在于减少了计算开销并简化了训练过程。产生的价值在于提高了MAS的实用性,实验结果显示IMAGINE在TravelPlanner数据集上表现出色,显著优于其他基准和MAS配置62。
- 来自Tsinghua University的Andrew Zhao等人研究了大型语言模型提示优化过程中可能存在的安全漏洞问题,尤其是反馈驱动优化技术的脆弱性。他们提出了轻量级防御机制,以减轻由伪造奖励攻击引起的威胁。该方法的主要创新点在于首次系统地分析了LLM提示优化的安全影响。产生的价值在于确保AI应用程序的安全可靠运行,实验结果显示防御机制有效降低了攻击成功率63。
- 来自The Chinese University of Hong Kong的Zihao Fu等人研究了大型语言模型内部机制的理解难题,特别是如何解析变换器层的功能。他们提出了CAST框架,通过谱跟踪进行无探针分析,揭示了变换器层的动态特性。该方法的主要创新点在于提供了一种不依赖于探针的变换器层功能分析方法。产生的价值在于促进了对LLMs架构目标和层特性的理解,实验结果显示CAST能够捕捉独特的结构属性和层动态,这是其他方法未能完全揭示的64。
- 来自NVIDIA的Mehrzad Samadi等人研究了使用开放权重模型在国际信息学奥林匹克竞赛(IOI)中实现金牌水平的表现。他们提出了GenCluster框架,通过大规模生成、行为聚类、排名和轮换提交策略来优化模型性能。该方法的主要创新点在于提供了一种透明且可复制的方法。产生的价值在于展示了如何通过增加计算资源和生成预算来优化模型性能,实验结果显示GenCluster使gpt-oss-120b模型达到了IOI金牌水平的表现65。
- 来自OPPO的Qing Yang等人研究了在文本转语音系统中缺乏情感表达的问题。他们提出了RLAIF-SPA框架,利用强化学习从AI反馈中优化语音合成的情感表达和清晰度。该方法的主要创新点在于结合了Prosodic Label Alignment和Semantic Accuracy Feedback两个核心组件。产生的价值在于降低了昂贵的情感注释成本,提高了合成语音的情感真实度和清晰度,实验结果显示RLAIF-SPA框架在多个评估指标上都超过了强基线66。
- 来自University of California, Santa Cruz的Kyle Montgomery等人研究了在测试时间扩展计算时的成本问题,特别是用于提高LLMs在复杂推理任务中的性能。他们提出了一种基于鉴别式验证的预算感知测试时间扩展方法。该方法的主要创新点在于提出了Weighted Self-Consistency和Pessimistic Verification两种混合方法。产生的价值在于提供了在固定计算预算下提高模型性能的有效途径,实验结果显示这种方法在多个基准测试上均表现优异67。
- 来自Algoverse AI Research的Haziq Mohammad Khalid等人研究了大型语言模型在多回合对话中因不确定性累积导致的性能下降问题。他们提出了ERGO框架,利用香农熵来监测和减轻多回合对话中的不确定性。该方法的主要创新点在于将不确定性作为信号来指导上下文重置。产生的价值在于提高了多回合对话的准确性和一致性,实验结果显示ERGO在多个任务上均实现了显著的性能提升68。
- 来自University of California, Berkeley的Tianjun Zhang等人研究了利用生成式验证器进行测试时间扩展以提高LLMs性能时的高计算成本问题。他们提出了基于鉴别式验证的预算感知方法。该方法的主要创新点在于采用了Weighted Self-Consistency和Pessimistic Verification等混合方法。产生的价值在于提高了计算效率,实验结果显示这些方法在AIME2025基准测试中取得了更高的准确率和更低的计算成本67。
- 来自NVIDIA的Sean Narenthiran等人研究了如何利用开放权重模型在IOI竞赛中达到金牌水平。他们提出了GenCluster框架,通过大规模生成、行为聚类、排名和轮换提交策略来优化模型性能。该方法的主要创新点在于提供了透明且可复制的优化方案。产生的价值在于展示了如何通过增加计算资源和生成预算来优化模型性能,实验结果显示GenCluster使gpt-oss-120b模型达到了IOI金牌水平的表现65。
- 来自OPPO的Xikai Zhang等人研究了将多智能体系统(MAS)的优势集成到单一模型中的方法,以解决MAS在复杂推理和规划任务中计算成本高的问题。他们提出的IMAGINE框架,通过三个阶段:新查询生成、多智能体系统推理数据生成、以及基于代理的推理训练,来改善MAS的效率和可训练性。该方法的主要创新点在于通过单个模型来实现MAS的集体推理优势。产生的价值在于提高了MAS的实用性和效率,实验结果显示IMAGINE框架在TravelPlanner数据集上显著优于其他基准和MAS配置62。
- 来自Tsinghua University的Andrew Zhao等人研究了大型语言模型(LLMs)提示优化过程中可能存在的安全漏洞,特别是反馈驱动优化技术的脆弱性。他们提出了“假奖励”攻击的概念,以及一种轻量级的防御机制,通过显式标出查询和反馈边界来抵御此类攻击。该方法的主要创新点在于首次系统地分析了LLM提示优化的安全风险。产生的价值在于确保AI服务的安全可靠运行,实验结果显示防御策略有效地降低了攻击成功率63。
- 来自The Chinese University of Hong Kong的Zihao Fu等人研究了理解和解析变换器层内部机制的难题。他们提出了CAST框架,通过估计连续层之间的实现转换矩阵来进行谱分析。该方法的主要创新点在于提供了无探针的变换器层功能分析方法。产生的价值在于深化了对变换器架构目标和层特性的理解,实验结果显示CAST能够揭示独特的结构属性和层动态,这是其他方法未充分揭示的64。
- 来自Shanghai Jiao Tong University的Yuanyi Song等人研究了现有评估标准在评价移动代理通过图形用户界面执行任务能力上的不足。他们提出了ColorBench,一个图结构化的基准测试框架,用于评估复杂长周期任务中的移动代理。该方法的主要创新点在于模拟现实世界的有限状态和动作转换关系。产生的价值在于提供了更全面和细致的评估方式,实验结果显示该框架能有效诊断特定原子任务层面的弱点60。
- 来自Sichuan University的Jingyao Liu等人研究了现有软件开发基准测试在评估大型语言模型(LLMs)在端到端软件开发任务中表现上的不足。他们提出了E2EDev,一个专注于个性化响应生成的新型基准测试。该方法的主要创新点在于使用了Human-in-the-Loop Multi-Agent Annotation Framework(HITL-MAA)来构建基准测试。产生的价值在于提供了更为真实和严格的评估方式,实验结果显示当前的E2ESD框架难以满足用户需求的有效性61。
- 来自Tsinghua University的Andrew Zhao等人研究了大型语言模型(LLMs)提示优化过程中可能存在的安全漏洞问题,特别是反馈驱动优化技术的脆弱性。他们提出了轻量级防御机制,以减轻由伪造奖励攻击引起的威胁。该方法的主要创新点在于首次系统地分析了LLM提示优化的安全影响。产生的价值在于确保AI应用程序的安全可靠运行,实验结果显示防御机制有效降低了攻击成功率63。
- 来自NVIDIA的Mehrzad Samadi等人研究了如何利用开放权重模型在国际信息学奥林匹克竞赛(IOI)中实现金牌水平的表现。他们提出了GenCluster框架,通过大规模生成、行为聚类、排名和轮换提交策略来优化模型性能。该方法的主要创新点在于提供了透明且可复制的方法。产生的价值在于展示了如何通过增加计算资源和生成预算来优化模型性能,实验结果显示GenCluster使gpt-oss-120b模型达到了IOI金牌水平的表现65。
- 来自Algoverse AI Research的Haziq Mohammad Khalid等人研究了大型语言模型(LLMs)在多回合对话中因不确定性累积导致的性能下降问题。他们提出了ERGO框架,利用香农熵来监测和减轻多回合对话中的不确定性。该方法的主要创新点在于将不确定性作为信号来引导上下文重置。产生的价值在于提高了多回合对话的准确性和一致性,实验结果显示ERGO在多个任务上均实现了显著的性能提升68。
- 来自OPPO的Qing Yang等人研究了文本转语音系统中缺乏情感表达的问题。他们提出了RLAIF-SPA框架,通过强化学习从AI反馈中优化语音合成的情感表达和清晰度。该方法的主要创新点在于结合了Prosodic Label Alignment和Semantic Accuracy Feedback两个核心组件。产生的价值在于降低了昂贵的情感注释成本,提高了合成语音的情感真实度和清晰度,实验结果显示RLAIF-SPA框架在多个评估指标上都超过了强基线66。
技术趋势
这些论文展示了一系列不同的技术创新和方法演进,包括但不限于合成数据生成、多模态处理、强化学习、多智能体系统集成、不确定性管理和反馈循环安全措施。可以看出,这些研究不仅集中在提高模型在特定任务上的性能,还致力于增强模型的透明度、安全性以及在实际应用中的可用性和可靠性。此外,随着模型规模的不断增长,如何高效地利用计算资源和优化模型推理成为一个重要方向,反映了当前研究的一个重要趋势。
数据集和评估
- MetaBench: 使用权威资源如HMDB、KEGG、PathBank、MetaKG和MetaboLights构建,涵盖代谢组学研究中的关键能力层级。
- Llama-2-7B和Llama-2-13B模型: 使用扩展上下文版本的模型进行实验,涉及算术推理、常识推理和机器翻译三种任务。
- GEMA-2-2b、GPT-2 Small和Llama-3.2-1B模型: 使用CAST框架进行分析,通过六个解释性指标来衡量模型特征。
- BBC新闻文章标题和图像: 使用五种非英语语言构建MERLIN测试平台,包含超过7000个命名实体提及。
- TravelPlanner数据集: 用于评估IMAGINE框架在旅行规划任务上的表现。
- LibriSpeech和ESD数据集: 用于评估RLAIF-SPA框架在情感语音合成上的效果。
- ColorBench: 利用图结构化框架评估复杂长周期任务中的移动代理,支持多应用和跨应用任务。
- E2EDev: 使用BDD原则精确指定用户需求并通过可执行的BDD测试场景进行验证。
- GSM8K、MATH500、HumanEval和MBPP: 用于评估GenCluster框架在提高开放权重模型推理性能上的有效性。
- HarmBench: 用于评估反馈优化过程中的安全漏洞及防御机制的效果。
- BANKING77和CLINIC-150数据集: 用于评估DROID框架在检测出界意图上的表现。
- Phi-4、LLaMA 3.1–8B Instruct、GPT-4o、GPT-4.1和GPT-4o-mini: 用于评估ERGO框架在多回合对话中恢复准确性和一致性的能力。
- Alpha Service框架: 没有明确提到使用的具体数据集,而是着重介绍了在不同应用场景下的实际性能提升。
- MBTI框架下的多日对话会话: 用于评估2S评价框架(“实质性”和“风格”)的性能。
- Recipe1M+和Macedonian Recipe数据集: 用于比较分析和探索Macedonian菜肴的特征。
这些论文中使用的数据集和评估指标反映了它们各自研究领域内的独特需求,从特定科学任务到日常对话,再到复杂的多步骤任务,都展示了广泛的适用性和针对性。
参考文献
-
MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning ↩︎
-
Think Globally, Group Locally: Evaluating LLMs Using Multi-Lingual Word Grouping Games ↩︎
-
Reasoning with Sampling: Your Base Model is Smarter Than You Think ↩︎
-
Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning ↩︎
-
Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts ↩︎
-
TITAN: Graph-Executable Reasoning for Cyber Threat Intelligence ↩︎
-
DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation ↩︎
-
MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning ↩︎
-
Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition ↩︎
-
TRI-DEP: A Trimodal Comparative Study for Depression Detection Using Speech, Text, and EEG ↩︎
-
Benchmarking Multimodal Large Language Models for Face Recognition ↩︎
-
LaSeR: Reinforcement Learning with Last-Token Self-Rewarding ↩︎
-
Instructions are all you need: Self-supervised Reinforcement Learning for Instruction Following ↩︎
-
Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL ↩︎
-
Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents ↩︎
-
AI-Powered Early Diagnosis of Mental Health Disorders from Real-World Clinical Conversations ↩︎
-
Midtraining Bridges Pretraining and Posttraining Distributions ↩︎
-
Flip-Flop Consistency: Unsupervised Training for Robustness to Prompt Perturbations in LLMs ↩︎
-
Natural Language Tools: A Natural Language Approach to Tool Calling In Large Language Agents ↩︎
-
Constraint-Driven Small Language Models Based on Agent and OpenAlex Knowledge Graph: Mining Conceptual Pathways and Discovering Innovation Points in Academic Papers ↩︎
-
Speculative Model Risk in Healthcare AI: Using Storytelling to Surface Unintended Harms ↩︎
-
Stable but Miscalibrated: A Kantian View on Overconfidence from Filters to Large Language Models ↩︎
-
Where to Search: Measure the Prior-Structured Search Space of LLM Agents ↩︎
-
TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar ↩︎
-
LiRA: Linguistic Robust Anchoring for Cross-lingual Large Language Models ↩︎
-
Retrofitting Small Multilingual Models for Retrieval: Matching 7B Performance with 300M Parameters ↩︎
-
Less is More: Denoising Knowledge Graphs For Retrieval Augmented Generation ↩︎
-
Detecting Early and Implicit Suicidal Ideation via Longitudinal and Information Environment Signals on Social Media ↩︎
-
You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction ↩︎
-
Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents ↩︎
-
PRISM: Agentic Retrieval with LLMs for Multi-Hop Question Answering ↩︎
-
PluriHop: Exhaustive, Recall-Sensitive QA over Distractor-Rich Corpora ↩︎
-
CURE: Confidence-driven Unified Reasoning Ensemble Framework for Medical Question Answering ↩︎
-
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems ↩︎
-
Assessing Socio-Cultural Alignment and Technical Safety of Sovereign LLMs ↩︎
-
Terrarium: Revisiting the Blackboard for Multi-Agent Safety, Privacy, and Security Studies ↩︎
-
Efficient Seq2seq Coreference Resolution Using Entity Representations ↩︎
-
Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation ↩︎
-
MedTrust-RAG: Evidence Verification and Trust Alignment for Biomedical Question Answering ↩︎
-
LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training ↩︎
-
An Efficient Rubric-based Generative Verifier for Search-Augmented LLMs ↩︎
-
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes ↩︎
-
AutoRubric-R1V: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning ↩︎
-
Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures ↩︎
-
MetaBench: A Multi-task Benchmark for Assessing LLMs in Metabolomics ↩︎
-
Predicting Task Performance with Context-aware Scaling Laws ↩︎
-
Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models ↩︎
-
MERLIN: A Testbed for Multilingual Multimodal Entity Recognition and Linking ↩︎
-
Rethinking Schema Linking: A Context-Aware Bidirectional Retrieval Approach for Text-to-SQL ↩︎
-
Rewriting History: A Recipe for Interventional Analyses to Study Data Effects on Model Behavior ↩︎
-
DPRF: A Generalizable Dynamic Persona Refinement Framework for Optimizing Behavior Alignment Between Personalized LLM Role-Playing Agents and Humans ↩︎
-
RLSR: Reinforcement Learning with Supervised Reward Outperforms SFT in Instruction Following ↩︎
-
ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks ↩︎ ↩︎
-
E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task ↩︎ ↩︎
-
IMAGINE: Integrating Multi-Agent System into One Model for Complex Reasoning and Planning ↩︎ ↩︎
-
Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers ↩︎ ↩︎ ↩︎
-
CAST: Compositional Analysis via Spectral Tracking for Understanding Transformer Layer Functions ↩︎ ↩︎
-
Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models ↩︎ ↩︎ ↩︎
-
RLAIF-SPA: Optimizing LLM-based Emotional Speech Synthesis via RLAIF ↩︎ ↩︎
-
Budget-aware Test-time Scaling via Discriminative Verification ↩︎ ↩︎
-
ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models ↩︎ ↩︎