2025年10月05日NLP论文汇总(中文)
- Topic 1: Reasoning and Cognitive Processes in LLMs (6 papers)
- Topic 2: Model Interpretability and Sensitivity (6 papers)
- Topic 3: Multimodal and Cross-Modal Learning (6 papers)
- Topic 4: Reinforcement Learning and Optimization (8 papers)
- Topic 5: Language Model Validation and Compliance (5 papers)
- Topic 6: LLM Applications in Specific Domains (7 papers)
- Topic 7: Prompt Engineering and Fine-Tuning (9 papers)
- Topic 8: Knowledge Representation and Extraction (9 papers)
- Topic 9: LLM-based Generative Systems (4 papers)
- Topic 10: Social and Cultural Implications of LLMs (5 papers)
- Topic 11: misc (22 papers)
Topic 1: Reasoning and Cognitive Processes in LLMs
主题概述
大型语言模型(LLMs)在认知过程和推理能力方面取得了显著进步,但同时也面临着文化偏见、长上下文处理能力不足以及多智能体系统设计效率低等挑战。这些问题是LLMs广泛应用于全球不同文化和复杂任务场景的关键障碍,因此,提高其道德一致性、优化长上下文处理能力和增强多智能体系统的通用性和效率成为当前研究的重点。通过改进这些方面,可以使得LLMs更加适应多样化的应用场景,减少偏见影响,提升问题解决的能力和效率。
各论文贡献
-
来自Utrecht University的Hadi Mohammadi等人研究了大语言模型中的道德一致性和文化偏见问题,提出了EvalMORAAL框架来评估LLMs的道德一致性。该框架的主要创新点在于引入了两种评分方法(log-probabilities和直接评分)、结构化的思考链协议以及基于LLM的同行评审机制。产生的价值在于提供了一种透明且可复制的方法,用于检测和减轻LLMs的文化偏见。在World Values Survey (WVS)和PEW Global Attitudes Survey数据集上的实验表明,相比仅依赖似然度的方法,EvalMORAAL在GPT-4o上分别提高了38%和26%,得出的结论是结构化思考链能够有效改善模型对人类态度的校准1。
-
来自The Chinese University of Hong Kong的Liang Chen等人研究了在数学推理任务中,使用验证奖励的强化学习(RLVR)导致的大语言模型(LLMs)熵坍塌问题。提出了探索增强策略优化(EEPO)方法,通过“先采样后遗忘”的机制,在不增加探索成本的情况下提升模型性能。该方法的主要创新点在于直接在回放过程中解耦策略优化与探索。产生的价值在于提高了LLMs在数学推理任务上的泛化能力。在包括Qwen2.5-3B、Llama3.2-3B-Instruct和Qwen3-8B-Base等模型上的实验结果表明,EEPO平均相对性能提升了24.3%、33.0%和10.4%,尤其是在AMC 2023和AIME 2024等难度较大的竞赛中表现出色2。
-
来自University of Illinois at Urbana-Champaign的Yufeng Du等人研究了大语言模型(LLMs)在处理长上下文任务时的性能下降问题。他们提出了一种名为“检索后再推理”的策略,将长上下文任务转化为短上下文任务,以缓解因输入长度增加导致的性能下降。该方法的主要创新点在于通过插入干扰项来扩展短上下文问题至长上下文,从而进行控制实验。产生的价值在于揭示了输入长度本身对LLMs性能的影响,并提供了解决方案。实验结果显示,在GSM8K任务上,Mistral-v0.3-7B Instruct的性能提升了31.2%,在RULER基准测试的QA1和QA2任务上,GPT-4o的性能提升了4%3。
-
来自University of Toronto的Sheng Jia等人研究了如何在大语言模型中生成多样化且准确的推理路径的问题,特别是对于复杂问题的处理。他们提出了集监督微调(SSFT),利用全局分叉令牌启动并行推理路径,同时将平行推理视为集合预测问题。该方法的主要创新点在于采用了可变大小的并行生成而不增加VRAM使用量的训练实现方式。产生的价值在于提升了模型生成多样化和准确推理路径的能力。实验表明,SSFT方法在多个推理基准测试上显著提高了$ ext{Pass@}1$、$ ext{Pass@}k$和$ ext{Cons@}k$等指标,显示出更高的性能和一致性4。
-
来自Meta Superintelligence Labs的Zeqi Gu等人研究了自回归图像生成模型中过度链式思考(CoT)带来的效率问题。他们提出了三种策略来减少CoT的长度,其中ShortCoTI策略基于带有组相对策略优化(GRPO)框架的强化学习,能够有效缩短推理路径并提升图像质量。该方法的主要创新点在于通过引入长度惩罚损失和准确性奖励模型来鼓励更短的推理路径。产生的价值在于提高了图像生成的质量和效率。实验结果表明,ShortCoTI方法不仅减少了大约54.9%的CoT长度,还在GenEval和T2I-CompBench基准测试上分别提高了2.76%和1.44%的图像生成质量5。
技术趋势
从上述论文可以看出,研究者们正在探索多种途径来提升LLMs的认知和推理能力。这些方法包括使用透明的评估框架来检测和纠正文化偏见、通过创新的策略优化技术来克服熵坍塌问题、采用特定策略来改善长上下文处理能力、开发新的微调方法以生成多样化的推理路径,以及应用强化学习来提高自回归图像生成模型的效率。总体而言,研究趋势倾向于通过结构化的方法和技术手段来增强LLMs的推理效率和准确性,同时降低计算资源的需求。
数据集和评估
- EvalMORAAL 使用了World Values Survey (WVS) 和 PEW Global Attitudes Survey 数据集进行评估。
- EEPO 在多个数学推理基准上进行了验证,但未提及具体名称。
- Context Length Alone Hurts LLM Performance Despite Perfect Retrieval 使用了GSM8K、MMLU、HumanEval等数据集,以及合成的长上下文基准。
- Training Large Language Models To Reason In Parallel With Global Forking Tokens 在AIME24/AIME25、MATH-500和GPQA-D等数据集上进行了实验。
- Improving Chain-of-Thought Efficiency for Autoregressive Image Generation 利用了GenEval和T2I-CompBench两个公开基准进行评估。
评估指标涵盖了从道德一致性到数学推理准确性的广泛领域,包括Pearson相关系数、平均相对性能提升、$ ext{Pass@}1$、$ ext{Pass@}k$、$ ext{Cons@}k$、图像生成质量等。这些指标共同反映了LLMs在不同任务上的表现及其改进潜力。
Topic 2: Model Interpretability and Sensitivity
主题概述
大语言模型(LLMs)的解释性和敏感性是当前人工智能领域的重要议题,尤其是在跨文化应用和处理长文本输入时。这些议题不仅关乎模型的性能优化,也涉及伦理责任和用户安全。理解模型如何解释其决策过程,以及它们对特定类型内容的反应机制,对于确保AI系统的透明度和可靠性至关重要。
各论文贡献
-
来自同济大学和图宾根大学的Kun Sun等人研究了LLMs在不同语言环境中表现出的文化倾向的稳定性问题,挑战了将这些行为归因于内部编码文化的假设,提出了一种更机械化的解释,即这些行为更多地是由统计模仿驱动的表面现象而非深层次的文化认知。该方法的主要创新点是通过扩展测试项和采用广泛使用的模型进行复现实验,揭示了文化倾向的不稳定性。产生的价值在于为AI研究中的测试项目设计和减少记忆效应提供了更透明的方法,并呼吁使用更多的统计方法来验证和推广研究结果。实验表明,提示语言对模型表现的影响微乎其微,而框架效应比文化效应更为显著6。
-
来自慕尼黑工业大学和慕尼黑机器学习中心的Faeze Ghorbanpour等人探讨了LLMs在处理包含有害内容如仇恨言论、冒犯性语言和有毒内容的长输入序列时的检测能力。该研究提出了系统评估框架,利用IHC、OffensEval和JigsawToxic等三个数据集评估了LLMs在不同条件下的表现。主要创新点在于详细分析了不同因素如何交互影响模型检测有害内容的能力,填补了关于LLMs安全性的关键空白。其价值在于为提高模型在长文本中检测有害内容的能力提供了新的视角和技术手段。实验结果显示,Qwen-2.5在句子级别的设置中表现最佳,特别是在识别显式有害内容方面7。
-
来自苏州大学和上海人工智能实验室的Zecheng Tang等人解决了现有长上下文模型(LCMs)处理长序列时效率低下和效果不佳的问题,引入了一种名为“上下文去噪训练”(CDT)的新策略。创新之处在于通过集成梯度(IG)分数来区分关键与无关令牌,从而优化训练过程。该方法的价值在于提高了SCMs和LCMs在多种任务上的性能,同时避免了其他方法可能导致的性能下降。实验表明,在LongBench-E基准上,CDT优于LongCE方法;在RULER和BABILong基准上,CDT也达到了最佳性能,展示了其在长文本处理中的有效性8。
-
来自Adobe Inc.的Vanya Bannihatti Kumar等人关注于改善LLMs评估文本生成创意性的准确性,特别是针对个体偏好和人类标准。他们提出了好奇心驱动的LLM作为评判者的新型方法,结合了内在好奇心模型(ICM)和监督微调(SFT),以更好地捕捉主观创造力判断的细微差别。创新点在于利用好奇心信号来帮助模型理解并复制个体专家的推理风格。该方法的价值在于增强了LLMs在个性化创意评价方面的适应性。实验结果显示,ICM方法在各种模型尺寸上均优于基线方法,特别是在理解和评估个人创造力判断方面9。
-
来自SpiralAI Inc.和大阪大学的Rikuto Kotoge等人致力于改进基于LLMs的文本转语音(TTS)系统,尤其是解决日语等模糊语言中的发音准确性问题。他们提出了Token-level Kahneman-Tversky Optimization(TKTO)框架,用于无需配对数据即可实现高效的数据训练和直接的token级优化。主要创新点在于将Kahneman-Tversky的前景理论扩展到token级别,提升了发音的自然度和准确性。该方法的价值在于克服了传统G2P转换器和当前偏好优化技术的局限性,实现了更高的发音准确性。实验显示,TKTO在处理模糊发音的情况下表现优异,显著降低了字符错误率(CER),提高了发音自然度10。
-
来自计算机科学系和高级计算科学研究所的Peter Zeng等人专注于开发一种兼具高准确性和可解释性的作者身份验证(AV)系统。他们引入了“残差相似性”(RS)方法,结合了可解释的特征系统Gram2vec和神经网络模型,旨在维持预测的可解释性的同时提高准确性。创新点在于通过调整由神经网络预测的残差来补充Gram2vec的余弦相似性,实现性能与透明度的平衡。该方法的价值在于解决了当前AV系统在性能与可解释性之间权衡的问题,使其更适合应用于具有重大后果的真实世界场景。实验表明,RS系统在所有数据集上都表现出了与LUAR神经基线相近的性能,且显著提高了Gram2vec的性能,尤其是在Amazon数据集上11。
技术趋势
在解释性和敏感性方面,研究正朝着两个方向发展:一是增强模型对特定类型内容(如文化倾向和有害内容)的敏感性和响应机制的理解;二是探索如何在提高模型性能的同时保持其决策过程的透明度和可解释性。研究方法从简单的复现实验逐步演变为结合深度学习模型与统计方法,或通过引入新的训练策略和评估机制来优化模型的表现。
数据集和评估
- 文化倾向研究使用了广泛的模型但未提及具体数据集。
- 有害内容检测研究使用了IHC、OffensEval和JigsawToxic数据集,评估指标包括宏观F1值、召回率等。
- 长上下文建模研究使用了LongBench-E、RULER和BABILong基准数据集。
- 创意性评估研究使用了Torrance Test of Creative Thinking (TTCW)数据集,评估指标包括Pearson相关系数、Cohen’s kappa和F1值。
- 日语发音优化研究创建了一个包含5000个句子的日语数据集,评估指标包括字符错误率(CER)、自然度平均意见得分(NMOS)和ABX测试。
- 作者身份验证研究使用了Reddit、Amazon、Fanfiction和Pikabu四个数据集,引入了新的评估指标“可解释性信心”。
这些研究展示了数据集多样性和评估指标的针对性在推动模型解释性和敏感性研究中的重要作用。
Topic 3: Multimodal and Cross-Modal Learning
主题概述
多模态和跨模态学习(Multimodal and Cross-Modal Learning)是人工智能领域中的一个重要分支,它专注于利用多种类型的数据(如文本、图像、音频等)以及在不同数据模态之间进行信息转换的研究。这种学习方式能够更全面地理解和处理复杂的信息场景,对于提升机器学习模型的泛化能力和应用范围具有重要意义。通过结合多模态数据,可以更好地模拟人类感知世界的多维特性,从而在自然语言处理、计算机视觉、音频理解等多个领域实现突破性的进展。
各论文贡献
-
来自University of California, Los Angeles的Sheriff Issaka等人研究了非洲低资源语言(LRLs)在自然语言处理(NLP)方面的技术差距问题,提出了非洲语言实验室(All Lab)及其“所有声音”平台,支持直接翻译非洲语言,并收集验证多模态语音和文本数据。该方法的主要创新点是构建了一个系统化的数据收集管道,产生了大量的多模态数据集。其价值在于通过这些数据集和平台,可以显著提高针对非洲低资源语言的NLP模型性能,平均提升了+23.69 ChrF++、+0.33 COMET和+15.34 BLEU分数,同时建立了结构化的研究计划以培养本地能力12。
-
来自University of Illinois Chicago的Wei-Chieh Huang等人研究了电子商务产品中隐含属性值提取的问题,提出了MADIAVE框架,利用多智能体辩论机制改进了隐式属性值提取(AVE)任务的表现。该方法的主要创新点在于首次将多智能体辩论应用于隐式AVE任务,减少了对大量标注数据的依赖。其价值在于通过辩论过程,提高了模型对复杂多模态数据的理解能力,展示了显著的准确性提升13。
-
来自Columbia University的Xilin Jiang等人研究了现有音频语言模型在理解复杂空间声学场景方面的局限性,提出了Sci-Phi,一种能生成详细场景元数据的大规模语言模型。该方法的主要创新点是结合了空间编码器与音频编码器,不仅关注单个声音源,还能捕捉到环境特征。其价值在于为包括助听、机器人导航在内的多个领域提供了更全面的声学场景描述能力,且在真实房间脉冲响应(RIR)上表现稳定,显示出模型的强大适应性和广泛适用性14。
-
来自Saarland University的Paloma García-de-Herreros等人探讨了解码器仅模型在跨模态适应部分微分方程(PDE)任务中的表现不足问题,提出了Parallel Flipping和Sequence Doubling两种新方法来增强这类模型的适应性。该方法的主要创新点在于通过特定的技术手段弥补了解码器模型缺乏双向上下文的问题。其价值在于使解码器模型能够更加有效地应用于科学计算任务,特别是在时间相关的模拟任务中,显著提升了预测准确性15。
-
来自The Ohio State University的Lucas Carrit Delgado Pinheiro等人研究了大型语言模型在天文学和天体物理学领域自动化发现的能力,特别关注于解决复杂计算、天文近似及概念推理的问题。该研究提出了一种基于国际天文学奥林匹克竞赛(IOAA)考试的新基准,用于评估LLMs在天文学问题解决方面的能力。其价值在于不仅测试了知识记忆,还评估了复杂的推理和解决问题的能力,揭示了LLMs在处理几何问题上的挑战,为未来的改进指明方向16。
-
来自未指定机构的Si-Ioi Ng等人研究了从图片描述中自动提取内容信息单元(CIUs)用于评估认知语言障碍的方法,提出了基于BERT的管道,用于自动化提取并排序CIUs。该方法的主要创新点在于使用了多任务学习和语义嵌入,以改善CIU的检测和顺序维护。其价值在于提供了一个比手动标记或字典映射更强大、更可扩展的解决方案,实验结果表明该方法在检测精度和召回率上分别达到了93%和96%,并显著优于字典基线方法17。
技术趋势
多模态和跨模态学习领域的研究正逐渐向更复杂的数据集和更有效的模型设计方向发展。当前的趋势包括利用大规模预训练模型(如BERT、Llama等)作为基础架构,结合特定任务的调整和优化策略,如多智能体辩论机制、空间编码器与音频编码器的集成、以及跨模态适应方法的创新等。这些技术旨在提高模型在处理跨模态信息时的效率和准确性,尤其是在低资源语言、电子商务产品描述、声学场景理解及科学计算等领域。
数据集和评估
- 非洲语言实验室(All Lab):包含40种非洲低资源语言的19亿令牌和12,628小时的语音数据。
- ImplicitAVE:用于评估隐式属性值提取的基准数据集。
- 合成FOA混合物和真实RIR数据集:用于评估Sci-Phi在空间音频理解上的表现。
- Advection数据集:用于评估解码器仅模型在PDE模拟任务中的性能。
- IOAA理论和数据分析考试数据集(2022-2025年):用于评估LLMs在天文学问题解决中的表现。
- Cookie Theft图片描述数据集:结合WRAP和Pitt Corpus,用于评估基于BERT的CIU提取方法。
评估指标涵盖了广泛的维度,包括ChrF++、COMET、BLEU等用于衡量翻译质量;准确率、召回率和序列误差率用于评估CIU提取的可靠性;以及一系列特定于空间音频理解的指标,如内容、位置、时间、响度和混响等。这些多样化的数据集和评估指标反映了该领域内研究的广度和深度,有助于推动多模态和跨模态学习技术的发展。
Topic 4: Reinforcement Learning and Optimization
主题概述
强化学习与优化是人工智能领域的重要分支,特别是在大型语言模型(LLMs)的应用上,其目标是通过不断的学习和优化过程提高模型在特定任务或环境中的性能。这项研究对于提升模型在实际场景中的适应性和效率至关重要,尤其是在需要模型具备长期规划能力和应对复杂动态任务的情况下。同时,如何确保模型的安全性及减少昂贵的数据标注成本也是研究的重点之一。
各论文贡献
-
来自Dialpad Inc.的Xue-Yong Fu等人研究了大语言模型在特定领域(如电话对话摘要)应用时表现不佳的问题,提出了Domain-Adaptive Continual Pre-Training (DACP)框架来解决这一问题。该方法的主要创新点是通过自我监督学习结合领域内和外部经验重放缓冲区数据,以适应小规模语言模型到特定领域的转变。产生的价值在于减少了对高质量标注数据的依赖,并展示了持续预训练可以显著提升模型在领域特定任务中的能力。在内部和外部基准测试上,相比固定温度采样,Mistral-V0.3-7B模型在Action Items和Support Call Summarization任务上的ROUGE-1分别提高了6.32%和4.11%,而LLaMA和Mistral在外部基准测试上也分别取得了显著的提升。18
-
来自TJUNLP实验室和Xiaohongshu Inc.的Yongqi Leng等人研究了代理型检索增强生成(Agentic RAG)系统中因静态训练数据导致的动态实时问题处理效率低下问题。他们提出了DecEx-RAG框架,将系统建模为具有决策和执行两个阶段的马尔科夫决策过程(MDP),并引入了一种高效的剪枝策略来优化搜索树中的数据扩展过程。主要创新点在于对数据效率和跨域泛化能力的提升。在六项开放领域问答数据集上的实验显示,该框架比现有的方法平均提升了6.3%的性能。19
-
来自University of Chicago和Meta AI的Chenghao Yang等人探讨了在强化学习与验证奖励(RLVR)设置下,探索与利用之间的平衡问题,特别是针对数学推理和代码生成等领域。他们提出了Exploratory Annealed Decoding (EAD)方法,通过动态调整采样温度促进多样化的探索,同时维持样本质量和训练稳定性。EAD方法的一个关键创新点是采用了记忆高效的方法进行训练。实验结果表明,在Numina-Math数据集上,EAD相比固定温度采样在Pass@16和Worst@16指标上均有所提升。20
-
来自KAIST的Chunsan Hong等人研究了改进掩码扩散模型(MDMs)在语言建模任务中解码策略的问题。他们提出了一种基于KL正则化的马尔科夫决策过程(MDP)和组相对策略优化(GRPO)的方法来训练解码策略。创新点在于提出三种可行的替代目标来优化解码策略,这有助于提高模型在Sudoku、Zebra、GSM8K和Math500等四个基准上的性能。实验结果显示,该策略相比随机和最大置信度基线分别提高了20.1%和11.2%的准确性。21
-
来自Google和The University of Texas at Austin的Zizhao Wang等人研究了大语言模型代理在与外部工具交互时存在的间接提示注入安全漏洞问题。他们提出了Adversarial Reinforcement Learning for Agent Safety (ARLAS)框架,采用双玩家游戏设定来共同训练攻击者和代理模型。创新点在于采用群体基础训练策略来优化代理模型对抗各种攻击模式。实验表明,ARLAS不仅显著降低了攻击成功率,还保持了高任务成功率。22
-
来自Heinrich-Heine-Universität Düsseldorf的Hsien-Chin Lin等人研究了大语言模型在多回合互动中的长期规划能力限制问题。他们提出了Reinforced Prompt Optimisation (RPO)框架,通过自然语言反馈迭代地优化提示,以改善模型的长期规划能力。创新点在于使用时间差分误差生成反馈,并在重写组件中应用经验回放,从而实现高效的提示优化。实验显示,RPO在Text-to-SQL、Task-oriented Dialogue和Medical Question-Answering三个任务上相比基线方法在功能性准确性和成功率达到显著提升。23
-
来自MiroMind和新加坡科技设计大学的Yao Xiao等人研究了自玩偏好优化过程中困难提示的角色和影响。他们提出使用响应样本的平均奖励作为提示难度的代理,引入了三种方法来应对困难提示:课程学习、提高困难提示的选择响应质量以及移除最难的提示。主要创新点在于量化和分类提示复杂性的新方法。实验表明,移除最难的提示是最简单有效的策略,能显著提高模型性能。24
-
来自University of Southern California的Junyi Fan等人研究了重症监护病房(ICU)护理文档撰写不一致的问题,尤其是心力衰竭护理文档。他们将直接偏好优化(DPO)应用于Mistral-7B语言模型,以生成高质量的心力衰竭护理文档。主要创新点在于提出了一个新的基于偏好的学习框架,适用于临床文档撰写。实验表明,DPO优化后的Mistral模型在多个评价标准上显著优于基线模型。25
技术趋势
这些论文展示了在强化学习与优化领域中,研究者们正在探索多种方法来提升大型语言模型的性能,包括但不限于领域适应性、动态探索策略、安全性和长期规划能力。通过引入新的训练机制、优化算法以及更高效的数据使用策略,这些工作推动了模型在特定任务和复杂场景下的应用能力,同时也为解决模型训练过程中的常见挑战提供了新的视角。
数据集和评估
- DACP使用了匿名化业务对话记录作为数据集。
- DecEx-RAG评估了六项公开的开放领域问答数据集。
- EAD使用了Numina-Math数据集进行实验。
- Improving Discrete Diffusion Unmasking Policies使用了Sudoku、Zebra、GSM8K和Math500数据集。
- ARLAS在BrowserGym和AgentDojo数据集上进行了验证。
- Prompt reinforcing for long-term planning使用了Text-to-SQL、MultiWOZ 2.1、Huatuo-26M和ShenNong-TCM数据集。
- On the Role of Difficult Prompts in Self-Play Preference Optimization使用了一个名为UltraFeedback的高质量提示多样化数据集。
- Aligning Language Models with Clinical Expertise利用了MIMIC-III数据库中的心力衰竭护理文档。
评估指标主要包括ROUGE、BLEU、BERTScore、Perplexity、Average Pairwise Distance等,这些指标用于衡量模型生成文本的质量、多样性、连贯性及安全性等方面的表现。
Topic 5: Language Model Validation and Compliance
主题概述
语言模型验证与合规性(Language Model Validation and Compliance)是当前人工智能领域的重要议题之一。随着大型语言模型(LLM)越来越多地应用于各种场景,包括对话助手、代码生成等,确保这些模型的安全性和可靠性变得尤为关键。此外,在特定的应用场景下,如法律合同生成和专利分类,语言模型的输出需要严格遵守相关的法律法规和行业标准。因此,如何有效地验证语言模型的输出,并确保其符合预期的合规性要求,成为了亟待解决的问题。
各论文贡献
-
来自卡内基梅隆大学的Yining She等人研究了在检索增强生成(Retrieval-Augmented Generation, RAG)上下文中大型语言模型(LLM)安全防护措施的脆弱性,提出了一个名为“翻转率”(Flip Rate)的新度量标准来量化安全防护措施在RAG增强环境中的变化频率。该方法的主要创新点是无需依赖真实标签即可评估防护措施的稳定性,产生的价值在于揭示了不同数量和相关性的检索文档对安全防护措施的影响,并探讨了两种通用的缓解策略。在超过6,000个有害查询和响应以及1,569个安全查询的数据集上进行了实验,结果显示,不同语言模型在处理检索增强上下文时表现出不同的稳健性,通用增强措施只能有限度地减少翻转率,需进一步开发针对RAG上下文的专业防护技术26。
-
来自苏黎世联邦理工学院的Luka Nenadic和来自马德里理工大学的David Rodriguez研究了自动化模板生成器在瑞士隐私政策中的应用及其质量,开发了一种多语种的GPT-5基础方法用于评估隐私政策的合规性。该方法的主要创新点是引入了一个涵盖英语、德语、意大利语和法语的标注数据集作为评估标准,产生的价值在于提供了关于“布鲁塞尔效应”的新见解,即瑞士隐私政策修订后,与欧盟GDPR法规趋同,对提高网站隐私政策合规性产生了显著影响。实验发现,使用生成器的瑞士本地网站比例为18%,且这些网站的隐私政策合规性提升了最多15个百分点,尤其是在德国、意大利和英语网站中表现良好,但在法语网站中的表现有所波动,特别是在自动决策提及识别方面表现较差27。
-
来自巴黎天文台的Liza Fretel等人研究了解决天文观测设施命名不一致问题的方法,提出了一种利用适应性标准和自然语言处理(NLP)技术的多源实体匹配方法,以标准化这些设施的名字及其别名。该方法的主要创新点在于采用了多种策略来处理多样化的实体集合,而非单一的映射到Wikidata作为中间本体,产生的价值在于提高了天文学数据的发现性和互操作性,有助于推动天文学领域的科学合作。通过将这些映射集成到国际虚拟天文台联盟(IVOA)词汇表和OntoPortal-Astro平台中,进一步支持了FAIR数据原则的实现28。
-
来自麦考瑞大学的Yoo Yongmin等人研究了大型语言模型(LLM)生成的专利分类理由中存在的不可靠性和噪音问题,提出了自我过滤蒸馏(Self-Filtered Distillation, SFD)框架,该框架将LLM生成的理由视为信任指示而非真实标签。该方法的主要创新点是引入了三种无监督的信任度量:自我一致性(Self-Consistency)、类别蕴涵对齐(Class Entailment Alignment)和LLM协议评分(LLM Agreement Scoring),产生的价值在于提高了专利分类的准确性、稳定性和解释性。实验结果表明,SFD框架在USPTO-2M数据集上的F1-Micro和F1-Macro得分最高,优于几种基准方法,展示了其在专利分类中的优势和鲁棒性29。
-
来自未指定机构的Y. Du等人研究了合成数据训练对大型语言模型性能、校准和输出特性的影响,进行了跨规模和混合比率的综合实验研究。该方法的主要创新点在于系统性地考察了不同比例的合成数据对模型性能的影响,产生的价值在于提供了合成数据使用的安全边界指南,这对于维持模型性能和可靠性至关重要。实验结果表明,当合成数据占比不超过20%时,模型性能下降不超过3%,而超过30%则会导致显著性能下降。此外,较大的模型(6.9B至12B参数)比较小的模型更能抵抗合成数据的影响,提供了一个基于模型规模估计安全合成数据比例的公式30。
技术趋势
这些论文共同反映了当前语言模型验证与合规性研究的技术趋势:从单一的语言模型输出验证转向结合外部信息(如检索文档)或特定领域知识(如法律条款)进行综合评估。此外,研究还关注于提升模型的稳健性和可靠性,通过引入新的评估指标、改进模型训练方法或开发专门的验证工具来达到这一目标。值得注意的是,多语言处理能力也被纳入考虑范围,显示了全球视角下合规性挑战的多样性。
数据集和评估
- 数据集: 包括超过6,000个有害查询和响应的数据集、1,569个安全查询的多个数据集、USPTO-2M专利分类数据集以及包含多种语言隐私政策的自建数据集。
- 评估指标: 使用了翻转率(Flip Rate)、F1分数(F1-Micro和F1-Macro)、期望校准误差(Expected Calibration Error)等指标来评估模型的稳健性、准确性和校准情况。此外,对于隐私政策合规性评估,使用了多维度的合规性指标。
Topic 6: LLM Applications in Specific Domains
主题概述
大型语言模型(LLM)的应用在特定领域内变得日益重要。这些模型不仅在通用自然语言处理任务上表现出色,而且通过专门设计或调优,能够针对特定领域的挑战提供定制化的解决方案。本主题探讨了LLM在不同专业领域中的应用,包括语言模型的多语言适应、金融分析、跨语言网络内容预测以及音频伪造检测等,展示了如何利用LLM的技术优势解决领域内的复杂问题,同时也指出了当前存在的局限性和未来的发展方向。
各论文贡献
-
来自Université Paris-Dauphine和Télécom SudParis的Maxence Lasbordes等人研究了小型语言模型(SLMs)在法语上的性能差距,提出了Luth系列模型来解决这个问题。该方法的主要创新点是采用了Axolotl框架进行全微调,并使用了模型合并技术如SLERP和线性插值。产生的价值在于提高了法语基准测试的性能同时保留了英语能力,填补了高效适应法语文本的小型语言模型的方法空白。在Luth-SFT数据集上的实验表明,相比其基础模型和其他同等大小的模型,在多个法语基准测试上取得了显著的提升,从+3.12%到+11.26%,在英语基准测试上也维持或有所提高。31
-
来自McGill University的Yongan Yu等人研究了使用检索增强推理(RAG)系统提取历史气候档案中的结构化见解的挑战,特别是关于社会脆弱性和韧性。该方法的主要创新点是引入了一个新的基准WeatherArchive-Bench,其中包括两个任务:评估检索模型查找相关段落的能力和评估LLMs分类社会脆弱性和韧性指标的能力。产生的价值在于提供了大量经过预处理的历史文档,为开发稳健的气候聚焦RAG系统提供了现实的测试平台。实验结果表明,稀疏检索模型如BM25变体在识别历史相关段落方面表现良好,而专有模型如Claude-Opus-4-1和DeepSeek-V3-671B在分类指标方面表现最佳。32
-
来自新加坡科技设计大学(SUTD)的Maojia Song等人研究了当前用于评价检索增强生成(RAG)系统和网络代理在多步深度搜索任务上的限制。该方法的主要创新点是WebDetective基准,它包含无提示的多步问题,以及一个控制的维基百科沙盒环境,允许完整追溯模型动作。此外,还提出了一种名为EvidenceLoop的代理工作流程,以改进搜索和综合能力。产生的价值在于提供了一种更细致和全面的评估方法,帮助研究人员识别具体改进领域并指导发展真正自主的推理系统。实验结果显示,现有模型在有效利用知识和拒绝行为方面存在明显不足,而EvidenceLoop基线显示了显著改善。33
-
来自1机构的Rakhat-Bi Abdyssagin和Bob Coecke研究了传统音乐记谱法在表示现代和前卫音乐作品时的局限性,尤其是那些融合量子现象的作品。该方法的主要创新点是提出了一种新的音乐记谱法——Quantum Concept Music (QCM),借鉴了类别量子力学(CQM)及其图示化形式量子绘图学(QPict)。产生的价值在于引入了一种全新的量子驱动的记谱法,可能使音乐记谱更加适应各种音乐风格和表演形式,包括即兴创作。实验结论展示了量子启发式的记谱法如何让音乐家以一种新的方式互动,反映量子理论中的互连性和关系动力学。34
-
来自Lyman Briggs College, Michigan State University的Prudence Djagba等人研究了大型语言模型(LLMs)在财务应用中的有效适应与评估。该方法的主要创新点是引入了Financial Instruction Tuning (FIT)数据集和FLARE基准。产生的价值在于提供了针对财务领域的高质量指令调整数据集和扩展了早期财务NLP基准的评估框架,填补了领域特定数据集和基准的空缺。实验结果表明,FinMA-7B-full模型在情感分析和头条分类任务上表现优异,但在命名实体识别、股票走势预测和文本摘要生成上仍有提升空间。35
-
来自1机构的Xi Xuan等人研究了提高语音深伪检测(SDD)模型效率和泛化能力的问题。该方法的主要创新点是提出了一种可学习的波浪域稀疏提示调优方法,结合了传统的信号处理变换。产生的价值在于减少了可训练参数的数量,减轻了过拟合问题,同时达到了在具有挑战性的基准测试上的顶尖性能。实验结果证明,WaveSP-Net架构在Deepfake-Eval-2024和SpoofCeleb基准测试上取得了显著的性能提升。36
-
来自1机构的Sedat Dogan等人研究了Reddit平台上跨语言梗的早期预测问题。该方法的主要创新点是引入了一个大型的跨语言梗分析数据集,并提出了一种基于混合参与度得分定义病毒性的数据驱动方法。产生的价值在于建立了早期梗病毒性预测的基准,并提供了对特征重要性随时间变化的洞见。实验表明,XGBoost在所有时间窗口上都表现最佳,尤其是在早期阶段,动态和网络特征尤为重要。37
技术趋势
这些论文展示了多种技术路线和方法的演进。从多语言模型的专门化和跨语言转移,到利用RAG系统进行复杂数据的自动提取;从构建新的音乐记谱法到金融应用中特定指令调整数据集的创建;再到早期预测跨语言梗的成功条件以及高效的语音深伪检测方法。可以看到,领域特定的数据集和评估框架的开发,以及将传统信号处理技术与现代机器学习方法相结合的趋势正在兴起。
数据集和评估
- Luth-SFT: 用于法语专项语言模型的训练和评估。
- WeatherArchive-Bench: 包含两个子任务,用于评估RAG系统在历史气候数据上的表现。
- WebDetective: 提供无提示的多步问题,用于评估RAG系统和网络代理的性能。
- FIT数据集和FLARE基准: 专注于财务应用,用于评估LLMs在特定财务NLP任务上的表现。
- Reddit跨语言梗数据集: 跨越25个不同的Reddit社区,用于研究跨语言梗的早期预测。
- Deepfake-Eval-2024和SpoofCeleb基准: 用于评估语音深伪检测模型的性能。
评估指标涵盖了准确性、F1分数、AUC值、PR-AUC等,根据具体任务的不同而有所侧重。例如,在情感分析和文本分类任务中使用F1分数,在语音深伪检测中则更多依赖于等错误率(EER)、准确率(ACC)和AUC等指标。这些指标共同构成了评估LLM在特定领域应用性能的关键标准。
Topic 7: Prompt Engineering and Fine-Tuning
主题概述
Prompt Engineering 和 Fine-Tuning 是当前大型语言模型(LLMs)研究中的两个重要领域。Prompt Engineering 关注于如何设计和优化提示词,以提高模型在特定任务上的表现;而 Fine-Tuning 则侧重于调整预训练模型,使其适应特定的应用场景或领域。这两个领域对于提高 LLMs 的实用性、效率以及处理复杂任务的能力至关重要。随着 LLMs 规模的不断增大,它们在长文本理解、资源分配、计算效率等方面面临挑战,因此相关研究不仅有助于技术进步,还能推动这些模型在更多实际场景中的应用。
各论文贡献
-
来自Renmin University of China的Rui Li等人研究了大型语言模型在处理长文档时的理解限制问题,提出了**Constructivist Agentic Memory (CAM)**框架来解决这一核心问题。该方法的主要创新点是采用了基于Jean Piaget构建主义理论的结构化图式、灵活同化和动态顺应机制,并结合增量重叠聚类算法和Prune-and-Grow策略进行记忆检索。其产生的价值在于增强了LLMs处理长文本的能力,同时展示了对不同模型架构和嵌入模型的适应性及兼容性。在NovelQA, QMSum, FABLES, MultiHop-RAG, ODSum-Story, 和ODSum-Meeting等基准数据集上的实验表明,相比现有方法,CAM实现了平均3.0%的性能提升38。
-
来自LinkedIn的Zhoutong Fu等人关注于推荐系统中工作与个人匹配预测及解释的可扩展性和准确性问题,提出了LANTERN框架作为解决方案。该方法通过设计分解任务的提示词,并运用白盒和黑盒知识蒸馏技术将大型语言模型的知识转移至两个小型学生模型。其主要创新点在于引入合成数据生成和后训练策略,有效提升了模型的生成质量和推理效率。实验结果显示,Qwen2.5-7B-instruct在教师模型微调上表现最佳,而在分类任务中,SeqCls模型使用last-token pooling达到了最高的F1得分提升39。
-
来自Technical University of Munich的Alexander M. Fichtl等人探讨了Transformer架构中注意力机制的二次复杂度问题,特别是它如何影响处理较长序列的效率和可扩展性。他们没有提出新的模型,而是提供了一个关于子二次注意力变体、RNNs、状态空间模型(SSMs)和混合架构的全面调查。主要价值在于填补了对这些替代架构理解的空白,并揭示了在低参数设置下,某些子二次模型如Samba和RWKV7-World3在特定基准测试中优于全注意力LMs。实验结果表明,尽管这些替代模型在较小规模下表现出色,但全注意力Transformers在大规模模型中仍占据主导地位40。
-
来自UC Irvine的Yurun Song等人针对分布式服务器-客户端环境中训练LLMs时面临的显著计算和通信开销问题,提出了**Adaptive Mixed-bit Activation Quantization (AMAQ)**方法。该方法通过适应性地分配不同的精度级别给训练过程中的特征,从而减少通信和计算需求。主要创新点在于引入了一种新的位宽正则化方法来稳定量化过程。实验显示,AMAQ在多个分类和生成任务的数据集上取得的成绩与现有方法相当甚至更好,特别是在4位量化情况下,展示了显著的性能提升41。
-
来自EIT Wuhan University of Science and Technology的Sunbowen Lee等人研究了LLMs内部编码和感知问题难度的方式,特别是在数学推理任务中。他们提出了一种通过线性探测最终令牌表示并识别特定注意力头的方法来解决此问题,这些注意力头显示出对于简单和困难问题的不同激活模式。该方法的主要创新点是证明了难度感知在LLMs中是一种高维度线性现象,并能通过特定的注意力头模式可靠检测。这为理解和利用LLMs提供了更精确和可解释的方式。实验结果表明,他们的方法在DeepMath和GSM8K数据集上准确预测了问题难度42。
-
来自Huawei Noah’s Ark Lab的Martin Benfeghoul等人解决了当前混合注意力转换中存在的系统性问题,即模型倾向于过度依赖滑动窗口softmax注意力(SWA),忽视线性注意力(LA)部分。他们提出了三种实用的补救措施:(i) SWA与LA在推理时间的混合使用,(ii) 结合注意力权重转移与目标LoRA微调的HedgeCATs方法,以及(iii) 训练期间抑制softmax分支的Scheduled Sliding-window Dropout (SSD)策略。该方法的主要价值在于提供了组件级别的诊断工具,揭示了之前未被发现的行为,并建议了解决方案来改善混合注意力模型的有效性和计算效率。实验结果显示,SSD训练的模型能够维持或改进性能,显示出成功恢复基础模型性能的同时确保真正采用LA的潜力43。
-
来自New York University的Shaoyi Zheng等人研究了大语言模型中上下文学习(ICL)由于Transformer输入二次复杂度导致的局限性,提出了**Submodular Context Partitioning (Sub-CP)**框架。该框架利用次模函数控制用于ICL的上下文块的多样性和结构,旨在克服现有方法依赖随机或均匀划分示例而导致的冗余或关键示例不足的问题。主要创新点在于专注于结构化的上下文划分而不是简单的减少上下文长度,从而优化了示例选择,提高了ICL的准确性。实验表明,在多种ICL框架和数据集上,Sub-CP方法都展示出了显著的性能提升,特别是在TREC数据集上,Local Diverse方法获得了+29.2%的绝对增益44。
-
来自Social Computing Group, Technical University of Munich的Arezoo Saedi等人研究了任务导向对话系统(TODs)在目标意识规划方面的不足,提出了一个利用信息状态方法整合全面中间对话信息的模型。该模型的主要创新点在于使用具有上下文学习能力的大语言模型,并结合定制实体搜索机制来检索和优先级排序数据库实体,以确保系统始终主动且符合用户目标。实验表明,该模型在MultiWOZ 2.2数据集上的表现显著优于先前的方法,尤其是在inform和success率方面,分别提高了至少2.8和6.6个百分点45。
技术趋势
这些论文反映了在Prompt Engineering和Fine-Tuning领域的几个主要技术趋势:一是优化长文本处理能力,如通过构建主义记忆机制增强阅读理解能力;二是提高模型的可扩展性和资源效率,例如通过知识蒸馏和量化技术降低计算成本;三是改进注意力机制,探索子二次复杂度的注意力变体和其他架构,以提高处理长序列数据的效率;四是提升模型对任务导向对话管理的理解和执行能力,通过集成全面的中间信息和特定策略来提高对话系统的有效性。此外,还有一篇论文探讨了模型内部如何感知和编码问题难度,这对未来的模型训练和优化有着重要的指导意义。
数据集和评估
论文中使用的数据集包括NovelQA、QMSum、FABLES、MultiHop-RAG、ODSum-Story、ODSum-Meeting、SST-2、SST-5、MR、TREC、AG News、DeepMath、GSM8K、HumanEval、CodeAlpaca和MultiWOZ 2.2等。评估指标涵盖了准确性、F1得分、ROUGE分数、困惑度(PPL)、通过率(pass@1)、以及任务完成情况的inform和success率等。这些指标综合评价了模型在不同任务上的表现,从阅读理解到代码生成,再到对话管理和数学推理,全面覆盖了LLMs的实际应用场景。
Topic 8: Knowledge Representation and Extraction
主题概述
知识表示与提取(Knowledge Representation and Extraction)是人工智能领域中的一个重要分支,旨在通过结构化的方式捕捉和利用数据中的隐含知识,以便更好地服务于特定任务。随着大型语言模型(LLMs)的广泛应用,如何在这些模型中有效表示和提取知识以应对特定领域的挑战成为研究热点。特别是在航空维修、多智能体系统、文献综述生成、对话模拟和优化建模等场景中,知识表示与提取的研究不仅能够提升系统的可靠性与效率,还能显著改善用户体验和任务完成质量。因此,这一主题对于推动AI技术在复杂且关键任务中的应用具有重要意义。
各论文贡献
-
来自University of Notre Dame的Kuangshi Ai等人研究了传统大型语言模型在处理航空维修这种特定领域且安全至关重要的任务时所面临的事实不一致、信息过时等问题。他们提出了KEO框架,该框架将结构化的知识图谱与检索增强生成(RAG)管道结合,专门针对航空维修领域内的知识提取和推理进行改进。该方法的主要创新点是利用结构化数据构建知识图谱,从而减少事实不一致性和幻觉现象,并支持在敏感环境中部署较小规模的模型。在包含133个问题的基准测试上,KEO框架在全局理解任务上显著优于直接文本检索的RAG方法,尤其当与更强的语言模型结合时效果更佳。对于需要精确程序性检索的知识到行动问题,KEO的表现与文本片段RAG方法相当46。
-
来自University of Notre Dame的Zheyuan Zhang等人探讨了在固定下游问答任务中选择最佳配置的大型语言模型及代理策略的不确定性。他们提出了AgentRouter框架,将多代理问答视为由知识图谱引导的路由问题,引入了RouterGNN,一种类型感知的异构图神经网络,学习跨多种代理设计和语言模型骨干的合作方案。该方法的创新之处在于利用监督式图信号学习合作模式,而非依赖于启发式投票或语言模型法官。实验结果显示,AgentRouter在多个问答基准上优于单一代理和集成基线,特别是在限制路由器输出至前K个代理的情况下,其在多跳推理任务中的表现尤为突出,这得益于减少方差和噪声的能力47。
-
来自Department of Computer Science, City University of Hong Kong和华为Noah’s Ark实验室的Yansen Zhang等人致力于解决从自然语言描述生成语义正确的求解器执行代码的问题,尤其是在物流、医疗保健和金融等领域。他们提出了SAC-Opt框架,这是一种基于语义锚点的校正方法,通过问题语义而非求解器反馈迭代地精化生成的模型。SAC-Opt的主要创新点在于提出了一种模型无关的迭代校正过程,增强了生成模型的保真度和鲁棒性,无需额外训练或监督。实验证明,SAC-Opt显著提升了复杂数据集上的建模准确性,平均提升达7.8%,特别是ComplexLP数据集上提升高达21.9%48。
-
来自George Mason University的Bowen Wei研究了解决新员工或轮换员工在Head Start项目中寻找适当任务(模块)的难题,这些问题包括领域特有术语、系统特定命名法以及传统词汇搜索方法的局限性。他提出了一种基于理由增强的检索方法,结合轻量级的拼写容忍词汇检索、基于嵌入的向量相似性匹配和约束大型语言模型(LLM)重排序,以改善任务发现的语义搜索能力。这种方法的独特之处在于无需训练即可部署,并且能够快速适应新的术语变化。实验显示,该系统在Hit@5和MRR指标上达到了0.94和0.85,超过所有基线方法,特别是在加入新任务的测试案例后,系统性能恢复迅速,无需重新训练模型49。
-
来自Drexel University的Ceyhun Efe Kayan等人关注大型语言模型在复杂推理任务中依赖显式推理指令或静态、一刀切的引导方法的问题。他们提出了Prototype-Based Dynamic Steering(PDS)方法,通过创建“推理原型”来增强模型推理能力,而不需要修改指令或进行微调。PDS的核心创新在于利用动态原型空间形成实例特定的引导向量,比传统的静态DoM技术更加灵活和高效。实验结果表明,PDS显著提高了模型在GSM8K、AQuA-RAT和BIG-Bench子集上的推理任务准确性,且不受模型大小影响,显示出良好的可扩展性50。
-
来自University of Notre Dame的Gregory Hok Tjoan Go等人面对系统性文献综述(SLRs)因科学出版物数量激增而难以及时生成的问题,提出了LiRA框架,利用大型语言模型自动化SLR的撰写阶段。该框架通过引入专门的代理来提高综述文章的连贯性和可读性,同时减少引用幻觉,维持开箱即用的功能。LiRA的创新之处在于专注于写作阶段并整合正式指南,实验结果表明它在SciReviewGen和ScienceDirect数据集上实现了最高的ROUGE分数和引用质量F1分数,优于其他基线方法,如直接提示、MASS-Survey和AutoSurvey51。
-
来自Baidu Inc的Mingjin Li等人解决了任务导向对话系统在生成说服性多轮对话方面的挑战,特别是在缺乏真实用户数据和冷启动评估困难的情景下。他们开发了MADS框架,通过三个协调的代理(用户代理、对话代理和优化代理)来模拟和优化多轮对话。MADS的关键创新在于引入Chain-of-Attitude模型量化用户态度变化,并通过Jensen-Shannon散度和平均信息熵评估说服策略的多样性和有效性。实验显示,MADS显著提高了捐赠成功率和减少了用户退出率,在真实世界场景中也展现了优异的性能,提高了转化率和用户意图率52。
-
来自University of California, Berkeley和Munich RE的Zhexiao Lin等人聚焦于大型语言模型在领域迁移情况下进行置信预测的不可靠性。他们提出了Domain-Shift-Aware Conformal Prediction(DS-CP)框架,利用语义嵌入技术将提示投射到低维空间,并根据测试提示与校准样本之间的接近程度重新加权校准样本。DS-CP的独特之处在于提供了理论保证,即使在存在显著领域迁移的情况下也能保持有效的覆盖率。实验表明,DS-CP在MMLU基准数据集上实现了更高的覆盖率,尤其是在标准CP容易严重欠覆盖的显著领域迁移情况下,虽然预测集的大小有所增加,但增幅有限,展示了其实用性和可靠性53。
-
来自多个机构的Mary Llewellyn等人研究了大型语言模型面对提示注入攻击时的安全性评估问题,特别是如何公平比较不同模型架构及如何处理实验结果中的不确定性。他们提出了基于贝叶斯模型的端到端框架,用于评估LLM的安全漏洞。此框架的创新之处在于使用嵌入空间聚类的贝叶斯层级模型进行不确定性量化,实验表明这种方法能更可靠地评估不同架构(如Mamba和Transformer)的安全属性,提供更为细致的结论,有助于从业者根据具体需求选择最合适的模型54。
技术趋势
在知识表示与提取的研究中,可以看到几种主要的技术趋势:
- 多代理协作:通过构建多代理系统来解决复杂的推理和问答任务,强调不同代理和模型间的协同工作,以发挥各自优势。
- 知识图谱应用:利用知识图谱来组织和表达知识,提升模型对特定领域内复杂关系的理解和推理能力。
- 动态引导机制:开发出诸如PDS这样的动态引导机制,使得大型语言模型能够在不改变基本行为的前提下,对个体输入做出更适应的响应。
- 置信预测:探索在领域迁移背景下如何实现可靠的置信预测,确保模型输出的可信度。
- 基于理由的检索:通过理由增强的方法来改善检索的质量,尤其是对于那些需要语义理解和上下文匹配的任务。
- 自动化和减轻人工负担:自动化文献综述的生成过程,减轻研究人员的人工负担,同时确保综述的质量和一致性。
数据集和评估
各论文使用的数据集包括OMIn、2Wiki、HotpotQA、NewsQA、TriviaQA、SciReviewGen、ScienceDirect、P4G、Make Me Pay (MMP)、MMLU等,涵盖问答、对话模拟、文献综述生成等多个领域。评估指标主要包括F1、Exact Match (EM)、ROUGE、Citation Quality F1 (CQF1)、Hit@K、MRR、Jensen-Shannon散度、平均信息熵等,这些指标反映了模型在不同任务上的表现,如准确性、连贯性、多样性、安全性等。此外,部分论文还采用了人类专家评价的方式,以进一步验证模型产出的质量和适用性。
Topic 9: LLM-based Generative Systems
主题概述
LLM-based Generative Systems(基于大语言模型的生成系统)的研究旨在通过改进现有的语言模型架构和训练策略,以应对特定场景中的挑战,如对话系统的实时响应、文本生成中的作者身份识别、以及复杂任务规划与执行等。这些系统不仅在学术界受到广泛关注,在工业应用中也展现出巨大潜力,特别是在自动化管理、自然语言处理和人工智能对话领域。研究这一主题对于推动人工智能技术的进步和确保其安全可靠的应用至关重要。
各论文贡献
-
来自Nanyang Technological University的Donghang Wu等人研究了全双工语音对话语言模型(SDLMs)在用户讲话期间维持“沉默标记”的低效性和潜在性能下降的问题。他们提出了Chronological Thinking(时间顺序思考)机制,取代传统沉默标记,通过增量生成基于用户语音语义段落的思考链来提高响应质量和效率。该设计灵感源自于ACT-R认知架构,包括实体提取、意图识别、行动计划、知识检索和逻辑推理等多种节点类型。通过利用Qwen2.5-72B-Instruct生成对话数据和Step-Audio-TTS-3B进行语音合成的新训练策略,显著提升了模型的因果性和减少了延迟,从而提高了AI对话系统的现实感和效率。实验结果显示,CT-Duplex模型在SpokenWOZ基准上表现提升了8.75%,在MtBenchEval数据集上也显示出一致的优势,并且在Impatient数据集中具有较高的插话成功率,证明了该方法的有效性。55
-
来自National University of Singapore的Qi Li等人关注于离散扩散大型语言模型(dLLMs)的作者归属问题,特别是通过解码轨迹分析来区分不同模型及其同一模型的不同检查点或备份。他们提出了Directed Decoding Map (DDM) 和 Gaussian-Trajectory Attribution (GTA) 两种新方法,分别用于捕捉dLLMs解码过程中的结构关系和依赖性,以及构建每个模型的紧凑概率指纹。这些方法在GSM8K和CodeAlpaca-20K数据集上的实验中表现出色,显著优于传统的困惑度、聚类和距离归因方法。研究表明,DDM和GTA不仅能够有效识别dLLMs的来源,而且在严格的黑盒设置下仍能保持较好的性能,有助于减少有害内容的传播,促进负责任地使用AI技术。56
-
来自Drexel University的Cassie Huang等人探讨了大语言模型(LLMs)在规划任务中的过度乐观估计问题,这些问题源于对过于简化的基准测试的依赖。他们引入了CoPE(带约束的规划环境),一个包含丰富自然语言约束的基准测试,旨在更真实地反映LLMs在复杂规划任务中的表现。通过对四种最先进的推理LLMs在三种形式化语言(PDDL、SMT和LTL)和五种方法(直接规划和形式化)上的评估,揭示了LLMs在面对复杂约束时的表现大幅下降。此外,他们还提出了一种“先生成后编辑”的技术,用于改善LLM作为形式化器的表现。实验结果表明,尽管这种方法在某些情况下表现出色,但整体上仍存在局限性,特别是在处理复杂问题和词汇变化时。57
-
来自多个未指定机构的Yao Zhang等人致力于解决光网络全生命周期管理中的多层自主操作和零接触管理难题。他们提出了一种由GenAI驱动的层次化多代理框架,用于优化多任务的自主执行。该框架包括网络指挥官、部门代理(光学层、数字孪生、控制和支持)和AI专家,每个部分都配备有专门的知识库和工具接口。通过“共享池”存储和动态更新任务相关的内容,实现了高效的任务分配、协调和执行。实验验证显示,该框架在光网规划、运行和升级阶段的典型案例中表现出了良好的效果,如传输质量估算、动态信道管理和系统容量提升。这表明,与单个代理系统相比,该框架能够更有效地管理复杂的光网络任务,有望实现更高水平的自动化和全面管理。58
技术趋势
上述论文展示了在基于大语言模型的生成系统领域的几个关键趋势。首先,Chronological Thinking 强调了模仿人类对话行为的重要性,即在对话过程中保持思维活跃,这有助于提升对话系统的自然性和响应速度。其次,DDM 和 GTA 方法则突出了利用模型解码过程的独特性来实现作者归属识别的潜力,这是现有技术难以做到的。第三,CoPE 的引入反映了对评估LLMs在复杂和约束环境下表现的需求,这将引导未来研究更加注重模型的鲁棒性和实用性。最后,GenAI驱动的层次化多代理框架 提供了一个全新的视角,即通过集成多代理系统来处理大规模、多层次的任务,尤其适用于复杂的网络管理场景。
数据集和评估
- Chronological Thinking 论文使用了SpokenWOZ、MtBenchEval、Llama Questions和Web Questions等数据集,评估了模型在任务导向对话和开放领域问答任务中的表现。
- DDM 和 GTA 方法则在GSM8K和CodeAlpaca-20K数据集上进行了广泛的实验,以验证其在模型归属识别方面的有效性。
- CoPE 基准测试包含了BlocksWorld、CoinCollector、BlocksWorld-XL–100和MysteryBlocksWorld-100等多个数据集,用于评估LLMs在带有复杂约束条件下的规划任务中的表现。
- GenAI驱动的层次化多代理框架 的评估是在一个实地部署的光网状网络上进行的,具体的数据集和评估指标未详细提及。
Topic 10: Social and Cultural Implications of LLMs
主题概述
大型语言模型(LLMs)的应用日益广泛,不仅限于文本生成与理解,还深入到社会文化交互的各个层面。随着这些模型被集成到包括翻译系统、教育工具、搜索引擎和生成平台等在内的多种应用中,它们如何处理复杂的文化和社会现象变得尤为重要。这不仅关系到模型在多元文化环境中的表现,还涉及到它们是否能准确反映并尊重不同的社会规范、道德框架、习语和身份认同。因此,研究LLMs的社会和文化影响对于确保这些技术能够适应并促进跨文化交流具有重要意义。
各论文贡献
-
来自卡内基梅隆大学的Mai AlKhamissi等人研究了当前LLM基准测试在评估文化能力时存在的简化和去情境化的问题。他们提出了一种基于人类学视角的四部分框架,将文化视为知识、偏好、动态过程及偏见,并指出了六项常见的方法论问题。该方法的主要创新点在于强调了质性的人文传统,而非大规模的定量调查,提倡更深刻、细腻的文化动态理解。在分析了20个文化基准测试后,揭示出大多数测试过于狭窄地聚焦于文化知识和偏好,未能充分考虑文化的复杂性和多样性。这表明需要采用更具情境敏感性和理论基础的方法来评价模型的文化能力,其中BLEND, SEACrowd, FLEAD, 和 Jiraibench等基准测试提供了更有希望的方向。59
-
来自约翰霍普金斯大学的Akhil Deo等人探讨了LLMs和大型推理模型在多说话人对话中理解和推理复杂社会现象(如讽刺、反话和幽默)的能力不足问题。他们引入了SocialNLI(SoNLI),这是首个以对话为中心的社会推理数据集,旨在评估和训练模型在处理复杂社交现象方面的性能。该方法的主要创新点在于使用了LLM驱动的反事实推理方法,鼓励模型进行心智理论(ToM)推理。实验结果显示,尽管GPT-4o显示出与人类评分的正相关性,但整体上,现有的模型在衡量社交推理能力方面仍存在显著差距,提示需改进模型的社会心智理论推理能力。60
-
来自斯坦福大学的Zhuofeng Li等人解决了现有工具增强型LLMs在长周期任务规划和工具使用效率低下且脆弱的问题。他们开发了一种名为AgentFlow的新可训练代理系统,通过使用进化记忆协调四个专门模块(规划器、执行者、验证者和生成器)来提高规划和工具使用的有效性。该系统的Flow-GRPO算法将多回合强化学习转化为一系列单回合策略更新,有效解决了长期信用分配问题。实验表明,AgentFlow在多个领域如搜索、代理行为、数学和科学推理等方面显著优于其他基线,尤其是在工具选择和使用可靠性上有重大提升。这证明了实时优化比离线监督微调更能适应动态环境和长期工作流程。61
-
来自微软的Mukul Singh等人调查了LLMs在编程任务中是否表现出邓宁-克鲁格效应(DKE),即较低能力的模型倾向于高估自己的能力。他们使用从CodeNet数据集中提取的多项选择题解答任务作为实验基础,分析了模型的基础性能和编程领域罕见度对DKE的影响。该方法的主要创新点在于采用了ELO和TrueSkill算法来测量感知性能,并探索了不同模型设置对DKE的稳健性。实验显示,较低性能的模型和较少使用的编程语言模型更容易出现DKE,而更高性能的模型则表现得更为谨慎或低估自己。这表明,编程领域的模型专业化程度越高,其表现出的DKE也越强,暗示了模型自我评估的重要性和必要性。62
-
来自Durgesh Nandini和Rebekka Koch等人的研究关注于从区域贸易协定文本中提取结构化知识(主体-谓词-对象三元组)。他们利用LLM,特别是Llama 3.1模型,提出了零样本、一样本、少样本和负样本配置下的提示工程策略,用于改善特定领域知识的提取效率。该方法的主要创新点在于使用了手动编纂的包含100个三元组的基准数据集,作为评估模型输出质量的地面实况。实验表明,少样本和负样本配置在精度、召回率和F1分数上表现最佳,尤其是负样本配置在精确匹配和语义匹配上分别达到了0.49和0.57的最高F1分数,强调了迭代提示优化和处理域内挑战的重要性。63
技术趋势
在处理社会和文化问题方面,研究者们正在从单纯的量化评估转向更加注重质性分析的方法,试图构建更细致、更贴近现实的情境化评价体系。同时,也有研究通过引入新的数据集和社会推理机制来提高模型在复杂社交场景下的表现,例如使用反事实推理方法来增强模型的心智理论能力。此外,针对模型在特定领域如法律文本和编程任务中的表现,研究者们也在探索更有效的训练和评估策略,比如通过提示工程和引入负样本示例来改善模型的理解和推理能力。
数据集和评估
本报告涵盖的论文中,涉及的数据集包括CodeNet, MultiPL-E, BLEND, SEACrowd, FLEAD, Jiraibench, Bamboogle, 2Wiki, HotpotQA, Musique, GAIA, AIME24, AMC23, GameOf24, GPQA, MedQA以及一个手动编纂的区域贸易协定三元组数据集。评估指标涵盖了Pearson相关系数, 平均绝对误差, 精确匹配和语义匹配的F1分数,以及工具选择和使用可靠性等,反映了研究者们在不同维度上评估模型表现的努力。这些数据集和评估标准的选择体现了研究者们对于不同应用场景下模型性能差异的关注,同时也展现了他们在提升模型社会文化和专业领域表现上的努力。
Topic 11: misc
主题概述
本报告涵盖了多个研究领域,包括大语言模型(LLMs)和多模态模型的优化、推理能力提升、情感支持对话系统的设计以及机器翻译错误检测等。这些研究对于推动人工智能技术的发展具有重要意义,尤其是在提高模型效率、减少资源消耗、确保模型输出的可靠性和安全性等方面。随着AI技术在学术研究和行业应用中的广泛应用,如何克服现有模型的局限性,实现更高效、更安全的部署成为当前的重要课题。
各论文贡献
-
来自Tsinghua Shenzhen International Graduate School的Runxi Cheng等人研究了Mixture-of-Experts (MoE)模型在推理过程中的参数利用效率低下的问题,提出了Mixture of Neuron Experts (MoNE)来解决这一核心问题。该方法的主要创新点是引入了神经元级别的选择机制和Neuron Granular Load Balance Loss (NG-LBL),以确保更好的神经元专家激活平衡,从而提升模型性能和效率。产生的价值在于实现了在不牺牲性能的情况下,显著提高了参数利用率,减少了计算开销。在ARC-C, BoolQ, HellaSwag, LAMBADA, MNLI, PIQA, RACE, SIQA, WinoGrande, 和WNLI等多个数据集上的实验表明,相比传统MoE模型,MoNE在激活参数数量相同的情况下,性能提高了1%-2%64。
-
来自University of Cambridge的Peter Ochieng研究了对比学习中样本批次多样性不足的问题,提出了SynCED-EnDe数据集用于检测机器翻译中的关键错误。该方法的主要创新点是构建了一个包含1,000个金标准标签和8,000个银标准标签的句子对数据集,旨在覆盖多个领域和最近的内容,并提供详细的错误分类和辅助判断。产生的价值在于提供了更加全面和均衡的数据集,有助于更深入地评估和改进模型的翻译质量。在XLM-R模型作为基准模型的实验中,SynCED-EnDe显著提升了Matthews相关系数(MCC)和F1分数,从WMT21数据集的0.46提升至0.819,显示出其在检测关键翻译错误方面的有效性65。
-
来自New York University的Byung-Doh Oh等人讨论了主流大语言模型与人类阅读预测之间的不对齐问题,提出需要通过有针对性的人类实验来衡量长期记忆和短期记忆对阅读行为的影响。该方法的主要创新点在于识别出模型预测能力和人类阅读行为之间由于记忆差异导致的分歧,并强调了开发更接近人类认知的语言模型的重要性。产生的价值在于为未来的研究指明了方向,即通过理解人类阅读中的知识应用和记忆衰减来改进模型。实验结果未提供,但该文章作为立场论文,提出了重要的理论假设和研究方向66。
-
来自University of California, Irvine的Mark Steyvers等人研究了如何通过监督微调提高大语言模型的不确定性沟通能力。该方法的主要创新点是引入了一种基于一致性得分的新训练目标生成方法,该方法能够校准和区分不确定性,而不需要访问内部概率。产生的价值在于展示了如何在不依赖大规模合成数据的情况下改善模型的推理能力。在WikiText-2, ARC-Easy, CommonsenseQA, PIQA, RACE, Winogrande, LAMBADA-Standard, 和CLIP等多个数据集上,PGSVD框架实现了比均匀压缩比率分配高出30%的性能提升,特别是在复杂推理任务中表现尤为突出67。
-
来自ETH Zurich的Xueyan Li等人针对提高大语言模型在复杂任务中的推理能力,尤其是处理探索与准确性之间的权衡问题,提出了新的解码策略。该方法的主要创新点在于引入了Greedy-Threshold、Calibrated-TopK 和Calibrated-$\bm{\varepsilon}$等采样策略,专注于正确性而非信心度。产生的价值在于这些策略能够在各种推理基准测试中带来一致性的性能提升。实验结果显示,在GSM8K, MMLU-Pro, 和Big-Bench-Hard等多个数据集上,Calibrated-$\bm{\varepsilon}$和Calibrated-TopK展现了最大的性能提升68。
-
来自Georgia Tech的Zichong Li等人研究了大语言模型训练过程中因次优优化器选择而导致的效率低下和扩展性差的问题,提出了NorMuon优化器来解决这个问题。该方法的主要创新点是结合了Muon的正交化技术和按神经元自适应的学习率,减少了更新范数的方差。产生的价值在于通过实验验证了NorMuon在不同规模模型上的优越性能,特别是在1.1B和5.4B参数模型上分别减少了21.74%和13.91%的训练步骤,同时维持了高性能而无额外计算或内存负担69。
-
来自University of Wisconsin – Madison的Yilong Li等人探讨了在电池供电的小型设备上执行大型多模态模型的低效问题,提出了Nanomind框架来解决这一挑战。该方法的主要创新点在于硬件软件协同设计,包括Token-Aware Buffer Manager (TABM)和Power Management Unit (PMU)等组件,实现了零拷贝数据传输和动态功率管理。产生的价值在于显著降低了端到端延迟,提高了吞吐量和能效。实验表明,与官方rkllm相比,Nanomind将端到端延迟减少了36.2%,并在低功耗模式下平均仅消耗0.375瓦特电力,适用于小型设备上的高效推理70。
-
来自Columbia University的Weiliang Zhao等人研究了大语言模型对“越狱”攻击的脆弱性,特别是多轮越狱攻击,提出了ProAct框架来主动防御这种攻击。该方法的主要创新点在于通过提供看似满足攻击者目标但实际上不含实际有害内容的虚假响应来干预攻击过程。产生的价值在于实验结果显示ProAct可以将攻击成功率降低多达92%,平均降低了59%,即使与其他防御机制结合使用也能提供额外的安全保障71。
-
来自University of Technology Sydney的Jianbin Shen等人关注于抽象文本摘要生成中的信息匮乏问题,提出了InforME框架来解决此问题。该方法的主要创新点是结合最优运输为基础的信息注意机制和累积联合熵减少方法,以提高摘要生成的信息量。产生的价值在于实验显示,InforME框架在CNN/Daily Mail (CNNDM)和XSum数据集上实现了显著的信息丰富度提升,特别是CNNDM数据集上,ROUGE分数显示模型生成的摘要与参考摘要有更好的重叠度,且人类评价也证实了信息丰富度的提升72。
-
来自Temple University的Bowen Xu等人研究了大语言模型在开放世界假设下的不可避免的幻觉现象,提出了在开放世界条件下容忍幻觉的观点。该方法的主要创新点在于区分了两种类型的幻觉:源于虚假记忆的Type-I幻觉和源于错误概括的Type-II幻觉。产生的价值在于提供了关于幻觉现象的基础性论据,挑战了完全避免幻觉的可能性。文章通过形式分析和哲学论证得出,错误是开放世界智能的一部分,应该使这些错误更易于理解和接受,如采用透明的表示方案与人类概念结构相匹配73。
-
来自University of Maryland - College Park的Reza Shirkavand等人提出了IDIOMoE架构,以解决推荐系统中大型语言模型集成的问题,特别是如何在不引起知识干扰的情况下结合协作过滤和语义处理的能力。该方法的主要创新点在于通过分离ItemID和文本处理专家,解决了推荐系统的语义-协作冲突。产生的价值在于实验显示IDIOMoE在推荐任务中优于其他基准模型,同时保持了语言理解能力,尤其是在Amazon和工业数据集上的表现尤为突出74。
-
来自Soochow University的Jie Zhu等人研究了情感支持对话系统中缺乏深度认知推理的问题,提出了CARE框架来增强这类系统的情感支持和逻辑连贯性。该方法的主要创新点在于通过认知推理链指导生成逻辑连贯和支持性的响应,并运用强化学习进一步优化这一过程。产生的价值在于实验表明CARE框架在多种自动评价指标上超越了强基线模型,特别是在策略准确性(ACC_Stra.)方面表现优异,证明了其在产生高质量情感支持响应方面的潜力75。
-
来自University of Technology Sydney的Jianbin Shen等人提出了TensorBLEU,一种优化的GPU实现,用于在训练期间快速计算BLEU评分,解决NLP模型评估中的计算低效问题。该方法的主要创新点是直接从token ID计算BLEU分数,无需CPU-GPU数据传输,使用torch.unique实现高效的n-gram计数。产生的价值在于显著提高了计算速度,尤其在长序列和高配置GPU上表现更好。实验结果显示,与NLTK相比,TensorBLEU在不同批量大小和硬件配置下实现了3.8倍到40.2倍的速度提升76。
-
来自Department of Computer Science, Columbia University的Weiliang Zhao等人研究了多模态大语言模型在与人类偏好对齐方面的局限性,提出了Hybrid and Multi-Aspect Reward Modeling Optimization (HARMO)框架。该方法的主要创新点是整合规则和模型奖励,引入多方面行为奖励,如动态长度惩罚和格式遵循。产生的价值在于实验显示HARMO在VLAA-Thinking数据集上表现出色,相较于传统方法,整体平均改进达到9.5%,尤其在数学推理任务中平均改进高达16%77。
技术趋势
本报告涵盖的技术趋势主要包括:
- 模型压缩与优化:通过引入新的压缩框架(如PGSVD)、优化器(如NorMuon)以及更细粒度的参数选择机制(如MoNE),来提高模型的效率和减少资源消耗。
- 认知推理增强:在情感支持对话系统(CARE)和推荐系统(IDIOMoE)中,通过增加认知推理链和专门的认知推理节点来提高模型的理解和推理能力。
- 动态推理与采样策略:为了提高复杂推理任务中的模型性能,研究者们提出了一系列新的采样和解码策略(如Sample Smart, Not Hard中的Calibrated-$\bm{\varepsilon}$和Calibrated-TopK),以减少低置信度令牌的探索并提高整体模型准确性。
- 数据集与评价机制创新:针对特定问题,如机器翻译中的关键错误检测(SynCED-EnDe)、材料科学文献信息提取(Reliable End-to-End Material Information Extraction)和多模态推理能力的提升(Beyond Monolithic Rewards),开发了新的数据集和评价机制,以更准确地评估模型性能。
数据集和评估
- 数据集:主要使用的数据集包括HotpotQA, StrategyQA, WikiText-2, GSM8K, MMLU-Pro, Big-Bench-Hard, AIME24, AIME25, InfoVQA, DoCVQA, MMBench, MME, ESConv, CNN/Daily Mail (CNNDM), XSum, WMT21, 和SynCED-EnDe等。
- 评估指标:常用的评估指标包括F1分数、BLEU-1/2、ROUGE-L、METEOR、BERTScore、Matthews相关系数(MCC)、Pairwise Alignment Consistency (PAC)、AUC、ECE、NDCG@10、HR@10、和材料提取的精度和召回率等。
参考文献
-
EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in Large Language Models ↩︎
-
EEPO: Exploration-Enhanced Policy Optimization via Sample-Then-Forget ↩︎
-
Context Length Alone Hurts LLM Performance Despite Perfect Retrieval ↩︎
-
Training Large Language Models To Reason In Parallel With Global Forking Tokens ↩︎
-
Improving Chain-of-Thought Efficiency for Autoregressive Image Generation ↩︎
-
Evaluating the Sensitivity of LLMs to Harmful Contents in Long Input ↩︎
-
Revisiting Long-context Modeling from Context Denoising Perspective ↩︎
-
Curiosity-Driven LLM-as-a-judge for Personalized Creative Judgment ↩︎
-
Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-to-Speech ↩︎
-
Residualized Similarity for Faithfully Explainable Authorship Verification ↩︎
-
The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP ↩︎
-
MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction ↩︎
-
Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs ↩︎
-
Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA) ↩︎
-
Advancing Automated Spatio-Semantic Analysis in Picture Description Using Language Models ↩︎
-
DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation Summarization ↩︎
-
DecEx-RAG: Boosting Agentic Retrieval-Augmented Generation with Decision and Execution Optimization via Process Supervision ↩︎
-
Let it Calm: Exploratory Annealed Decoding for Verifiable Reinforcement Learning ↩︎
-
Improving Discrete Diffusion Unmasking Policies Beyond Explicit Reference Policies ↩︎
-
Adversarial Reinforcement Learning for Large Language Model Agent Safety ↩︎
-
Prompt reinforcing for long-term planning of large language models ↩︎
-
On the Role of Difficult Prompts in Self-Play Preference Optimization ↩︎
-
Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care ↩︎
-
RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts ↩︎
-
Automated Boilerplate: Prevalence and Quality of Contract Generators in the Context of Swiss Privacy Policies ↩︎
-
Adaptive and Multi-Source Entity Matching for Name Standardization of Astronomical Observation Facilities ↩︎
-
Self-Filtered Distillation with LLMs-generated Trust Indicators for Reliable Patent Classification ↩︎
-
Characterizing Model Behavior Under Synthetic Data Training: An Empirical Study Across Scales and Mixing Ratios ↩︎
-
Luth: Efficient French Specialization for Small Language Models and Cross-Lingual Transfer ↩︎
-
WeatherArchive-Bench: Benchmarking Retrieval-Augmented Reasoning for Historical Weather Archives ↩︎
-
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics ↩︎
-
Quantum Concept Music Score from Quantum Picturalism: Musical Incarnation of a Bell-Pair under Measurements ↩︎
-
Exploring Large Language Models for Financial Applications: Techniques, Performance, and Challenges with FinMA ↩︎
-
WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection ↩︎
-
Early Multimodal Prediction of Cross-Lingual Meme Virality on Reddit: A Time-Window Analysis ↩︎
-
CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension ↩︎
-
LANTERN: Scalable Distillation of Large Language Models for Job-Person Fit and Explanation ↩︎
-
The End of Transformers? On Challenging Attention and the Rise of Sub-Quadratic Architectures ↩︎
-
AMAQ: Adaptive Mixed-bit Activation Quantization for Collaborative Parameter Efficient Fine-tuning ↩︎
-
Probing the Difficulty Perception Mechanism of Large Language Models ↩︎
-
Paying Attention to Hybrid Attention: Untangling the Issues with Conversion Methods ↩︎
-
Submodular Context Partitioning and Compression for In-Context Learning ↩︎
-
Collaborative and Proactive Management of Task-Oriented Conversations ↩︎
-
KEO: Knowledge Extraction on OMIn via Knowledge Graphs and RAG for Safety-Critical Aviation Maintenance ↩︎
-
AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering ↩︎
-
Rationale-Augmented Retrieval with Constrained LLM Re-Ranking for Task Discovery ↩︎
-
Prototype-Based Dynamic Steering for Large Language Models ↩︎
-
LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation ↩︎
-
MADS: Multi-Agent Dialogue Simulation for Diverse Persuasion Data Generation ↩︎
-
Domain-Shift-Aware Conformal Prediction for Large Language Models ↩︎
-
Towards Reliable and Practical LLM Security Evaluations via Bayesian Modelling ↩︎
-
Chronological Thinking in Full-Duplex Spoken Dialogue Language Models ↩︎
-
Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs ↩︎
-
Language Model as Planner and Formalizer under Constraints ↩︎
-
Generative AI-Driven Hierarchical Multi-Agent Framework for Zero-Touch Optical Networks ↩︎
-
Hire Your Anthropologist! Rethinking Culture Benchmarks Through an Anthropological Lens ↩︎
-
In-the-Flow Agentic System Optimization for Effective Planning and Tool Use ↩︎
-
Towards Structured Knowledge: Advancing Triple Extraction from Regional Trade Agreements using Large Language Models ↩︎
-
Diversity Is All You Need for Contrastive Learning: Spectral Bounds on Gradient Magnitudes ↩︎
-
To model human linguistic prediction, make LLMs less superhuman ↩︎
-
Activation-Informed Pareto-Guided Low-Rank Compression for Efficient LLM/VLM ↩︎
-
Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs ↩︎
-
Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices ↩︎
-
InforME: Improving Informativeness of Abstractive Text Summarization With Informative Attention Guided by Named Entity Salience ↩︎
-
Hallucination is Inevitable for LLMs with the Open World Assumption ↩︎
-
Catalog-Native LLM: Speaking Item-ID Dialect with Less Entanglement for Recommendation ↩︎
-
CARE: Cognitive-reasoning Augmented Reinforcement for Emotional Support Conversation ↩︎
-
TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation ↩︎
-
Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment ↩︎