2025年10月06日NLP论文汇总(中文)
- Topic 1: Reasoning and Cognitive Processes (4 papers)
- Topic 2: Large Language Models Development and Evaluation (9 papers)
- Topic 3: Data Handling and Annotation (11 papers)
- Topic 4: Machine Translation and Linguistic Robustness (6 papers)
- Topic 5: Human-AI Interaction and Collaboration (16 papers)
- Topic 6: Bias and Fairness in AI (5 papers)
- Topic 7: Security and Privacy (12 papers)
- Topic 8: Knowledge Representation and Information Extraction (5 papers)
- Topic 9: Evaluation and Benchmarking (6 papers)
- Topic 10: AI Ethics and Societal Impact (5 papers)
- Topic 11: misc (7 papers)
Topic 1: Reasoning and Cognitive Processes
主题概述
在人工智能领域,尤其是自然语言处理和认知计算方面,推理和认知过程的研究至关重要。这一领域的进步能够使AI系统更加高效地理解和生成人类语言,并且能够更好地模拟人类的认知能力,从而在诸如问答系统、对话系统等应用场景中提供更准确、及时和互动性强的服务。然而,当前的大型推理模型(LRMs)和大型语言模型(LLMs)在执行推理任务时往往存在冗余推理和过度思考的问题,这些问题不仅浪费计算资源,还可能影响模型的响应速度和准确性。因此,如何在保持或提高模型性能的同时优化其推理过程成为了一个重要的研究方向。
各论文贡献
-
来自新加坡国立大学的Haiquan Lu等人研究了大型推理模型(LRMs)在所有步骤中统一应用复杂推理导致的效率低下和冗余问题,提出了MixReasoning框架来解决这个问题。该方法的主要创新点是使用轻量级LoRA适配器动态调整单个响应中的推理深度,将详细推理集中在困难步骤上,而对简单步骤则进行简化的推理。这种方法的价值在于它能够在不重新训练基础模型的情况下改善推理模型的效率和准确性,同时通过KV缓存复用来减少计算成本。在GSM8K、MATH-500和AIME24等基准测试上,与Prompting、CoT-Valve、DEER、NoWait和ConciseHint等基线方法相比,MixReasoning减少了47%的令牌使用量,提高了1.01%的准确率1。
-
来自台湾大学和微软公司的Cheng-Han Chiang等人研究了现有口语语言模型(SLMs)仅在接收到完整用户输入后才开始推理的问题,提出了Shanks框架来解决这个问题。该框架的核心创新在于它允许SLMs在接收流式语音输入的同时进行推理,通过将语音输入分割成固定大小的块并生成相应的思维块来实现。这使得SLMs能够更早地做出中断或工具调用决策,从而提高实时交互能力。实验结果表明,在数学问题求解和旅行规划任务的数据集上,Shanks能够比仅在听取完毕后中断的基线方法更有效地中断用户,提高37.1%的中断有效性,并且在API调用成功率方面提高了56.9%,有效缩短了响应延迟2。
-
来自首尔国立大学的Jaeseong Lee等人关注的是大型语言模型(LLMs)及其推理变体中的过度思考问题,即这些模型会生成不必要的长推理路径。他们提出了Gold-Switch策略,这是一种无需训练的叠加方法,用于平衡慢思考和快思考之间的关系。关键创新在于利用低秩近似从LLM参数中提取过度思考组件,可以按需应用以避免过度思考,同时保留推理能力。这种方法的价值在于它可以在不牺牲推理准确性的情况下显著提高效率,并且减少部署多个模型的成本。实验结果显示,在ASDIV、GSM8K、AIME和GPQA等数据集上,Gold-Switch相比RouteLLM实现了最高2.7倍的速度提升和0.6倍的时间消耗,同时在GSM8K上提高了1.7-3.7%的准确率3。
-
来自延世大学和OneLine AI的Minju Gwak等人探讨了大型语言模型(LLMs)在推理过程中是否进行了有效的推理,而不是仅仅生成表面连贯的文本。他们引入了基于熵的信息论度量来量化LLMs的推理结构,验证了Uniform Information Density(UID)假设的应用可能性。该研究的独特贡献在于首次应用信息理论原则来评估LLM生成的推理质量,特别是在挑战性的数学基准上。实验发现,具有低全局均匀性和高局部均匀性的推理轨迹更有可能产生正确的答案,这为理解LLMs的有效推理结构提供了新的视角。基于此,他们提出UID评分差异可以作为评估推理质量的可靠指标,有助于指导模型推理和评价的改进4。
技术趋势
在这一主题下,不同论文采用了多种技术路线来解决推理模型中的效率和准确性问题。MixReasoning和Gold-Switch都采取了动态调整推理深度的方法,但前者侧重于通过轻量级适配器控制推理模式,后者则通过低秩近似叠加快慢思考模型来减少过度思考。Shanks框架则是开创了一种全新的实时交互方式,让模型在接收输入的同时进行推理,显著提升了响应速度和交互体验。而Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces则专注于从理论上解析推理的质量,通过引入信息论度量来评估和指导模型的推理结构,为未来的模型设计和评估提供了新的视角。
数据集和评估
各论文使用的主要数据集包括:
- GSM8K
- MATH-500
- AIME24
- ASDIV
- GPQA
评估指标主要包括:
- 准确率:衡量模型生成正确答案的能力
- 计算效率:通过计算时间、内存需求和令牌使用量来衡量
- 实时交互性能:如中断用户的准确性及工具调用的成功率
- 推理结构的质量:基于熵的信息密度均匀性度量
这些数据集涵盖了数学问题求解、常识推理等多个领域,而评估指标则全面反映了模型在实际应用中的表现,从多角度验证了所提方法的有效性。
Topic 2: Large Language Models Development and Evaluation
主题概述
大型语言模型(Large Language Models, LLMs)的发展与评估是当前自然语言处理(NLP)领域的重要研究方向之一。随着LLMs在多个任务中的应用日益广泛,如何提升其性能、确保其公平性和可靠性成为关键问题。此外,对于特定语言如中文和泰语等非英语语言,如何构建高质量的数据集以评估这些语言模型的独特能力也备受关注。这些研究不仅有助于推进LLMs的技术进步,还能促进多语言环境下的AI应用更加均衡发展,提高模型在实际场景中的适用性和可靠性。
各论文贡献
-
来自北京人工智能研究院的Chengwei Wu等人研究了中文语料库缺乏结构化表示的问题,提出了Chinese Data-Text Pair (CDTP)数据集来解决这一挑战。该方法的主要创新点是引入了涵盖四个关键领域的700多万对齐文本对和1500万个三元组,以丰富中文语料库并提供针对知识驱动任务的细粒度评估框架。产生的价值在于提供了Comprehensive Benchmark for Evaluating Chinese Large Language Models (CB-ECLLM),用于评估中文LLMs的有效性、监督微调(SFT)及鲁棒性。在CDTP数据集上的实验表明,SFT可以显著提升模型在知识图谱补全(KGC)、三元组到文本生成(T2T)以及问答(QA)任务上的表现,尤其是对于较大的模型。5
-
来自慕尼黑大学机器学习中心的Philipp Mondorf等人研究了在大型语言模型中定位电路子网络的方法,提出了新的集成策略来解决这一问题。该方法的主要创新点是采用了平行和顺序集成技术,并结合EAP-IG-inputs方法来提高电路定位的准确性。产生的价值在于提供了一种更有效的电路定位方法,增强了模型的透明度和可解释性。在MIB基准测试集上的实验表明,混合集成策略取得了最佳效果,显示出较低的CMD得分和较高的CPR得分,证实了结合多种归因方法能够减少个体偏差,实现更稳健的电路定位。6
-
来自微软AI和加州河滨大学的Shangjian Yin等人研究了合成专家级数据集以优化大语言模型训练后对齐的问题,提出了PiKa数据集来解决这一挑战。该方法的主要创新点在于利用GPT-4o生成复杂且多样化的指令,旨在高效提升模型的指令跟随能力。产生的价值在于为开放源代码社区提供了高质量的数据集,通过比较展示了PiKa在数据效率和标准基准测试上的优越性能。在实验中,PiKa相较于其他数据集,在AlpacaEval 2.0和Arena-Hard等基准测试上实现了更高的胜率和长度控制胜率,特别是在较小模型上表现更为突出。7
-
来自南京大学的Zecheng Tang等人研究了奖励模型(RMs)在长上下文场景下的性能下降问题,提出了LongRM模型来解决这一挑战。该方法的主要创新点包括短至长数据合成技术和一致性多数投票方法,用于合成高质量训练数据。产生的价值在于设计了第一个能够评估长上下文条件下(长达128K令牌)RMs性能的基准Long-RewardBench。实验结果显示,经过训练的LongRM在长上下文场景下显著优于现有模型,甚至在某些情况下超过了更大规模的专有模型。8
-
来自Jasmine Technology Solution的Pontakorn Trakuekul等人研究了泰语大型语言模型性能不足的问题,提出了OpenJAI-v1.0模型来解决这一挑战。该方法的主要创新点在于提出的新数据整理方法和使用LLM作为评判者的质量控制过程。产生的价值在于填补了泰语文本处理的空白,同时提升了模型在指令跟随、多轮对话理解和工具使用等多个方面的表现。在多个基准测试上的实验结果表明,OpenJAI-v1.0在IFBench、MT-Bench、LongBench-v2和BFCL-v3等测试中均表现出色,显示了其在泰语和英语应用中的实用性。9
-
来自Shopee的Kaixiang Mo等人对大型语言模型中期训练进行了综述,提出了统一的中期训练范式来解决后期训练停滞的问题。该方法的主要创新点在于基于数据分布、学习率调度和长上下文扩展三个维度的分类法。产生的价值在于系统地回顾了中期训练的不同方面及其相互作用,强调了通过中期训练策略可以持续提升模型的推理、编码和长上下文理解能力。10
技术趋势
上述论文展示了几个主要的技术趋势:首先,对于中文和泰语等特定语言,构建高质量、结构化的数据集以评估和优化语言模型成为一个重要方向;其次,通过引入新的集成策略和合成数据方法,提升模型的性能和鲁棒性;再次,关注于模型的可解释性和公平性,通过调整损失函数或优化电路定位技术来减轻模型偏见;最后,探索长上下文处理的创新方法,如LongRM提出的短至长数据合成和一致性投票机制,以克服传统模型在长文本处理中的局限性。
数据集和评估
- CDTP: 包含700多万对齐文本对和1500万个三元组,用于评估中文LLMs。
- MIB: 用于评估电路定位方法的公共和私有测试集。
- PiKa: 由GPT-4o生成的合成指令数据集,用于评估LLMs的指令跟随能力。
- Long-RewardBench: 第一个评估奖励模型在长上下文条件下的基准。
- IFBench、MT-Bench、LongBench-v2、BFCL-v3和MMLU-ProX-lite: 用于评估OpenJAI-v1.0在不同任务上的表现。
- RewardBench: 用于评估短期上下文奖励模型的表现。
- AlpacaEval 2.0和Arena-Hard: 用于评估PiKa数据集的有效性。
- Multi-Document Question Answering (MDQA)和Key-Value Pair Retrieval (KVPR): 用于比较State Space Models (SSMs)和Transformer-Based Models (TBMs)在长上下文任务中的表现。
这些数据集和评估指标共同构成了评估LLMs性能的关键框架,从不同的角度和任务上验证了模型的有效性和鲁棒性。
Topic 3: Data Handling and Annotation
主题概述
Data Handling and Annotation 是人工智能领域的一个关键议题,特别是在大型语言模型(LLMs)的应用上。随着数据量的不断增长以及数据多样性的增加,如何高效、准确地处理和标注数据成为了确保AI系统可靠性和性能的重要挑战。尤其在涉及多语言、复杂多模态任务以及特定领域知识的情况下,数据处理和标注的难度进一步加大。这些研究不仅有助于提升模型的泛化能力,还能促进模型在特定应用中的表现,如隐私保护、法律文件检索、金融问答等,从而推动AI技术在多个领域的广泛应用和深入发展。
各论文贡献
-
来自Adobe Research的Qihua Dong等人研究了现有多模态大语言模型在处理复杂的指代表达时存在的组合推理缺陷,提出了CoT Referring (CoTR) 机制,通过借鉴Chain-of-Thought提示法,改善了模型解析和定位复杂指代表达的能力。该方法的主要创新点是开发了一种新的评估基准,专门用于复合指代表达,并引入了新的数据标签流水线。产生的价值在于提升了模型在处理复杂指代表达时的定位准确性。在Composite Referring Benchmark 上的实验表明,相比基线方法如GLaMM-7B和OMG-LLAVA-7B,RefLM 模型在IoU@Box和gIoU@Mask得分上均有显著提升11。
-
来自MaiNLP和LMU Munich的Elena Senger等人探讨了在没有大量人类标注数据的情况下,实现跨领域术语提取的挑战。他们提出了DiSTER 框架,利用合成数据和伪标签来训练较小的开源模型,以提高跨领域术语提取的鲁棒性。该方法的主要创新点在于结合了人工标注常见实体类型和LLM分类较少见类型的方法,以及域内数据增强策略。产生的价值在于提供了一个无需大量标注数据就能实现高质量术语提取的方法。实验结果表明,与基线方法相比,DiSTER 模型在多种标准基准测试中表现出色,尤其是在复杂领域如腐败和风能领域12。
-
来自University of Trento和Technical University of Darmstadt的Markus Reuter等人关注了在大规模法律文档数据集中应用RAG系统时出现的“文档级检索不匹配”问题。他们提出了一种名为Summary-Augmented Chunking (SAC) 的轻量级模块化技术,通过向每个文本块添加文档级摘要来改进检索质量。该方法的主要创新点在于引入了文档级摘要的概念,并开发了LegalBench-RAG 基准测试。产生的价值在于显著减少了文档级检索错误,提高了法律文档数据集中的文本片段检索精度和召回率。实验显示,与标准RAG方法相比,SAC 方法在各种法律文档数据集上的表现更好13。
-
来自KAUST的Zaid Alyafeai等人解决了科学论文元数据提取的准确性和效率问题。他们引入了MeXtract,一种轻量级的语言模型家族,用于从科学论文中提取元数据,并通过偏好优化技术保证输出符合特定格式要求。该方法的主要创新点在于其轻量级的设计以及分离了模式和指导原则,增加了灵活性。产生的价值在于实现了高效且准确的元数据提取,同时降低了模型大小。实验表明,MeXtract 模型在MOLE基准测试上的表现优于其他基线模型,包括更大的模型如Gemma 3 4B和Qwen2.5 3B14。
-
来自Salesforce AI Research的Zhepeng Cen等人解决了强化学习(RL)数据集在规模和多样性方面的不足,这对提高LLMs的推理能力至关重要。他们提出了Webscale-RL 数据管道,将大规模预训练语料库转换成多样化且可验证的RL数据集。该方法的主要创新点在于系统性地将预训练数据转化为RL数据,扩大了RL训练的数据范围。产生的价值在于提供了更高效的RL训练方法,使得LLMs在广泛的任务中表现出更强的推理能力。实验结果表明,使用Webscale-RL 数据训练的模型在多个基准测试中显著优于连续预训练和其他先进的数据精炼方法15。
-
来自NYU Shanghai的Yitao Long等人专注于解决LLMs在长形式金融问答中的幻觉问题,即生成与源内容不符的信息。他们引入了FinLFQA 基准测试,旨在评估LLMs生成可归属答案的能力。该方法的主要创新点在于包含了中间推理步骤和专业金融知识的评估。产生的价值在于提供了一个全面的评估框架,不仅衡量表面水平的指标,还评估事实准确性、数值正确性和归属质量。实验表明,开源模型如Qwen2.5-72B 和Llama-3.3-70B 在归属和推理任务上具有竞争力,而GPT-4o则在整体准确性和数值可靠性方面领先16。
-
来自University of Auckland的Timothy Pistotti等人探索了评估LLMs句法能力时存在的不一致性问题,尤其是对于寄生间隙(PGs)的理解。他们创建了一个包含33个精心设计项目的数据集,并提出了直接最小配对分析方法来测试LLMs的句法知识。该方法的主要创新点在于采用了更透明的评估方式。产生的价值在于提供了更加清晰的评估框架,帮助理解LLMs在处理复杂句法结构上的能力。实验结果显示,GPT-2 在所有四个测试条件中均显示出对填充-空位许可原则的强健理解,表明选择合适的评估指标对于评估LLMs的句法能力至关重要17。
-
来自Airbnb Inc.的Yisha Wu等人针对客服代理在处理多渠道复杂交互时遇到的低效问题,提出了实时增量笔记生成系统。该系统利用了细调过的Mixtral-8x7B语言模型和DeBERTa分类器来过滤非必要信息,并通过Agent-Edits Learning Framework将代理反馈整合到模型的在线和离线改进过程中。该方法的主要创新点在于引入了代理反馈机制,增强了系统的实用性。产生的价值在于提高了客服代理的工作效率,缩短了案例处理时间。实验表明,整合代理编辑反馈后的Mixtral-FB 模型在完整性、真实性和总体评分上均优于基线模型18。
-
来自1机构的Bharti Meena等人探讨了在多种监管环境下使用LLMs可靠处理个人身份信息(PII)的挑战,特别是对于那些语言资源有限的地区。他们提出了一种多阶段、人工参与循环的注释方法,结合语言学专业知识和严格的质量保证措施。该方法的主要创新点在于构建了一种处理多种语言PII注释的框架。产生的价值在于提供了一种有效减少注释错误并提高下游模型可靠性的方法。实验数据显示,大多数语言区域的假阳性率(FPR)有所下降,召回率(Recall)得到显著提升19。
-
来自University of Illinois Urbana-Champaign的Haofei Yu等人致力于解决自动研究工作流扩展和维护的复杂性问题。他们提出了TinyScientist,这是一个交互式、可扩展且可控的研究代理框架,旨在使高级研究工具更易于访问和使用。该方法的主要创新点在于引入了模块化的表格界面、工具集成协议和内置的安全及预算控制器。产生的价值在于提供了一个用户友好的Python包和交互式UI,提高了生成研究论文的质量。定量评估显示,在生物领域,TinyScientist 的写作质量和想法质量有了显著提升20。
技术趋势
这些论文展示了数据处理和标注技术在不同应用场景中的进展,包括多语言PII标注、多模态数据处理、无标签数据的利用、以及特定领域的数据处理。技术上,许多研究都采用了基于大语言模型的解决方案,通过迭代优化、合成数据生成、以及引入新的评估基准来提升模型性能。此外,人工参与循环(human-in-the-loop)和代理反馈机制被证明能够显著提高数据处理和标注的效率和准确性。
数据集和评估
- Scalable multilingual PII annotation for responsible AI in LLMs:未明确提及具体使用的数据集,但涉及了13种语言和约336种特定类型的PII。
- CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning:使用了Composite Referring Benchmark 和标准RES基准测试如refCOCO、refCOCO+、refCOCOg。
- Crossing Domains without Labels: Distant Supervision for Term Extraction:引入了SynTerm数据集,涵盖七个不同的领域。
- Towards Reliable Retrieval in RAG Systems for Large Legal Datasets:开发了LegalBench-RAG 基准测试。
- MeXtract: Light-Weight Metadata Extraction from Scientific Papers:扩展了MOLE基准测试,加入了模型特定的元数据。
- TWIST: Training-free and Label-free Short Text Clustering through Iterative Vector Updating with LLMs:未明确提及具体使用的数据集,但提到了多种基准测试和聚类算法(HDBSCAN和K-means)。
- FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering:构建了FinLFQA数据集,包含1,008个专家标注的实例。
- Exploring Gaps in the APS: Direct Minimal Pair Analysis in LLM Syntactic Assessments:生成了一个新的数据集,由Gemini 2.5生成,包含33个精心设计的项目。
- Incremental Summarization for Customer Support via Progressive Note-Taking and Agent Feedback:未明确提及具体使用的数据集,但进行了基于1,200个随机抽取生产案例的离线实验。
Topic 4: Machine Translation and Linguistic Robustness
主题概述
机器翻译和语言鲁棒性是自然语言处理(NLP)领域的重要组成部分,尤其是在科学文献和低资源语言翻译方面。随着全球化的推进和技术的发展,跨语言交流的需求日益增加,而这些需求不仅限于通用文本,还包括专业性和文化适应性强的文本。因此,研究如何提高机器翻译模型在面对特定领域或语言资源匮乏情况下的表现,以及如何使这些模型更加鲁棒以应对语言表达中的细微变化,对于推动科技交流、教育应用和多语言信息处理具有重要意义。
各论文贡献
-
来自Iris.ai的Nouman Ahmed等人研究了针对科学领域的词表示和分词方法的优化问题,提出了一个专门针对科学文献的词嵌入框架评价体系,利用Iris.AI的Abstracts数据集训练并评估词嵌入模型和分词方法。其主要创新点在于对科学领域数据集的专注分析,对比了低资源模型如Word2Vec与高计算模型如SciBERT的表现。该方法的实际价值在于通过科学领域特有的词嵌入和分词策略显著提升了词和句子相似度任务的性能,同时也为解决词汇外溢(OOV)问题提供了新的视角。在UNMSRS、SemEval和Clinical STS数据集上的实验表明,Skipgram方法训练的Word2Vec模型在200维向量空间中实现了最佳结果,Pearson相关系数分别为0.5032、0.6749和0.7588,而SciBERT在ChemDNER和SciERC数据集上分别达到了F-Beta分数0.5399和0.384121。
-
来自Huazhong University of Science and Technology的Qinhao Zhou等人关注了大型语言模型(LLMs)在特定自然语言生成(NLG)和理解(NLU)任务中的输入提示优化问题,特别聚焦于机器翻译。他们提出了Rewriting Original Inputs(ROI)方法,利用较小参数的语言模型通过反向翻译策略重写输入数据,使之更符合LLMs的偏好,并结合文本相似性过滤算法保证重写内容的语义一致性。此工作的独特之处在于首次系统地探讨了输入组件的优化,且无需修改LLMs本身,降低了计算成本。实验结果显示,ROI方法在多个翻译和摘要任务的数据集中均表现出一致的性能提升,如Medical数据集中BLEU分数提高了2.9,在Xsum摘要任务中RougeL分数增加了0.2822。
-
来自Saarland University的Toshiki Nakai等人致力于改善低资源语言到高资源语言的机器翻译质量,特别是在数据稀缺的情况下。他们引入了TRepLiNa方法,结合中心核对齐(CKA)和REPINA(一种正则化方法),在解码器为主的多语言大型语言模型(LLM)特定内部层中强制执行跨语言相似性。通过在MMLoSo基准测试中使用Aya-23 8B模型进行QLoRA基础微调,对比NoAlign和REPINA-only基线,实验结果证明TRepLiNa在低资源机器翻译中表现出色,尤其在零样本、少样本和微调设置下,对于Mundari–Hindi和Santali–English翻译,TRepLiNa在第15层达到顶峰,优于REPINA-only和NoAlign基线23。
-
来自University of Helsinki的Zihao Li等人探索了推理模型在机器翻译中测试时间缩放(TTS)的有效性,旨在提升翻译质量和处理长距离依赖的能力。他们提出了一种通过logits处理器实施‘思考令牌预算’的方法,用于调节推理过程,并在多个MT基准测试中比较了不同模型的表现,包括通用推理模型和领域特定微调模型。实验发现,TTS在直接翻译中对通用推理模型提供的益处有限,但对于领域特定微调模型,如DRT-7B、DRT-8B和DRT-14B,TTS在相同领域的任务中表现出明显的优势,而在通用模型如Qwen-3和Cogito上则结果参差不齐24。
-
来自Got It Education的Neeraja Kirtane等人研究了大型语言模型(LLMs)在数学推理任务中面对语言变异时的鲁棒性,尤其是保持准确性的同时处理不同的问题表述方式。他们开发了MathRobust-LV,一种评估LLMs在数学推理中对语言变异鲁棒性的新方法,包括520个数学问题的变体,来源于MATH数据集和AoPS过去的竞赛数学问题。此工作专注于高中水平的问题,揭示了模型对表面特征的依赖性大于深层次的理解。实验显示,虽然参数规模增大确实能提高绝对准确率和鲁棒性,但这种提升并不是线性的,小型模型在面对变体时表现尤为脆弱,而大型模型尽管相对稳定但仍面临显著性能下降25。
-
来自未提供完整信息的Elena Chistova等人致力于创建一个统一的修辞结构理论(RST)风格的语篇解析器,能够处理跨越不同语言和领域的语篇树库,同时保留各自的修辞关系清单。他们开发了UniRST,一种能够处理18个树库覆盖11种语言的解析器,并提出了两种训练策略:Multi-Head(MH)和Masked-Union(MU)。实验表明,数据增强技术显著提升了小规模树库的解析性能,而Masked-Union(MU)策略在效率和解析精度上都超越了Multi-Head(MH)策略,尤其是在重叠关系的处理上。总体而言,UniRST在18个单树库基线中的16个上实现了性能提升,特别是在Full F1分数上有所突破,尽管在跨域基准测试中没有显著改进26。
技术趋势
这些论文展示了多种技术路线和方法的演进,从词嵌入和分词方法的优化到输入提示的重写,再到跨语言和跨层次的对齐技术,以及推理模型在机器翻译中的应用。可以看出,研究者们正在探索如何通过创新的模型设计和训练策略来提升机器翻译的性能和鲁棒性,特别是在面对特定领域和低资源语言挑战时。此外,对模型鲁棒性的关注也反映出未来发展方向之一,即提高模型在处理语言表达变化方面的稳定性。
数据集和评估
这些论文使用了多样化的数据集和评估指标,如Iris.AI的Abstracts数据集用于评估词嵌入模型,Medical数据集用于评估输入提示优化的效果,MMLoSo基准用于评估低资源语言翻译,以及涵盖多个领域的MT基准测试用于评估推理模型在翻译中的表现。评估指标包括Pearson相关系数、BLEU分数、RougeL分数、F-Beta分数和Full F1分数等,这些都反映了不同任务的具体需求和挑战。
Topic 5: Human-AI Interaction and Collaboration
主题概述
Human-AI Interaction and Collaboration 是当前人工智能领域的一个热门话题,旨在通过人机协作优化各种任务的执行效率和质量。这不仅包括自动化科研流程,还包括提高语言模型的推理能力、安全性、以及在教育、医疗等关键领域的应用性能。这些研究对于推动人工智能技术的发展、提升其在复杂场景中的实用性具有重要意义。
各论文贡献
-
来自香港理工大学的Zhi Zhang等人研究了如何自动化科研过程中的计划制定与执行问题,提出了Double-Loop Multi-Agent (DLMA)框架来解决这一挑战。该方法的主要创新点在于利用双循环机制(领导循环和跟随循环)分别处理研究计划的进化与执行。产生的价值在于能够显著减少科研工作的劳动强度,并且在ACLAward和Laboratory数据集上证明了其相对于其他方法的优越性。实验结果表明,DLMA框架在新颖性和兴奋度方面表现出色,尤其是在提案的技术可行性方面获得了最高评分 27。
-
来自Mila实验室的Milad Aghajohari等人探讨了强化学习在训练具备复杂推理能力的大规模语言模型时遇到的计算成本增加的问题,提出了一个新的方法来缓解这一问题。尽管具体的实现细节未完全公开,但该工作的新颖之处在于解决了长链思考带来的状态空间无界问题,从而提高了模型在推理任务上的效率和性能 28。
-
来自香港浸会大学的Zhanke Zhou等人针对基础模型在特定领域推理能力不足的问题,提出了AlphaApollo系统,该系统通过整合专业工具和模型自我进化的能力来增强基础模型的推理性能。AlphaApollo的主要创新点在于其混合错误校正机制和Model Context Protocol (MCP),它在多个数学和编码基准测试上展示了显著的性能提升,特别是在AIME 2025上将Pass@32得分从23.33%提高到了46.67%,表明工具增强推理的有效性 29。
-
来自快手科技的Jiakang Wang等人关注了基于人类反馈的强化学习方法中重要性采样失配导致的学习信号扭曲问题,提出了Asymmetric Importance Sampling Policy Optimization (ASPO)方法。ASPO通过翻转重要性采样的比率并引入软双剪切机制,解决了传统方法中由于不平衡的令牌权重而导致的问题。该方法在数学和编程基准测试上表现优于其他基线方法,提升了训练稳定性和性能 30。
-
来自帝国理工学院的Matthieu Bou等人提出了一种名为The Alignment Auditor的贝叶斯框架,用于验证和调整大型语言模型的目标。这个框架通过量化和系统地减少非唯一性,提供了更加透明的方法来理解模型内部化的目标。实验结果显示,该框架能够有效恢复不确定性感知的奖励信号,有助于识别和减少模型的偏见 31。
-
同样来自帝国理工学院的Nyal Patel等人提出了Failure-Aware Inverse Reinforcement Learning (FA-IRL),一种新的算法,专门利用模型失败的案例来推断更精确稳定的奖励函数。FA-IRL通过纠正头部处理失败的方式,引入了双路径奖励模型,提高了模型在安全性和事实准确性方面的表现。实验表明,FA-IRL在多个基准测试上显著减少了训练过程中的方差,并且能够捕捉到细微的毒性信号 32。
-
来自剑桥大学的Xuhang Chen等人解决了多代理辩论(MAD)系统中冗余内容和重复共识点的问题,提出了Self-Signal Driven Debate (SID)框架。SID框架通过利用内部信心和语义焦点信号,增强了MAD系统的效率和性能。实验结果显示,SID在多种数据集上都比现有的MAD方法表现更好,同时减少了高达40%的令牌消耗 33。
-
来自香港科技大学(广州校区)的Haotian Wu等人开发了一个名为FURINA的角色扮演对话代理评估框架,以解决现有评估框架的局限性。FURINA允许自动构建全定制化的角色扮演基准测试,涵盖了不同的对话结构和评价维度。实验发现,更大的模型在角色扮演任务中表现更好,而开放性和关系导向的问题类型更能促进高级思维能力的培养 34。
-
来自上海交通大学的Boyi Zeng等人介绍了AWM,一种无需训练的语言模型指纹识别方法,用于验证语言模型是否由零开始训练或基于已有模型进行改进。AWM的主要创新点在于利用线性分配问题(LAP)和中心核对齐(CKA)相似度来创建一个稳健且高保真的相似度度量。实验显示,AWM在识别相关和无关语言模型方面表现出色,且在各种后训练修改下仍保持高度的鲁棒性 35。
-
来自特伦托大学的Leonardo Bertolazzi等人研究了大语言模型在逻辑推理任务中将合理性与逻辑有效性混淆的问题。他们提出了一个新的表示分析方法,使用特定指标如内容效应(CE)和引导力(SP)来量化这种偏差,并提出干预措施减少偏差。实验表明,使用引导向量可以显著提高模型的推理准确性,减少内容效应,尤其是在Qwen3-14B模型上几乎消除了逻辑判断偏差 36。
-
来自卡内基梅隆大学的Yunzhong Xiao等人提出了一种名为ToolMem的框架,旨在增强多模态代理的工具能力记忆。ToolMem允许代理根据不同的任务动态选择最合适的工具,从而提高任务完成的效率和质量。实验结果显示,ToolMem在预测工具性能上有着显著的改进,特别是在文本生成和图像生成任务上 37。
-
来自加州大学河滨分校的Shangjian Yin等人提出了一种名为Self-Alignment Optimization (SAO)的全自动生成方法,用于大规模语言模型的人类偏好对齐。SAO框架使模型能够自动生成提示和响应,并通过自我判断来优化这些响应,降低了对外部数据收集和标注的需求。实验表明,SAO在多个基准测试上显著提高了模型的表现,尤其是在没有依赖外部标签的数据集的情况下 38。
-
来自Bridge-AI实验室的R. Alexander Knipper等人研究了虚拟实验室环境中第三方教学材料与教师教学目标之间的不匹配问题,提出了一种新的框架来确保生成的问题与教师的教学目标紧密相关。实验结果表明,较大的模型和特定级别的提示能够产生更高质量的问题,尤其在开放性问题和关系型问题中表现更为突出 39。
-
来自伦敦大学学院的Mingxuan Wang等人提出了一种名为TokenChain的离散语音链方法,用于改善自动语音识别(ASR)和文本到语音(TTS)系统的性能。TokenChain的核心创新在于使用离散令牌代替连续中间体,结合语义令牌建模,提高系统的整体效率和准确性。实验表明,TokenChain在LibriSpeech和TED-LIUM数据集上比基线方法更快收敛并且误差率更低 40。
-
来自快手科技的Chenpeng Wang等人讨论了工具增强型语言模型在多回合决策任务中的可扩展性和可靠性问题,提出了一种名为Model-as-Tools Reasoning (MTR)的模拟优先训练框架。MTR通过模拟工具交互来避免实时API访问的限制,提高了模型在复杂推理任务上的性能。实验结果显示,MTR在四个多跳问答基准测试上表现良好,特别是在Bamboogle上达到了40.0%的准确匹配得分,超过了最强基线方法 41。
技术趋势
在Human-AI Interaction and Collaboration领域,当前的研究主要集中在以下几个方面:1) 自动化科研流程,通过多智能体协作来优化研究计划的制定与执行;2) 改善大语言模型在复杂推理任务中的性能,包括数学推理和编程任务,通过引入新型的强化学习策略和工具辅助机制;3) 提升模型的安全性和可靠性,通过逆向强化学习和贝叶斯框架来更好地理解和控制模型的行为;4) 增强虚拟教育环境中的互动性,确保生成的内容与教学目标一致,以及5) 利用离散令牌建模来改善语音识别和合成系统的性能。这些研究体现了从单一模型到多智能体协作、从静态模型到动态适应、以及从依赖外部数据到利用内部机制进行优化的趋势。
数据集和评估
这些论文使用的数据集涵盖了科学文献、数学推理、编程任务、毒性检测、多模态生成等多个领域,包括但不限于ACLAward、Laboratory、AllenAI RealToxicityPrompts、Jigsaw Toxicity、LibriSpeech、TED-LIUM、AlpacaEval 2.0、MT-Bench、Arena-Hard、GenAI-Bench、BiGGen Bench、HotpotQA、MuSiQue、2WikiMultiHopQA、Bamboogle等。评估指标多样,包括准确率、召回率、F1分数、ROC-AUC、STARC、字符错误率(CER)、词错误率(WER)、平均绝对误差(MAE)、均方根误差(RMSE)、Pearson相关系数等。这些数据集和评估指标共同构成了评估大语言模型及其相关应用的有效体系。
Topic 6: Bias and Fairness in AI
主题概述
AI中的偏见与公平性是一个至关重要的研究领域,它关注于如何确保人工智能系统在设计、训练及应用过程中不带有任何形式的歧视或偏见,避免不公平的结果。这一主题的研究对于提升AI系统的可信度和伦理标准具有重要意义,尤其是在语言模型、对话系统和强化学习等复杂场景的应用中。通过减少偏见并提高公平性,可以更好地保障AI技术在社会各个层面的广泛应用,促进其健康发展。
各论文贡献
-
来自香港中文大学的Mingkang Zhu等人研究了在大规模语言模型(LLM)搜索代理中的跨层次偏差问题,提出了Stratified GRPO来解决这个问题。该方法的主要创新点是引入了分层优势归一化(SAN),将轨迹根据结构属性划分为同质层次,并在每个层次内部计算优势。这种方法确保了轨迹只与其真正的同辈进行比较,从而消除了跨层次偏差。其产生的价值在于提供了处理结构异质性的原则性方法,增强了LLM搜索代理的训练过程和性能。在七个不同的问答基准测试上的实验表明,Stratified GRPO在平均性能上比GRPO基线高出最多11.3个百分点,显示了更高的训练奖励、更大的训练稳定性和更有效的搜索策略学习。42
-
来自米兰理工大学和中国科技大学的Geng Liu等人研究了中文大规模语言模型(LLM)中的社会身份偏见问题,特别关注性别代词和社会群体。该论文带来了显著的价值,因为它引入了一个针对汉语的评估框架,用于检测LLM中的社会身份偏见,扩展了以前以英语为中心的方法。作者开发并利用了一个包含超过297,600个生成文本的数据集,系统地评估了基础和指令调优的中文LLM的偏见情况。此外,论文还通过分析WildChat语料库中的自然对话,提供了对偏见表达的更广泛理解。实验揭示了中文LLM表现出系统性的社会身份偏见,特别是在预训练模型中对外群体表现出更强的敌意。这些发现提示我们需要更加细致地考虑文化差异和社会偏见对LLM的影响。43
-
来自微软研究院和佐治亚理工学院的Tarek Naous等人探讨了现有方法在模拟多轮对话中真实人类用户行为方面的不足。该方法的主要创新点是专门训练用户语言模型(User LMs),以更真实地反映用户的意图和对话状态。其价值在于提供了一种更贴近现实的方法来评价助理语言模型(LMs)的表现。通过使用WildChat和PRISM等数据集进行评估,UserLM-8b在生成多样且抽象的第一轮话语、分解多轮对话中的意图以及识别何时结束对话方面表现优于基线模型。44
-
来自牛津大学计算机科学系的Elle研究了奖励模型(RMs)在引导语言模型(LMs)行为时可能存在的社会人口统计学偏见。该论文提出了一种框架,用来测量奖励模型所捕获的意见与不同人口统计学群体之间的对齐程度,并探索了提示词如何影响奖励模型的倾向。主要创新点在于首次系统地分析了RMs的视角及其与不同社会群体之间的对齐情况。实验结果表明,RMs确实存在显著的社会人口统计学偏见,而仅靠上下文学习并不能有效纠正这种偏见。这表明未来需要更多的研究来确保RMs能够代表多样化的思想和观点。45
-
来自鲁汶大学的Fan Zhou等人研究了如何使用扩散模型生成具有特定属性的风格化文本的问题,提出了RegDiff框架。该方法的主要创新点是在训练阶段引入属性正则化,无需在采样时使用预训练分类器。RegDiff使用基于VAE的编码器-解码器架构保证重构保真度,并通过带有属性监督的潜在扩散模型实现可控的文本生成。实验结果显示,RegDiff在多个评估指标上优于Qwen2-0.5B、FLAN-T5-base和ParaGuide等基线方法,在风格转换准确性、语义相似性和流畅度等方面均表现优异。46
技术趋势
在处理AI中的偏见和公平性问题时,当前研究趋势集中在几个关键技术路线上:一是强化学习中的结构化偏差处理,如通过局部计算优势来减少跨层次偏差;二是语言模型中的社会身份偏见检测与评估,特别是针对非英语语言环境下的偏见分析;三是用户行为模拟的创新方法,通过训练专门的用户模型来模拟真实用户的行为;四是奖励模型的视角分析,研究奖励模型如何反映和可能放大社会偏见;五是扩散模型中的属性控制,通过在训练阶段引入属性正则化来实现更高效的文本生成控制。这些方法不仅展示了各自的技术创新,也反映了当前AI研究领域对于减少偏见和提高公平性的重视。
数据集和评估
在本主题的论文中,使用的数据集涵盖了广泛的场景,包括问答基准、自然对话语料库WildChat、PRISM等。评估指标则涉及训练奖励、训练稳定性、搜索策略有效性、意见对齐度、对话终止的F1分数、独特性分数、意图一致性、风格转换准确性、语义相似性和文本流畅度等,旨在全面衡量模型的性能和公平性表现。
Topic 7: Security and Privacy
主题概述
在当前快速发展的AI领域,大型语言模型(LLMs)的安全性和隐私保护成为了一个备受关注的研究主题。随着LLMs的应用范围越来越广,从内容生成到信息检索,再到自然语言处理中的各种任务,它们不仅面临着传统的安全威胁,如数据泄露和模型盗窃,还遇到了新的挑战,比如通过操纵网络内容进行的中毒攻击、生成式抄袭、搜索链接攻击等。此外,LLMs在特定领域的应用,例如医疗记录和个性化推荐系统中,也面临着如何平衡隐私保护与模型性能的问题。这些研究对于维护信息安全、防止滥用AI技术以及确保用户隐私至关重要。
各论文贡献
-
来自QueryLift Inc.的Riku Mochizuki等人研究了Generative Engines(GEs)在政治领域对中毒攻击的脆弱性,提出了一个分类器λ(c),将GEs引用的网络来源分为初级和次级信息源,并进一步细分次级信息源类别,如媒体、平台、学术界等,以评价GEs生成答案的质量。该方法的主要创新点是引入了出版商属性作为评价标准之一,产生的价值在于提供了一种更细致的方法来评估GEs的引用内容及其可靠性。在实验中,他们发现日本和美国的GEs在引用模式上有显著差异,尤其是在依赖不同类型的信息来源上。实验结果表明,增加初级信息来源的网络内容暴露可以有效减轻中毒攻击的影响47。
-
来自NEC Corporation的Junki Mori等人研究了Retrieval-Augmented Generation(RAG)系统在处理敏感信息数据库时的隐私风险,提出了Differentially Private Synthetic文本生成方法(DP-SynRAG),通过关键词和文档嵌入的软聚类及私有预测机制生成合成文本。该方法的主要创新点是在生成合成数据时考虑隐私保护,且生成的数据可以重复利用而不消耗额外的隐私预算。产生的价值在于增强了RAG系统的隐私保护能力,同时维持了高实用性。在三个不同的数据集(Medical Synth, Movielens, 和SearchQA)上,DP-SynRAG相较于其他方法表现出了更高的准确性,特别是在隐私预算有限的情况下48。
-
来自Hanoi University of Science and Technology的Phuong Tuan Dat等人研究了提高自动说话者验证(ASV)系统中合成语音检测的能力,提出了一种名为XLSR-Kanformer的新方法,通过集成Kolmogorov-Arnold Networks(KANs)替换传统多层感知机(MLPs)组件,用于改进SSL(Self-Supervised Learning)架构内的特征学习和鲁棒性。该方法的主要创新点在于将KANs应用于SSL架构,产生的价值在于提高了合成语音检测的准确率和效率。实验结果表明,XLSR-Kanformer在ASVspoof2021数据集上的等错误率(EER)和最小t-DCF指标上都优于多个现有方法49。
-
来自Zhejiang University的Shuo Shao等人研究了如何在黑盒条件下可靠地识别第三方大型语言模型(LLMs)是否源自受版权保护的原始模型,提出了一种基于零阶梯度估计的新型黑盒LLM指纹识别框架ZeroPrint。该方法的主要创新点是利用梯度作为指纹特征,并采用语义保存的查询变体。产生的价值在于提供了比现有方法更为有效的指纹识别方式。实验结果显示,ZeroPrint在LeaFBench基准测试中表现出色,在多个评价指标上超越了其他最先进的黑盒指纹识别方法50。
-
来自Mila, Québec AI Institute的Prateek Humane等人研究了如何定义用于改善大型语言模型(LLMs)推理能力的chain-of-thought(CoT)数据的质量,提出了基于影响函数(IFs)的方法,用于评估训练样本对下游任务准确性的因果影响。该方法的主要创新点是影响函数引导的数据修剪策略,产生的价值在于提高了LLMs在数学推理任务上的性能。实验表明,在GSM8k和OlympiadBench等数学推理基准上,影响函数引导的数据修剪策略优于随机数据选择和其他过滤方法51。
-
来自Georg-August-Universität的André Greiner-Petter等人研究了如何检测由大型语言模型(LLMs)自动生成并未经适当引用的内容,即生成式抄袭。该方法的主要创新点是构建了一个专门针对生成式抄袭的新数据集,并利用LLMs进行语义相似性分析。产生的价值在于提升了在AI生成内容情境下的抄袭检测能力。实验显示,ZeroPrint在新构建的数据集上表现优异,显著降低了敏感信息的泄露风险52。
-
来自Norwegian Computing Center的Pierre Lison等人研究了如何防止对去标识化文档进行搜索链接攻击,提出了一种使用反转索引和指令调整的LLM来重新表述文档中的N-gram的方法。该方法的主要创新点是专注于链接攻击,而不仅仅是重新标识化风险。产生的价值在于加强了去标识化文档的隐私保护。实验表明,该方法能有效减少N-gram链接风险,同时保持较高的语义相似度和流畅度53。
-
来自Zhejiang University的Rohitash Chandra等人研究了流行音乐中滥用和不适当内容的时间趋势分析,利用深度学习技术和LLMs(如BERT和RoBERTa)进行了详尽的分析。该方法的主要创新点是引入了历史和时间序列分析,填补了现有研究的空白。产生的价值在于提供了一种适应性强的方法来分析和监测音乐歌词中的不适当内容。实验揭示了自1990年以来,Billboard音乐榜单中不适当内容的比例显著上升,最高达到65%,这表明了深入分析的重要性54。
-
来自Czech Technical University in Prague的Muris Sladić等人研究了AI驱动的欺骗框架VelLMes,旨在通过LLMs模拟多种网络协议和服务,提高欺骗系统的互动性和现实感。该方法的主要创新点是扩展了LLM的欺骗应用范围,并通过人类攻击者实验进行了评估。产生的价值在于提供了更加互动和逼真的欺骗手段。实验结果显示,大约30%的人类攻击者误以为LLM模拟的服务是真实的,证明了其在欺骗中的有效性55。
-
来自Czech Technical University in Prague的Aisha Alansari等人提供了一份关于LLMs幻觉现象的综合调查,探讨了幻觉产生的原因、检测方法和缓解策略。该方法的主要创新点在于详细分析了幻觉现象在整个LLM开发生命周期中的产生原因,并强调了多语言和低资源环境下的挑战。产生的价值在于为未来的研究指明方向,帮助开发者设计更可靠的LLMs。虽然没有具体的实验结果,但该综述为理解幻觉问题提供了宝贵的见解56。
技术趋势
本主题下的研究主要集中在利用LLMs进行信息检索、内容生成、以及网络安全防御等多个方面。技术创新包括基于梯度估计的黑盒模型指纹识别、结合差分隐私的合成数据生成、改进的语音合成检测技术、影响函数引导的数据优化策略、高级文本重写技术以避免搜索链接攻击、深度学习和LLMs的组合以分析音乐歌词的不适当内容、以及使用LLMs模拟多种网络服务以提高欺骗系统的互动性等。这些研究展示了LLMs在不同应用场景中的潜在风险及应对策略的发展趋势。
数据集和评估
- Exposing Citation Vulnerabilities in Generative Engines 使用了未具体说明的数据集。
- Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG) 使用了Medical Synth, Movielens, 和SearchQA数据集。
- XLSR-Kanformer: A KAN-Integrated model for Synthetic Speech Detection 使用了ASVspoof2021数据集。
- Reading Between the Lines: Towards Reliable Black-box LLM Fingerprinting via Zeroth-order Gradient Estimation 使用了LeaFBench数据集。
- Influence Functions for Efficient Data Selection in Reasoning 使用了LIMO数据集。
- Overview of the Plagiarism Detection Task at PAN 2025 使用了PAN12和新构建的数据集。
- Protecting De-identified Documents from Search-based Linkage Attacks 使用了13,759份英文欧洲人权法院(ECHR)案件的文档。
- Language models for longitudinal analysis of abusive content in Billboard Music Charts 使用了SenWave和RAL-E数据集。
评估指标包括等错误率(EER)、最小t-DCF、准确率、召回率、AUC、pAUC、TPR@1%FPR、MD、平均排名、困惑度(Perplexity)、坏词比率(Bad Word Ratio)、plagdet评分等,反映了不同研究场景下的特定需求。
Topic 8: Knowledge Representation and Information Extraction
主题概述
知识表示与信息抽取(Knowledge Representation and Information Extraction)是人工智能领域中的关键课题,它们共同致力于提高机器理解和处理人类语言的能力。通过有效的知识表示,可以更好地组织和存储信息,而信息抽取则是从非结构化或半结构化的文本中自动提取出有用的信息。这一领域的研究对于提升AI系统的推理能力、可靠性和透明度至关重要,尤其在复杂任务如事实核查、问答系统和逻辑推理等方面有着广泛的应用前景。
各论文贡献
-
来自UIUC和Amazon的Jiaru Zou等人研究了大型推理模型(LRMs)在表格推理任务中难以获得可靠步骤级监督的问题,特别是表区域检索和长距离依赖处理的挑战。他们提出了TaTToo,一种集成工具能力的新型表思考过程奖励模型(PRM),用于提供精确的监督。这种方法的主要创新点是其双阶段训练方案,结合了监督微调(SFT)以捕捉推理和工具使用模式,以及带有定制奖励塑造方案的强化学习(RL)。通过创建大规模的数据整理管道,生成超过60k高质量的监督实例,该工作填补了现有PRM监督表操作的不足。实验结果显示,TaTToo显著提升了下游策略模型的性能,平均提高了30.9%,并且在多种测试时间扩展策略中均表现出色。57
-
来自ScaDS.AI Dresden/Leipzig和TU Dresden的Luca Giordano和Simon Razniewski研究了将大语言模型(LLMs)内部隐含的事实知识转换为结构化显式格式的挑战,特别是GPTKB方法在递归知识提取方面的应用。他们引入了miniGPTKBs的概念,即特定领域的LLM知识库子爬取,以及首次证明了GPTKB方法的终止性,并开发了一种系统的方法来评估不同主题、语言、温度和模型的知识提取再生产性和鲁棒性。这些工作的独特之处在于它提供了对LLM知识材料化基础层面的全面审视,并提出了一系列度量标准来比较不同运行的产出。实验显示,通过集成技术,输出稳定性得到显著提高,语义相似度和匹配率显著增加。58
-
来自Idiap Research Institute、École Polytechnique Fédérale de Lausanne (EPFL) 和其他机构的Lei Xu等人探讨了当前神经符号方法在自然语言处理(NLP)中静态整合特定形式逻辑解算器的限制。他们提出了一种适应性的多范式神经符号推理框架,能够动态选择并应用不同的逻辑解算器。该框架利用大型语言模型(LLMs)进行问题分解、路由和自动形式化,克服了架构上静态解算器整合的约束。通过广泛的实验,该框架展示了在多个基准测试上预测所需形式推理策略的高准确性,尤其是在涉及多范式形式推断的序列推理任务中表现尤为出色。59
-
来自未指定机构的Jiqun Pan等人关注于提升工业问答系统中的安全性和可靠性。他们提出了**Knowledge Graph-guided Multi-Agent System Distillation (KG-MASD)**框架,该框架通过将结构化的知识图谱先验融入到多智能体蒸馏过程中,增强了工业问答系统的推理能力和输出可靠性。此方法重新定义了蒸馏作为马尔可夫决策过程(MDP),并通过知识图谱丰富状态表示以确保收敛。实验结果表明,与其它多智能体辅助蒸馏方法和单一语言模型蒸馏基线相比,KG-MASD在BLEU-4、ROUGE-1、ROUGE-2和ROUGE-L等指标上表现更佳,显著提高了模型的可靠性和准确性。60
-
来自Savassan的Cheonkam Jeong等人探讨了当代语言模型在处理语言输出中的不同类型含义时存在的问题,这些问题导致了诸如幻觉、脆弱的内容审核和不透明的合规性结果等现象。他们建议采用Montague语法作为稳健类型系统来编码语义理解,从而将AI系统与伦理和法律标准的对齐视为解析问题,其中自然语言输入被编译成明确表示描述性、规范性和法律维度的结构化形式。这项工作的创新之处在于其聚焦于类型理论语义学,而不是仅仅依靠数据和规模来改进AI能力。61
技术趋势
这些论文展示了几种不同的技术路线和技术进步。首先,通过引入工具辅助和双阶段训练方法,如TaTToo,解决了现有PRM在监督表操作上的局限性。其次,通过系统地评估知识提取的再生产性和鲁棒性,如Giordano和Razniewski的工作,为提升LLM知识材料化的质量和可靠性提供了新视角。第三,Xu等人提出的动态逻辑求解器组合方法,代表了神经符号推理领域的一个重大突破,使得系统能更加灵活地应对各种推理任务。第四,Pan等人的KG-MASD框架,通过将知识图谱与多智能体系统相结合,推动了工业级问答系统的可靠性和安全性。最后,Jeong等人提出了基于Montague语法的类型理论语义学,为处理复杂的语义结构提供了新的理论基础。
数据集和评估
- TaTToo:使用了五个表格推理基准进行实验。
- Foundations of LLM Knowledge Materialization:构建了三个主题的miniGPTKBs,包括Ancient Babylon、The Big Bang Theory和DAX 40,同时使用了相关数据和代码。
- Adaptive LLM-Symbolic Reasoning:利用了ProntoQA、ProofWriter、FOLIO、LogDed7和TRECtrials等涵盖不同推理任务类型的多样化数据集。
- Knowledge Graph-Guided Multi-Agent Distillation:构建了第一个具有垂直领域注释的工业问答数据集和大规模工业知识图谱,用于评估模型的可靠性。
- The Algebra of Meaning:未提及具体使用的数据集,但讨论了法律知识图谱作为导航语义空间的概念。
Topic 9: Evaluation and Benchmarking
主题概述
评估和基准测试(Evaluation and Benchmarking)是人工智能领域的一个关键研究方向,旨在通过设计特定场景和任务来衡量和比较各种AI模型的能力。这些研究不仅帮助理解模型在特定领域的性能表现,还能揭示模型在处理复杂任务时的局限性,并指导未来的研究与开发。对于不同的应用场景,如文本生成、图像识别、语音转文字等,合适的评估方法和基准测试能够促进AI技术在真实世界中的应用和优化。
各论文贡献
-
来自纽约大学的Yitao Long等人研究了基础模型在推理和规划方面的评估,提出了PuzzlePlex来解决评估这些模型在复杂动态环境下的推理能力的问题。该方法的主要创新点是其多样化的拼图类型和对多模态任务的支持,产生的价值在于提供了一个全面且灵活的框架,可以随着模型的发展生成更难的任务实例。在PuzzlePlex数据集上的实验表明,DeepSeek-R1在指令设置下获得了最高的标准化分数0.62,而GPT-4.1在代码设置下表现最佳,尽管它不是一个推理模型。研究发现,虽然开源模型正在缩小与专有系统的性能差距,但所有模型仍然面临在延长上下文和多跳推理任务中保持连贯推理的挑战。62
-
来自香港科技大学的Mingzhe Zheng等人研究了大语言模型在电影剧本生成方面的能力和改进,提出了CML-Bench来评估并提高LLMs生成电影脚本的质量。该方法的主要创新点是引入了专门的数据集和九个衡量对话连贯性、角色一致性及情节合理性的新指标。产生的价值在于为评估电影剧本质量提供了系统化的方法和标准。实验显示,Qwen3-30B在叙述创新(PR3)上得分最高,几乎达到人类水平,证明了CML-Bench的有效性和可靠性。63
-
来自意大利罗马德国研究所和博洛尼亚大学的Maria Levchenko研究了大语言模型在历史文档光学字符识别(OCR)上的应用评估,提出了针对历史文档OCR任务的评估框架。该方法的主要创新点在于引入了新的评估指标,如历史字符保存率(HCPR)和古语插入率(AIR),以及污染意识的数据集创建协议。产生的价值在于填补了评估LLMs在处理历史文档OCR任务时所需的方法论空白。实验表明,Gemini-2.5-Pro模型在全页模式下表现最佳,具有最低的字符错误率(CER)。64
-
来自多个机构的Vaibhav Srivastav等人研究了自动语音识别(ASR)系统的标准化、透明和全面评估问题,提出了Open ASR Leaderboard。该方法的主要创新点是提供了一个交互式排行榜,用于比较超过60种开放源码和专有ASR模型在11个数据集上的表现,这些数据集涵盖多种语言和长段落语音识别。产生的价值在于使开发者和用户能够基于准确性和效率做出更加明智的选择。实验结果揭示了模型在短文本英语转录和长文本转录之间的性能差异,以及自监督学习方法在多语言支持上的局限性。65
-
来自曼斯特理工大学的Manuel Frank等人研究了句子嵌入模型过度拟合静态基准的问题,提出了Paraphrasing Text Embedding Benchmark(PTEB)来解决这一问题。该方法的主要创新点是利用先进的生成型LLMs在评估时动态地创建随机同义词变体,以测试模型的语义不变性。产生的价值在于提供了一种更健壮且不易受污染的评估方案,有助于揭示模型的真实性能。实验表明,embeddinggemma-300m模型在PTEB上的表现下降最小,这可能意味着它在面对同义词变化时更为稳定。66
-
来自Lowe’s的Pranav Gupta等人研究了缺乏高质量训练和评估数据集的问题,特别是针对STEM教育的大语言模型。他们提出了OpenStaxQA,这是一个基于43本开放源码大学教科书的多语言数据集,覆盖了英语、西班牙语和波兰语等多种语言。该方法的主要创新点在于专注于大学教材的章节末尾练习,并提出了一种结构化的数据集创建方法。产生的价值在于为LLMs在STEM教育中的应用提供了更复杂且具体的训练材料,促进了模型性能的提升和适用性的扩展。实验结果显示,经过OpenStaxQA数据集微调的
Llama2-7b-hf
和Llemma-7b
模型在类似任务上表现出色,但在零样本AI2RC数据集上的表现有所下降。67
技术趋势
这些论文展示了评估和基准测试领域内几种不同的技术趋势:一是通过设计特定的任务或数据集来评估模型在某一领域的表现;二是引入新的评估指标,以弥补传统评估方法的不足;三是利用大型语言模型的生成能力,动态地创造评估条件,以测试模型的鲁棒性和适应性。此外,也有研究关注模型的泛化能力,尤其是在多语言环境下的表现。
数据集和评估
- PuzzlePlex:包含15种精心挑选的拼图类型,用于评估模型的推理和规划能力。
- CML-Dataset:从100部经典高评分电影剧本中提取,作为评估电影剧本生成质量的基础数据集。
- 1,029页扫描页的18世纪俄罗斯书籍数据集:用于评估LLMs在历史文档OCR任务中的表现,引入了HCPR和AIR等新评估指标。
- Open ASR Leaderboard:包括11个多语言数据集,用于评估ASR模型的准确性和效率,采用WER和RTFx作为主要评估指标。
- PTEB:利用LLMs在评估时动态生成同义词变体,测试模型的语义不变性。
- OpenStaxQA:基于43本开放源码大学教科书构建,涵盖了英语、西班牙语和波兰语等多个语言版本,用于评估LLMs在STEM教育中的表现。
Topic 10: AI Ethics and Societal Impact
主题概述
人工智能伦理与社会影响(AI Ethics and Societal Impact)是当前AI领域研究的重要分支,它关注如何确保AI系统的开发和应用符合道德规范和社会期望。这一主题的研究不仅涉及到AI技术本身的发展,还包括AI系统如何适应不同的文化背景、用户偏好以及在特定应用场景中的表现,以促进AI系统的安全性和有效性。通过改善AI系统的解释能力、价值导向和用户体验,这些研究有助于构建更加负责任且具有广泛适用性的智能系统。
各论文贡献
-
来自MIT CSAIL的Angie Boggust等人研究了大型语言模型(LLM)特征自动化解释的精度和一致性问题,提出了语义正则表达式(Semantic Regexes)作为一种结构化语言来捕捉LLM特征的多样激活模式,并提供简洁一致的描述。该方法的主要创新点是利用结构化语言来提高特征描述的准确性、简洁性和一致性,从而解决现有自然语言方法的局限性。在GPT-2-RES-25k、Gemma-2-2B-RES-16k和Gemma-2-2B-RES-65k特征上的实验表明,相比自然语言描述,语义正则表达式在九个测试特征中表现更优,帮助用户更好地理解和干预模型行为68。
-
来自University of Washington和Carnegie Mellon University的Kshitish Ghate等人探讨了大型语言模型和奖励模型在适应多样化用户价值观和风格偏好方面的不足。他们引入了EValueSteer,一个旨在测量奖励模型向用户定义的价值观和风格偏好的引导能力的基准。此方法的创新之处在于其能够评估AI系统与人类价值观及偏好之间的对齐程度,填补了现有对齐度量标准未考虑引导能力的空白。实验结果表明,带有完整用户上下文的奖励模型在识别价值观和风格方面表现出显著提升,特别是在处理价值冲突时,显示出对风格偏好的偏好。此外,较大的LLM作为裁判模型更容易受到价值观的影响,而基于分类器的模型在风格偏好上表现更好69。
-
来自University of Illinois Urbana-Champaign的Kaichun Yang等人研究了不同大型语言模型在图表解读任务中的性能差异及其对提示策略的响应。他们比较了GPT-5、GPT-4o和GPT-4V在CHART-6基准的困难子集上的表现,并引入了一种使用GPT-5生成详细图表描述的方法,用于探索是否能通过改进提示策略来提升模型性能。统计分析显示,模型类型对正确性有着显著的影响,而提示条件的影响较小。值得注意的是,GPT-5在所有数据集中都表现出色,但增加详细图表描述有时反而降低了复杂任务上的准确性。这表明,在某些情况下,过于详细的视觉信息可能干扰模型的理解能力70。
-
来自Google Research的Renee Shelby等人针对现有用户行为分类法未能充分反映人类与AI交互的复杂性和多样性的问题进行了研究,提出了Taxonomy of User Needs and Actions(TUNA),一个涵盖用户需求和行动的多层次分类法。TUNA包括57种请求类型,映射到14种不同的策略和六种高层次交互模式。研究方法采用了迭代的混合方法,结合真实世界的人类-AI对话数据和相关文献的概念审查。TUNA的提出不仅解决了捕捉微交互细节和广泛行为模式的问题,还特别适用于开放领域的AI对话。通过对1193份公开对话记录的分析,研究揭示了各种用户策略如信息检索、内容创作和程序指导,并验证了TUNA在新数据集上的有效性,尽管仍需进一步验证其在其他语言环境和特定场景下的适用性71。
-
来自Indian Institute of Science (IISc)的Aryan Kumar Singh等人构建了一个基于问卷的、包含200个阿育吠陀体质评估的双语数据集Prakriti200。这个数据集通过标准化的问卷收集,覆盖了身体、生理和心理特征,旨在促进传统阿育吠陀评估与现代数据分析方法的结合。数据集的主要创新在于提供了英语和印地语两种语言界面,并且实施了自动后端评分机制,保证了高质量的数据收集。通过对200名参与者的数据分析,揭示了年轻成年人群中体质类型的分布情况,其中Pitta体质最为常见,为个性化健康管理和疾病预防提供了新的视角和数据支持72。
技术趋势
在这一主题下,各篇论文展现了从提高模型内部特征解释的精确度到评估模型对外部价值观和用户偏好的适应性,再到优化模型在特定任务如图表解读上的表现的技术路线。可以看出,研究者们越来越重视通过结构化方法和新型评估框架来提高AI系统的透明度、可控性和适应性,同时也在探索如何将传统的知识体系如阿育吠陀与现代AI技术相结合,以满足特定领域的应用需求。
数据集和评估
- 语义正则表达式(Semantic Regexes):未提及具体使用的数据集,而是评估了GPT-2-RES-25k、Gemma-2-2B-RES-16k和Gemma-2-2B-RES-65k等特征的表现。
- EValueSteer:使用基于PRISM语料库的合成数据集和World Values Survey (WVS)的价值加载问题进行评估。
- GPT-5 vs. GPT-4o/GPT-4V:评估了CHART-6基准的困难子集,使用了Generalized Estimating Equations (GEE)和Linear Mixed-Effects Models (LMM)等统计方法。
- TUNA:分析了WildChat和ShareGPT两个真实世界的人机对话语料库,并在新数据集上进行了验证。
- Prakriti200:基于自创的200个双语阿育吠陀体质评估问卷构建的数据集,主要用于分析年轻人群的体质类型分布情况。
这些数据集和评估方法的选择反映了研究者们试图通过不同的角度和方法来深入理解AI伦理和社会影响,包括模型的内部工作原理、对外部价值观的适应性、特定任务的执行能力以及用户行为模式的识别等方面。
Topic 11: misc
主题概述
该研究主题涵盖了一系列针对特定领域挑战的创新解决方案,包括教育数学问题生成、电子健康记录(EHR)的轻量级摘要系统、在线内容审核中的规则违规预测、低秩适应(LoRA)方法的改进、法律信息检索以及大型语言模型预训练的加速与饱和行为。这些研究不仅推动了各自领域的技术进步,还通过引入新的方法和工具,提高了系统的效率和可靠性,对于解决实际应用中的复杂问题具有重要意义。
各论文贡献
-
来自University of Virginia的Bryan R. Christ等人研究了生成符合标准的教育数学应用题的难题,提出了EDUMATH,利用大型语言模型(LLM)自动生成与数学标准相匹配的教育应用题。该方法的主要创新点在于开发了一个名为STEM的新数据集,该数据集包含教师标注的标准及学生和教师均可阅读的解决方案,并提出了一种结合人类专家和LLM评判的方法来评价生成的应用题。产生的价值在于解决了由于班级规模大导致教师难以个性化定制应用题的问题,同时提高了学习效果。实验结果表明,EDUMATH 12B和30B模型在生成标准对齐的数学应用题方面达到了最先进的性能水平,其中EDUMATH 30B模型的表现优于现有基线。73
-
来自多个机构的Jiajun Wu等人探讨了在急诊环境中处理大量非结构化临床数据的挑战,设计了一种双阶段、轻量级的患者病历摘要系统,专门用于紧急医学场景。该系统采用了NVIDIA Jetson Orin Nano板进行检索和摘要阶段,确保了离线操作和保护患者隐私。主要创新点在于其特殊的摘要输出格式和Factual Accuracy(FA)评分,这使得系统更加适用于需要高度隐私保护和稳定性的环境。产生的价值在于能够提高急诊部门医生的诊断和治疗决策效率,尤其是在处理复杂病例时。实验显示,该系统能够生成准确、完整且清晰的摘要,并显著减少了延迟时间。74
-
来自University of Auckland的Timothy Pistotti等人关注了大型语言模型(LLM)在评估语法规则现象时表现的一致性和准确性问题,特别是关于寄生缺口(Parasitic Gaps, PGs)。他们提出了一种新方法,使用先进的生成式LLM(如Gemini 2.5 Pro Preview)基于语言学模板生成控制刺激物。该方法的创新点在于其对刺激物质量的精细化控制,以减少可能影响模型表现的潜在混淆因素。产生的价值在于提供了更准确地评估LLM语法能力的方法,有助于理解计算语言学和认知科学中的相关问题。实验表明,GPT-2在经过精心设计的刺激物上表现显著提升。75
-
来自多个机构的Qin Dong等人解决了低秩适应(LoRA)方法在细调大型语言模型时遇到的代表性瓶颈问题,即单一下投影矩阵($A$)难以捕捉复杂任务所需的多样信号。他们提出了Multi-$A$ Shared Adaptation(MASA),一种新颖的不对称参数高效细调架构,通过多组$A$矩阵共享策略克服了这一瓶颈。该方法的创新点在于引入了“多-$A$,单一-$B$”结构和跨层共享策略,提升了细调后的模型性能。产生的价值在于优化了参数高效细调方法,使其更适合资源受限环境下的部署。实验结果显示,MASA在多个基准测试中均优于LoRA及其变体。76
-
来自Federal Senate of Brazil的Hudson de Martim研究了如何可靠且确定地查询结构化知识图谱SAT-Graph RAG中的法律规范,提出了SAT-Graph API,一种正式的查询执行层,可以实现高精度的混合搜索、强健的引用解析、特定时间点版本检索和可审计的因果追踪。该方法的主要创新点在于它将知识表示与查询逻辑分离,提供了一种更加稳健和可解释的方法来回答法律问题。产生的价值在于改善了传统RAG框架在法律应用中的不足,为法律信息检索提供了一种新的途径。77
-
来自SB Intuitions的Seng Pei Liew和Takuya Kato探讨了从头开始训练大型语言模型(LLMs)的高昂计算成本和效率低下问题,提出了对引导预训练方法(如持续预训练CPT和模型增长技术)的理解,以降低成本并提高性能。该方法的主要创新点在于引入了详细的缩放定律模型,该模型包括第一阶段和第二阶段预训练中令牌数量之间的交互项,帮助量化了过度训练基础模型时引导预训练的饱和效应。产生的价值在于为优化引导LLMs的计算使用提供了指导。实验表明,引导过度训练的基础模型会导致第二阶段预训练中的饱和效应,具体表现为随着基础模型训练时间增加,第二阶段训练令牌数的缩放指数下降。78
技术趋势
这些论文展示了在各自领域内利用大型语言模型(LLM)解决实际问题的趋势。从生成教育材料到自动摘要,再到内容审核和法律信息检索,研究者们不断探索如何通过改进模型架构、引入新的数据集和评估方法来提高LLM的应用范围和效率。此外,还有对LLM预训练过程中的成本和效率问题的研究,试图通过引导预训练等方法找到最优解,体现了技术发展的方向之一是从优化模型结构转向优化模型训练过程。
数据集和评估
- EDUMATH 使用了新的STEM数据集,专注于教师标注的数学标准和解决方案。
- Dual-stage and Lightweight Patient Chart Summarization for Emergency Physicians 利用了MIMIC-IV-Note和Rockyview General Hospital的真实世界EHR数据集,并引入了Factual Accuracy(FA)评分作为评估标准。
- Asking For It: Question-Answering for Predicting Rule Infractions in Online Content Moderation 基于Reddit和Lemmy的数据集进行了评估,特别关注Lemmy的公开可用的审核日志和规则描述。
- Evaluating The Impact of Stimulus Quality in Investigations of LLM Language Performance 使用了Lan et al. (2024) 数据集以及为本研究特别生成的精炼刺激物数据集,通过$\Delta_{+\text{filler}}>0$和DiD指标评估模型表现。
- MASA: Rethinking the Representational Bottleneck in LoRA with Multi-A Shared Adaptation 使用了MMLU、GSM8k、Fingpt-fineval和BBH数据集进行评估。
- Deterministic Legal Retrieval: An Action API for Querying the SAT-Graph RAG 虽未提及具体使用的数据集,但强调了其API的设计理念和方法,旨在提供更加精准和可解释的法律信息检索方式。
- From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining 使用了Slimpajama-DC和Stack/StarCoder、OpenWebMath等数据集,通过详细的缩放定律模型进行评估。
参考文献
-
SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models ↩︎
-
Gold-Switch: Training-Free Superposition of Slow- and Fast- Thinking LLMs ↩︎
-
Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces ↩︎
-
CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs ↩︎
-
BlackboxNLP-2025 MIB Shared Task: Exploring Ensemble Strategies for Circuit Localization Methods ↩︎
-
PIKA: Expert-Level Synthetic Datasets for Post-Training Alignment from Scratch ↩︎
-
LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling ↩︎
-
CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning ↩︎
-
Crossing Domains without Labels: Distant Supervision for Term Extraction ↩︎
-
Towards Reliable Retrieval in RAG Systems for Large Legal Datasets ↩︎
-
MeXtract: Light-Weight Metadata Extraction from Scientific Papers ↩︎
-
Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels ↩︎
-
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering ↩︎
-
Exploring Gaps in the APS: Direct Minimal Pair Analysis in LLM Syntactic Assessments ↩︎
-
Incremental Summarization for Customer Support via Progressive Note-Taking and Agent Feedback ↩︎
-
Scalable multilingual PII annotation for responsible AI in LLMs ↩︎
-
TinyScientist: An Interactive, Extensible, and Controllable Framework for Building Research Agents ↩︎
-
Learning to Rewrite Prompts for Bootstrapping LLMs on Downstream Tasks ↩︎
-
TRepLiNa: Layer-wise CKA+REPINA Alignment Improves Low-Resource Machine Translation in Aya-23 8B ↩︎
-
Test-Time Scaling of Reasoning Models for Machine Translation ↩︎
-
MathRobust-LV: Evaluation of Large Language Models’ Robustness to Linguistic Variations in Mathematical Reasoning ↩︎
-
Bridging Discourse Treebanks with a Unified Rhetorical Structure Parser ↩︎
-
Evolving and Executing Research Plans via Double-Loop Multi-Agent Collaboration ↩︎
-
AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning ↩︎
-
The Alignment Auditor: A Bayesian Framework for Verifying and Refining LLM Objectives ↩︎
-
Learning from Failures: Understanding LLM Alignment through Failure-Aware Inverse RL ↩︎
-
FURINA: A Fully Customizable Role-Playing Benchmark via Scalable Multi-Agent Collaboration Pipeline ↩︎
-
AWM: Accurate Weight-Matrix Fingerprint for Large Language Models ↩︎
-
How Language Models Conflate Logical Validity with Plausibility: A Representational Analysis of Content Effects ↩︎
-
ToolMem: Enhancing Multimodal Agents with Learnable Tool Capability Memory ↩︎
-
Aligning Large Language Models via Fully Self-Synthetic Data ↩︎
-
Instructional Goal-Aligned Question Generation for Student Evaluation in Virtual Lab Settings: How Closely Do LLMs Actually Align? ↩︎
-
TokenChain: A Discrete Speech Chain via Semantic Token Modeling ↩︎
-
Adaptive Tool Generation with Models as Tools and Reinforcement Learning ↩︎
-
Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents ↩︎
-
Probing Social Identity Bias in Chinese LLMs with Gendered Pronouns and Social Groups ↩︎
-
Flipping the Dialogue: Training and Evaluating User Language Models ↩︎
-
Reward Model Perspectives: Whose Opinions Do Reward Models Reward? ↩︎
-
Controllable Stylistic Text Generation with Train-Time Attribute-Regularized Diffusion ↩︎
-
Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG) ↩︎
-
XLSR-Kanformer: A KAN-Intergrated model for Synthetic Speech Detection ↩︎
-
Reading Between the Lines: Towards Reliable Black-box LLM Fingerprinting via Zeroth-order Gradient Estimation ↩︎
-
Influence Functions for Efficient Data Selection in Reasoning ↩︎
-
Protecting De-identified Documents from Search-based Linkage Attacks ↩︎
-
Language models for longitudinal analysis of abusive content in Billboard Music Charts ↩︎
-
Large Language Models Hallucination: A Comprehensive Survey ↩︎
-
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning ↩︎
-
Foundations of LLM Knowledge Materialization: Termination, Reproducibility, Robustness ↩︎
-
Adaptive LLM-Symbolic Reasoning via Dynamic Logical Solver Composition ↩︎
-
Knowledge Graph-Guided Multi-Agent Distillation for Reliable Industrial Question Answering with Datasets ↩︎
-
The Algebra of Meaning: Why Machines Need Montague More Than Moore’s Law ↩︎
-
PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles ↩︎
-
CML-Bench: A Framework for Evaluating and Enhancing LLM-Powered Movie Scripts Generation ↩︎
-
Evaluating LLMs for Historical Document OCR: A Methodological Framework for Digital Humanities ↩︎
-
Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation ↩︎
-
PTEB: Towards Robust Text Embedding Evaluation via Stochastic Paraphrasing at Evaluation Time with LLMs ↩︎
-
OpenStaxQA: A multilingual dataset based on open-source college textbooks ↩︎
-
Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language ↩︎
-
EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preference ↩︎
-
GPT-5 Model Corrected GPT-4V’s Chart Reading Errors, Not Prompting ↩︎
-
Prakriti200: A Questionnaire-Based Dataset of 200 Ayurvedic Prakriti Assessments ↩︎
-
EDUMATH: Generating Standards-aligned Educational Math Word Problems ↩︎
-
Dual-stage and Lightweight Patient Chart Summarization for Emergency Physicians ↩︎
-
Evaluating The Impact of Stimulus Quality in Investigations of LLM Language Performance ↩︎
-
MASA: Rethinking the Representational Bottleneck in LoRA with Multi-A Shared Adaptation ↩︎
-
Deterministic Legal Retrieval: An Action API for Querying the SAT-Graph RAG ↩︎
-
From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining ↩︎