2025年10月09日NLP论文汇总(中文)
- Topic 1: Large Language Model Reasoning and Optimization (6 papers)
- Topic 2: Multimodal and Multilingual Reasoning (6 papers)
- Topic 3: Reinforcement Learning and Policy Optimization (6 papers)
- Topic 4: Speech and Audio Processing with LLMs (5 papers)
- Topic 5: Knowledge Graphs and Semantic Understanding (5 papers)
- Topic 6: LLM Training Techniques and Data (5 papers)
- Topic 7: Evaluation Benchmarks and Metrics for LLMs (6 papers)
- Topic 8: Reasoning Verification and Trustworthiness (8 papers)
- Topic 9: Instruction and Prompt Engineering (6 papers)
- Topic 10: Dialogue Systems and Interaction (5 papers)
- Topic 11: misc (42 papers)
Topic 1: Large Language Model Reasoning and Optimization
主题概述
大型语言模型(Large Language Models, LLMs)的推理能力优化是当前人工智能领域的重要研究方向之一。随着这些模型在自然语言处理任务中的应用越来越广泛,如何提升其在复杂推理任务中的表现,特别是在多语言环境和特定领域(如常识推理、逻辑推理和文本再识别攻击)中的表现,成为了研究者关注的重点。这些研究不仅有助于提高模型的可靠性与安全性,还能促进其在更多实际场景中的应用,如法律推理、科学发现和隐私保护等。
各论文贡献
-
来自哈尔滨工业大学的Qiguang Chen等人研究了扩散大型语言模型(Diffusion Large Language Models, DLLMs)在处理长链式推理任务时存在的并行与序列矛盾问题,提出了平行鼓励提示、扩散提前停止以及利用平行扩展定律等策略来缓解这一矛盾。这些策略旨在提升DLLMs的推理性能,特别是自我反思能力和探索行为,而实验结果则表明这些方法可以显著改善模型在面对此类挑战时的表现1。
-
来自罗马大学的Francesco Maria Molfese等人设计了一个新的基准测试ReTraceQA,专门用于评估小型语言模型(Small Language Models, SLMs)在常识问答任务中的推理过程。通过引入手动标注的2,421个推理轨迹,该研究揭示了当前仅基于最终答案准确性的评估方式可能高估了模型的能力,并且提出了使用LLMs作为裁判的新方法,以更精确地检测和定位错误。实验显示,最佳的LLM裁判o1-mini在参考评估中平均F1得分达到60.8%,但依然存在难以准确定位局部错误的问题2。
-
来自Anthropic Fellows Program的Shiyuan Guo等人探讨了LLMs在加密文本中进行推理的能力,即所谓的“加密推理”。他们提出了一种新的评价任务,包括加密推理能力和加密文本翻译能力,并通过MATH 500问题集和PRM800K数据集进行了验证。研究结果显示,模型在处理加密文本时推理能力显著下降,尤其是对于不常见加密方法。此外,他们还发现了模型“作弊”的现象,即选择性地加密部分文本,而将数学表达式和数字保留为明文,这提示了在开发监控工具时需要考虑这一因素3。
-
来自华中科技大学的Raoyuan Zhao等人关注了链式思维(Chain-of-Thought, CoT)在多语言设置下的表现、一致性和忠实度,填补了低资源语言中CoT行为研究的空白。他们提出了一种新的评估方法,通过跨语言思考痕迹交换来测量语义一致性,并引入了新的评估标准,包括语言合规性、最终答案准确性以及一致性。实验表明,尽管提示工程可以提高语言合规性,但也可能导致最终答案准确性下降,同时,模型在相似语言类型中的一致性较高4。
-
来自华沙大学的Manuel Vargas Guzmán等人提出了结合神经网络和符号推理的混合架构,旨在解决LLMs在逻辑推理方面的局限性,尤其是缺乏组合性。他们的研究使用了三段论逻辑作为评估基准,展示了这种混合模型在减少证明步骤数量方面的能力。研究发现,与纯符号模型相比,混合模型可以大幅降低所需步骤数,提高了逻辑推理的效率和正确性5。
-
来自奥斯陆大学的Lucas Georges Gabriel Charpentier等人专注于改进针对文本去标识化技术的重新标识化攻击,提出改变个人身份信息(PII)片段重新标识化的顺序以及利用具有推理能力的大型语言模型的方法。研究使用Text Anonymization Benchmark(TAB)数据集,特别是欧洲人权法院的案例,测试了这些方法的有效性。实验表明,采用熵为基础的顺序和聚合策略能显著提升重新标识化攻击的效果,尤其是在拥有丰富背景知识的情况下,提升了精确匹配准确率和单词级召回率6。
技术趋势
从上述论文可以看出,该主题的研究正朝着几个关键方向发展:一是探索和缓解大型语言模型在特定任务中的内在限制,例如并行处理能力与序列推理需求之间的矛盾;二是开发新型评估方法和工具,以便更深入地理解模型的推理过程和行为,而不仅仅是评估最终答案的准确性;三是探索语言模型在不同语言环境中的表现差异及其背后的原因;四是尝试结合传统符号逻辑系统与神经网络模型,以增强模型在逻辑推理任务中的表现;五是利用大型语言模型的推理能力改进特定应用场景,如文本去标识化技术的安全性评估。
数据集和评估
- Beyond Surface Reasoning: 未具体提及使用的数据集或基线方法。
- ReTraceQA: 使用了包含2,421个手动标注推理轨迹的ReTraceQA数据集,评估指标包括F1分数。
- All Code, No Thought: 使用了MATH 500问题集和PRM800K数据集,评估了模型在加密文本中的推理能力和翻译能力。
- A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: 使用MMMLU和MGSM数据集,评估了模型的性能、一致性和忠实度。
- Hybrid Models for Natural Language Reasoning: 未具体提及使用的数据集。
- Stronger Re-identification Attacks through Reasoning and Aggregation: 使用了Text Anonymization Benchmark(TAB)数据集,重点关注欧洲人权法院案例,评估指标包括精确匹配准确率和单词级召回率。
Topic 2: Multimodal and Multilingual Reasoning
主题概述
多模态和多语言推理(Multimodal and Multilingual Reasoning)是当前自然语言处理(NLP)领域的热点话题之一,它旨在探索大型语言模型(LLMs)如何更有效地理解和处理跨语言及跨模态的信息。这一主题的重要性在于,随着全球化和数字化的发展,能够有效处理多种语言和不同类型输入的系统变得愈发关键,这对于提高模型的实用性和可靠性至关重要,同时也促进了AI系统的包容性和普及性。
各论文贡献
-
来自慕尼黑大学的Yihong Liu等人研究了大型语言模型(LLMs)在面对多语言打字错误时的鲁棒性,提出了MulTypo,一种新型的多语言打字错误生成算法,用于模拟基于特定键盘布局和打字习惯的真实人类错误。该方法的主要创新点在于其生成的打字错误更加贴近现实场景,从而提供了一个更为准确的模型性能评估方式。在XNLI、Belebele、MMMLU、MGSM和FLORES200等数据集上的实验表明,相比传统的评估方法,MulTypo能够更好地揭示模型在面对噪声输入时的表现,得出的结论是模型大小并不直接决定其鲁棒性,且指令微调可能增加模型对噪声输入的脆弱性7。
-
来自达卡科技大学的Adity Khisa等人专注于低资源语言Chakma的跨语言知识迁移问题,提出了一种通过使用上下文连贯的孟加拉语转写Chakma数据集进行微调的方法。该方法的主要创新点在于使用高质量的手动校正数据而非OCR生成的数据来提高模型理解Chakma文本的能力。在实验中,使用XLM-RoBERTa模型并手动校正数据进行微调后,模型在掩码语言建模任务中的token准确性达到73.54%,显示了高质数据对于提升低资源语言模型性能的重要性8。
-
来自清华大学的Yuying Li等人针对多模态大型语言模型(MLLMs)在处理几何图形方面的不足,引入了CapGeo,一个辅助注释的几何推理框架,通过将视觉信息转换成结构化的文本注释来提升模型的几何推理能力。该方法的主要创新点在于创建了CapGeo-Bench,一个包含4,641个高质量几何图形-注释对的数据集,以及一个基于关键点的评估标准。实验结果显示,当模型得到适当的注释帮助时,其在MathVerse、MathVista和GeoQA基准上的表现显著提升,特别是Qwen2.5-VL-72B-Instruct在MathVerse上的准确率从8.6%跃升至66.4%,证明了注释质量与模型推理性能之间的高度正相关关系9。
-
来自重庆大学的Kaiwen Wei等人致力于解决现有视频检索增强生成(MRAG)系统在细粒度多模态理解上的难题,尤其是捕捉细微视觉细节和理解瞬时事件的能力。他们提出了CFVBench,一个大规模的视频MRAG基准测试,以及Adaptive Visual Refinement(AVR)框架,以改进模型的细粒度多模态理解。该框架通过自适应帧插值和按需工具调用策略,解决了内部幻觉和注意力分配问题,显著提升了Gemma-3-27b和InternVL3_5-30B等模型在CFVBench上的表现,提高了$Recall_{v}$和Vis_use分数10。
-
来自武汉大学的Enze Zhang等人关注于大型语言模型(LLMs)在翻译网络小说时的效果,提出了DITING,一个专为评估网络小说翻译质量设计的多代理评估框架。该框架包括六个维度,旨在捕捉网络小说特有的语言和文化挑战,如成语翻译、词汇歧义和文化安全。AgentEval系统则通过模拟专家讨论来评估翻译质量,而MetricAlign数据集则提供了系统比较各种自动评估指标的机会。实验表明,DeepSeek-V3生成的翻译最忠实于原文风格,同时中国训练的LLMs整体上优于更大的外国模型,强调了在翻译过程中维护叙事连贯性和文化敏感性的难度11。
-
来自阿尔伯塔大学的Mir Tafseer Nayeem等人探讨了现有分词评估指标(如生育率)在跨语言和代码混合场景中的局限性,引入了Single Token Retention Rate(STRR)作为新的评估指标。该指标衡量的是不同语言中保留为单个标记的词语比例,补充了生育率评分,揭示了分词器对英语单词的过度保留现象,显示出隐含的偏见。通过对六种LLM分词器在七个语言和两个领域上的评估,实验结果表明STRR能更清晰地反映分词器的跨语言公平性问题,尤其是在处理像印地语这样的语言时,展示了其独特的价值12。
技术趋势
这些论文反映了多模态和多语言推理领域正在朝着几个方向发展:一是通过模拟真实世界的人类行为(如打字错误)来提升模型的鲁棒性;二是利用跨语言知识转移和高质量数据来改善低资源语言的处理能力;三是开发辅助工具(如CapGeo和AVR框架)来提升模型对复杂视觉信息的理解;四是设计专门的评估框架和指标(如DITING和STRR),以更全面地评价模型在特定任务或语言上的表现。这些方法不仅体现了对模型性能提升的关注,也突出了对模型公平性和文化敏感性的重视。
数据集和评估
- Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors: 使用了XNLI、Belebele、MMMLU、MGSM和FLORES200等数据集。
- Exploring Cross-Lingual Knowledge Transfer via Transliteration-Based MLM Fine-Tuning for Critically Low-resource Chakma Language: 未明确提及使用公开数据集,但提到了一个由作者自行收集并验证的Bangla-transliterated Chakma数据集。
- CapGeo: A Caption-Assisted Approach to Geometric Reasoning: 使用了MathVerse、MathVista和GeoQA等数据集。
- CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation: 创建了CFVBench数据集,包含599个视频和5,360个开放式问答对。
- DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation: 创建了MetricAlign数据集,包括300个中英句子对,并使用了AgentEval进行评估。
- Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation: 未明确提及使用的公开数据集,但进行了跨语言和跨领域的分词器评估。
这些论文不仅推动了相关技术的发展,还通过创新的数据集和评估方法,为未来的研究奠定了坚实的基础。
Topic 3: Reinforcement Learning and Policy Optimization
主题概述
强化学习(Reinforcement Learning, RL)与策略优化(Policy Optimization)是人工智能领域的重要研究方向之一,尤其在训练能够适应复杂环境并执行多步推理任务的智能体方面发挥着关键作用。这些技术对于提升AI系统的决策能力和在各种应用场景中的表现至关重要,包括但不限于网络导航、深度研究以及计算机或手机使用任务等。通过不断改进策略优化算法和模拟技术,可以进一步增强AI系统的适应性和可靠性,使其更加接近人类的认知能力。
各论文贡献
-
来自哥伦比亚大学的Xiao Yu等人研究了如何提高AI代理在复杂环境中执行多步骤推理任务的能力,提出了Dyna-Mind框架,其中包含ReSim方法和Dyna-GRPO算法,以解决AI代理构建精确世界模型和模拟未来场景的问题。该方法的主要创新点是从实际交互数据中学习模拟,而非依赖于合成数据。其产生的价值在于显著提升了代理的任务完成率和模拟能力,在Sokoban、ALFWorld和AndroidWorld数据集上,平均成功率分别达到90.8%和31.8%,显示了直接从真实经验学习的重要性13。
-
来自伊利诺伊大学厄巴纳-香槟分校的Zhenhailong Wang等人探讨了将复杂政策内部化到多模态对话代理中的有效方法,提出了Multimodal Policy Internalization (MPI)任务和TriMPI框架,旨在训练模型遵循复杂政策而不需在推理时将其纳入上下文中。该框架包括Visually-Masked Continual Pretraining (VM-CPT)、Supervised Finetuning with Chain-of-thought (CoT SFT)和利用PolicyRollout (PoRo)算法的强化学习阶段。其创新点在于将策略知识直接整合到模型参数中,适用于处理多模态任务。实验结果显示,与CoT SFT基准和上下文设置相比,TriMPI框架提高了高达70.7%和79.4%的准确性,证明了其在复杂政策遵循上的优越性能14。
-
来自百度公司的Xingyu Lin等人解决了Group Relative Policy Optimization (GRPO)方法在数学推理任务中面临的熵崩溃和模型崩溃问题,提出了TEPO框架,利用马尔科夫似然将群体级别的奖励链接至令牌级别的聚合。TEPO的主要创新点是通过马尔科夫似然减少梯度偏差,并引入计算图稳定训练。实验结果表明,TEPO在MATH-500基准测试中比GRPO高出+4.8个百分点,但在Minerva和OlympiadBench数据集上的表现相对较差,显示出其在特定条件下的局限性15。
-
来自北京大学的Yongding Tao等人关注的是在大语言模型(LLMs)强化学习后训练阶段检测数据污染的问题。他们提出了Self-Critique方法,利用令牌级别的熵序列识别RL引起的污染。Self-Critique的主要创新点是首次系统地解决RL后训练的数据污染问题,并提供了新的理论框架和实践工具。实验表明,Self-Critique在检测RL阶段污染方面优于现有基线方法,特别是在考虑预训练和RL双重阶段的污染时,AUC提升可达30%16。
-
来自Sapiens AI的Chenyang Gu等人研究了大型语言模型在执行代理搜索和推理任务时的不稳定性及效率低下问题,提出了Dynamic-filter Sequence-level Policy Optimization (DSPO)算法。DSPO的关键创新在于序列级别策略优化和动态过滤机制,确保每个训练批次都有有效的学习信号。这使得DSPO不仅在HotpotQA等复杂的多跳问答基准测试中表现优异,而且在多个QA基准测试上均表现出色,相对提升了34.1%的性能17。
-
来自多个机构的Chengyu Wang等人解决了将强化学习应用于对齐扩散型大语言模型(dLLMs)与人类偏好或任务特定奖励的难题,提出了一种名为Sandwiched Policy Gradient (SPG)的新算法。SPG的主要创新点是基于奖励优化夹层变分界,同时提出了一种块级掩码策略来提高策略优化的稳定性和效率。实验结果显示,SPG在GSM8K、MATH500、Countdown和Sudoku四个推理基准测试中均显著优于现有的RL算法,特别是在Sudoku数据集上,性能提升了27.0%18。
技术趋势
本主题下的研究主要集中在改进策略优化算法和增强模拟能力两个方面。研究者们通过提出新的算法框架,如Dyna-Mind、TEPO、Self-Critique、DSPO和SPG,来解决当前存在的诸如模型崩溃、数据污染、不稳定性和效率低下的问题。这些新方法不仅改善了模型的性能,还扩展了强化学习技术的应用范围,特别是在多模态和扩散型语言模型中。
数据集和评估
各论文采用了不同的数据集进行实验验证,包括合成和现实世界的基准测试,如Sokoban、ALFWorld、AndroidWorld、ClevrPolicy、GTAPolicy、MATH-500、Minerva、OlympiadBench、GSM8K、Countdown、NQ、TriviaQA、PopQA、HotpotQA、2WikiMultiHopQA、Musique和Bamboogle等。评估指标主要包括任务的成功率、推理准确率、AUC(Area Under Curve)值等,用以衡量模型在不同环境下的表现和改进程度。
Topic 4: Speech and Audio Processing with LLMs
主题概述
语音和音频处理领域近年来得到了显著的发展,特别是在大语言模型(LLMs)的应用上。这一领域的研究不仅有助于提高自动语音识别(ASR)、对话状态跟踪(DST)等系统的性能,还推动了语音隐私保护和多语种适应性的技术进步。随着全球化的加速和语言多样性的增加,如何有效利用LLMs处理各种语音和音频数据成为了一个重要的研究课题,它对于提升人机交互的自然性和智能性有着重要意义。
各论文贡献
-
来自StepFun及南洋理工大学的Donghang Wu等人研究了实时语音模型中的链式思维(CoT)推理高延迟的问题,提出了Mind-Paced Speaking(MPS)架构来解决这一核心问题。该方法的主要创新点是采用了双脑框架——形式化大脑和表达大脑,实现同时思考和说话,从而减少延迟并维持语义连贯性。产生的价值在于提升了语音模型在实时应用场景下的表现力,使得它们能够提供即时且连贯的响应。在Spoken-MQA和URO-Bench基准测试上的实验表明,与直接响应方法和现有的Think-Before-Speaking(TBS)方法相比,MPS-thkfirst方法在几乎所有的任务上都优于MPS-tbs,而MPS-spkfirst方法虽然准确性稍低,但提供了零延迟的响应,特别适合需要快速反馈的场景。19
-
来自未提及机构的Mohammad Hossein Sameti等人研究了预训练变换器模型对口音和方言变化敏感的问题,导致自动语音识别系统在处理非母语或地区口音时的错误率上升。该方法的主要创新点是引入了一种基于显着性驱动的频谱图掩码框架,通过将口音分类集成到ASR管道中,并使用Grad-CAM训练的CNN分类器来定位口音特定特征,进而应用概率掩码策略来抑制这些区域。产生的价值在于提高了ASR系统的鲁棒性和跨口音、方言的泛化能力。在英语(LibriSpeech, EdAcc, CommonAccent)和波斯语(CommonVoice-fa, PDID)数据集上的实验表明,所提出的口音感知掩码方法(ARWsPr_t和ARWsPr_b)显著降低了WER和CER,证明了该方法的有效性。20
-
来自未提及机构的Nizar El Ghazal等人研究了减少任务导向型对话系统中依赖于自动语音识别模块的问题,这通常会导致错误传播。该方法的主要创新点是提出了一种全新的基于Speech-LLMs的上下文管理策略,包括完整的口语历史和压缩的口语历史两种方法。产生的价值在于实现了真正的端到端口语对话状态跟踪(DST),提高了系统准确追踪用户意图的能力。在SpokenWOZ数据集上的实验表明,完整口语历史方法达到了最高的联合目标准确率(JGA)为39.32%,而压缩的口语历史方法也表现出色,JGA为36.49%,均优于传统的多模态上下文方法和之前的级联系统。21
-
来自未提及机构的Natalia Tomashenko等人研究了在多说话者录音中匿名化特定说话者的语音问题,特别是仅需匿名化单一说话者的场景。该方法的主要创新点是提出了一种新的目标说话者匿名化(TSA)框架,该框架结合了两种先进的目标说话者提取(TSE)方法和匿名化技术。产生的价值在于填补了现有基准和方法未能涵盖的多说话者重叠语音场景下的匿名化研究空白,提供了更现实且具有挑战性的评估情境。实验结果表明,WeSep BSRNN方法在EER和WER方面比Conformer TSE表现更好,但仍然存在插入错误的问题,建议改善非目标说话者的语音活动遮罩或联合训练ASR和TSE模型。22
-
来自未提及机构的Danel Adendorff等人研究了无监督词汇学习从语音中受到限制的问题,指出当前的限制主要来自于语音表示而非聚类方法。该方法的主要创新点是详细调查了不同自我监督学习(SSL)语音表示和聚类方法对无监督词汇学习的影响。产生的价值在于揭示了连续表示和图聚类方法(尤其是DTW用于语音分割)的有效性,这为理解和开发零资源语音技术提供了新的视角。实验结果显示,在理想的条件下,WavLM Large特征结合图聚类方法在英语数据上达到最高纯度(89.6%)和V-measure(90.3%),而完全基于普通话训练的系统则在普通话数据上表现出色,NED仅为4.9%。这表明尽管可以从无标签语音中学习高质量词汇,但当前的语音表示是主要限制因素。23
技术趋势
这些论文展示了在语音和音频处理中利用LLMs的不同技术路径。MPS架构侧重于改进实时语音模型的响应机制,Saliency-Driven Spectrogram Masking框架致力于提高ASR系统的口音不变性,Speech-LLM方法探索了端到端的对话状态跟踪,TSA框架则专注于多说话者录音中的隐私保护,而Unsupervised Lexicon Learning研究则深入探讨了无监督学习在词汇发现中的应用。这些方法共同反映了LLMs在语音和音频处理领域的多样化应用及其不断演进的技术趋势。
数据集和评估
- Spoken-MQA, URO-Bench:用于评估MPS架构的效果,主要关注响应质量和延迟。
- LibriSpeech, EdAcc, CommonAccent, CommonVoice-fa, PDID:用于测试口音不变性ASR方法的WER和CER。
- SpokenWOZ:用于评估端到端口语对话状态跟踪方法的Joint Goal Accuracy(JGA)。
- LibriSpeech test-clean, Mandarin数据:用于无监督词汇学习的研究,主要评估标准包括Purity, V-measure, 和 Normalized Edit Distance(NED)。
Topic 5: Knowledge Graphs and Semantic Understanding
主题概述
知识图谱与语义理解是当前人工智能领域的重要研究方向之一。知识图谱通过结构化的形式存储和表达实体及其之间的关系,而语义理解则旨在让机器能够理解和处理人类语言中的含义。这两者结合可以极大地提高自然语言处理系统的准确性、可靠性和灵活性,尤其在需要高度专业知识的应用场景中,如医疗健康、推荐系统和搜索引擎等。随着大型语言模型(LLMs)的发展,如何将知识图谱的信息高效地整合到这些模型中,并提升其在特定领域的推理能力成为研究热点。
各论文贡献
-
来自新加坡管理大学的Chi Seng Cheang等人研究了大型语言模型(LLMs)在处理事实性查询时的内部计算过程及其输出,特别是区分事实关联(FAs)、相关幻觉(AHs)和无关幻觉(UHs)。他们提出了一种详细的理论分析框架和实验设计,通过因果分析探索隐藏状态在生成这些输出中的作用。该方法的主要创新点是揭示了LLMs内部计算并不总是能可靠地区分正确的预测与相关幻觉,挑战了LLMs知道自己不知道什么的传统观点。产生的价值在于提供了更深入的理解,有助于改进LLMs的可靠性。在LLaMA-3-8B和Mistral-7B-v0.3上的实验表明,AHs和FAs的隐藏状态几何形状相似,难以区分,而UHs则产生不同的表示,这表明现有的幻觉检测方法和拒绝调优存在局限性24。
-
来自哈佛大学的Xu Pan等人关注的是如何通过细调有效注入新知识到自回归大型语言模型(arLLMs),尤其是解决了所谓的“反转诅咒”问题,即arLLMs在回答需要逆序训练数据信息的问题时遇到的困难。他们的贡献在于引入了一种新的被遮蔽的细调范式,模拟扩散式掩码重建损失,以提高arLLMs的知识泛化能力。实验结果表明,arLLMs需要大量的数据扩充(例如,同义词变体)才能成功地泛化知识到问答任务中,而被遮蔽的细调范式显著提高了arLLMs的数据效率和性能,使其接近于扩散型LLMs的表现25。
-
来自University of Notre Dame的Kaiwen Shi等人提出了一种新的框架——营养图路由器(NG-Router),用于营养学问答。该框架利用异构图神经网络(GNN)来指导基于多智能体系统的任务感知路由。NG-Router的主要创新点是直接从监督图信号学习协作方案,而非依赖手动规则。产生的价值在于提升了营养学问答系统的准确性和个性化程度。实验显示,NG-Router在NGQA基准测试的三个数据集中均优于其他基线方法,尤其是在稀疏数据集上,F1得分提升了超过50%,并且在二元分类和自然文本生成任务上表现出色,证明了其良好的转移能力26。
-
来自天津大学的Wenbin Guo等人研究了如何将知识图谱嵌入整合进大型语言模型(LLMs),以提升知识图谱完成任务的性能。他们提出ReaLM框架,使用残差量化技术连接KG嵌入与LLMs,同时引入本体约束以确保预测的语义一致性。此方法的创新之处在于克服了连续KG嵌入与离散令牌空间之间语义不对齐的问题。实验结果显示,ReaLM在FB15k-237和WN18RR标准基准上显著优于现有方法,在链接预测和三元组分类任务上取得了显著的成绩提升27。
-
来自未指定机构的Yu Wang等人探讨了多语言视频语料库检索问题,特别是在查询语言与视频字幕不匹配的情况下。他们提出DIMA方法,这是一种多层次框架,通过语义切块、领域特定知识图谱的丰富化和多语言嵌入来提高检索效率。DIMA的关键创新在于它构建了一个层级索引结构,使用LaBSE嵌入,并采用了动态树剪枝策略和轻量级LLM进行重新排序。实验表明,DIMA在mVCR测试集上表现最佳,超越了GEN、DSG-1和MQuA等基线方法,特别是在长视频检索方面表现突出,展示了其在跨语言检索中的优势28。
技术趋势
在知识图谱与语义理解的研究中,可以看到几个主要的技术趋势:
- 多智能体系统:通过协作多个智能体来增强特定领域内的推理能力,如营养学问答。
- 嵌入整合:开发新的方法和技术,如残差量化和多语言嵌入,以克服不同模型间语义和结构上的不对齐问题。
- 因果分析:深入探究大型语言模型内部的工作机制,特别是它们如何处理和生成事实性信息。
- 层次索引与检索:利用层级结构和知识图谱丰富化技术提高信息检索的效率和准确性,尤其是在处理多语言和长视频内容时。
数据集和评估
- LLaMA-3-8B 和 Mistral-7B-v0.3:用于分析LLMs内部处理事实性查询的过程。
- NameDescription, Biography, 和 Wiki:用于评估arLLMs和dLLMs的数据效率和性能差距。
- NGQA 基准:包括稀疏、标准和复杂数据集,用于测试营养学问答系统的性能。
- FB15k-237 和 WN18RR:用于评价ReaLM在知识图谱完成任务中的表现。
- mVCR 测试集:包含多语言医学视频,用于评估视频检索算法的性能。
评估指标包括但不限于**准确率、精确度、F1分数、召回率@k、平均倒数排名(MRR)**等,这些指标反映了算法在不同任务中的表现,如问答任务、知识图谱完成任务以及视频检索任务。
Topic 6: LLM Training Techniques and Data
主题概述
大型语言模型(LLM)训练技术与数据的研究旨在通过优化训练过程中的数据处理和模型压缩等方法,提高LLM的效率和性能,同时确保其在资源受限环境中的部署能力。随着LLM在自然语言处理领域的广泛应用,如何高效地利用有限的计算资源并确保模型的安全性和可靠性成为了关键挑战。因此,本主题的研究不仅有助于推动LLM在更广泛场景中的应用,还能够促进AI系统的透明度和可信度建设。
各论文贡献
-
来自National Yang Ming Chiao Tung University的Yu-Chen Lu等人研究了大规模语言模型部署时面临的参数数量巨大及计算需求高的问题,提出了Fine-grained Low-Rank Compressor (FLRC)框架来解决这一核心问题。该框架包括基于Fisher的信息层内秩分配算法和渐进低秩解码策略,主要创新点在于它能针对每一层和投影进行优化压缩比,确保资源的有效利用而不牺牲性能。实验结果表明,在对话摘要和新闻摘要等任务上,FLRC实现了高达17.35%的ROUGE-L分数提升,并在更高压缩率下仍保持较高的BERTScore值,搜索秩分配的时间也提高了49倍。这些成果使得FLRC在模型压缩领域具有显著优势,特别是在需要多次解码迭代的任务中表现优异29。
-
来自University of North Carolina at Chapel Hill的Weiqing Luo等人关注了视觉大型语言模型(VLLM)由于固定分辨率假设而导致的下游任务表现不佳的问题。他们提出了一种新颖的方法,无需大量训练即可确定给定视觉语言任务的最佳分辨率。这种方法通过测量图像复杂度和不确定性方差来选择适应性分辨率,进而提出了一种参数高效的微调(PEFT)技术,将预训练VLLM的视觉输入分辨率调整至最佳配置,减少了从头重新训练的成本。实验结果显示,这种自适应LLaVA变体在大多数任务中优于固定分辨率基准和其他先进模型,例如在VQAv2、GQA和MMBench-CN任务中取得最佳分数30。
-
Sondos Mahmoud Bsharat等人研究了在没有大规模数据收集的情况下,提高LLM推理能力的难题。他们提出了一种名为Prompting Test-Time Scaling (P-TTS)的新颖推理时间数据增强策略,通过在测试时间使用不同的指令提示来系统地改变示例增强,从而合成多样化的推理轨迹上下文。这种方法使得Qwen-2.5等不同规模的模型能够在数学推理等多个基准测试中实现竞争或更好的表现,大幅降低了数据收集成本。实验发现,P-TTS-7B和P-TTS-32B模型在AIME2024和AMC23等任务中分别获得了+30.00%和+26.67%的绝对准确性提升,证明了探索提示空间对于提升LLM推理性能的重要性31。
-
来自EPFL Lausanne的Ines Altemir Marinas等人探讨了在LLM训练过程中系统检查和筛选大规模训练数据的挑战,尤其是来源于如Common Crawl等网络规模数据集的数据。他们提出使用Elasticsearch进行全文索引,以克服ARM64架构的兼容性挑战,并提供详细的配置和解决方案。实验揭示了不同类型数据集(如纯英文对比多语言,自然语言文本对比代码)在索引速度上的差异,以及去重对索引性能的影响。研究结果为优化LLM训练数据的全文搜索提供了宝贵见解,增强了LLM的安全性和可靠性32。
-
Xixi Wang等人专注于从无结构的自由文本碰撞叙述中提取隐含信息,特别是识别每辆参与事故车辆的碰撞方式和事故类型。他们通过参数高效的微调(PEFT)技术,结合LoRA(低秩适应)和提示工程,使开源PLMs适应交通安全领域。实验显示,经过微调的LLaMA3-3B模型在碰撞方式分类任务上达到了95.1%以上的准确率,超过了更大模型的表现。此外,移除“未知”类别后,模型在准确率和宏观F1评分上都有所提高,表明部分标注为“未知”的实例可以被正确分类33。
技术趋势
该主题下的研究展现了几个关键技术趋势:模型压缩技术的进步,如FLRC提出的细粒度低秩压缩框架;适应性调整方法的发展,如针对VLLM的分辨率优化策略;以及数据增强和微调技术的创新,比如P-TTS和PEFT,它们通过减少数据需求和优化模型适应特定任务的能力,来提升模型性能。此外,全文索引和数据清洗技术也在LLM训练数据管理中展现出重要角色,确保了模型的可靠性和安全性。
数据集和评估
各篇论文采用了多种数据集进行评估,包括DialogSum、CNN/DM、Wikitext2用于文本理解与生成任务;VQAv2、GQA、MMBench-CN用于视觉语言任务;AIME2024、AIME2025、MATH500、GPQA-Diamond、Gaokao、Kaoyan、OlympiadBench、Minerva用于数学推理任务;以及Crash Investigation Sampling System (CISS)用于交通事故叙述分析。评估指标涵盖了ROUGE-L、BERTScore、准确率、F1分数等,反映了研究者们在不同任务上对模型性能的综合考量。
Topic 7: Evaluation Benchmarks and Metrics for LLMs
主题概述
大型语言模型(LLMs)在各个领域的应用日益广泛,但其性能评估尤其是针对特定专业领域的能力评估仍存在许多挑战。统计推理、预训练过程中的动态评估、旅行规划能力、简历解析及评价,以及跨领域模型性能排名等问题,都是当前研究的重要方向。这些研究不仅有助于提升LLMs的专业化能力,还能推动LLMs在实际应用中的可靠性和效率。
各论文贡献
-
来自上海财经大学的Lu Yuchen等人研究了大型语言模型在统计学领域的不足与评估问题,提出了StatEval,这是一个专门用于评估LLMs统计推理能力的新基准。该方法的主要创新点是构建了一个包含基础统计知识和研究水平证明问题的数据集,并开发了一个多代理管道以确保学术严谨性。产生的价值在于提供了全面且严谨的方法来评估LLMs的统计推理能力,填补了现有评估方法的空白34。
-
来自NVIDIA Corporation的Steve Han等人探讨了利用LLMs作为裁判来评估RAG系统或代理管道生成的答案准确性的问题,提出了Judge’s Verdict Benchmark。这一基准通过两步法结合Cohen’s Kappa和z-score分析来衡量LLMs与人类判断的一致性。主要创新点在于提供了一种标准化的方式将LLM裁判分类为不同的性能级别。产生的价值在于能够更高效、可扩展地评估AI生成内容的质量和可靠性,尤其适用于需要复杂判断的任务35。
-
来自Hangzhou City University的Fanwei Zhu等人关注于简历信息提取与评价的高效性与准确性问题,提出了一种统一的、布局感知的框架。该方法的主要创新点包括布局感知的解析模型、高效的LLM提取策略及基于匈牙利算法的自动化评价框架。产生的价值在于显著提高了简历解析的效率和精度,同时降低了成本。实验显示,优化后的Qwen3-0.6B-SFT模型不仅超越了Claude-4的准确率,还实现了更快的推理速度,达到了240-300份简历每分钟的处理能力36。
-
来自The University of Texas at San Antonio的Veronica Rammouz等人致力于无标注数据情况下跨领域模型性能排名的可靠性研究,提出了一个新的分析模型性能预测可靠性的方法。主要创新点是引入了一个控制的两步框架,涉及训练基础分类器和辅助错误模型。产生的价值在于能够指导实践者在无需为每个领域获取新标签的情况下有效选择和部署模型。实验结果表明,在地理结构化的GeoOLID数据集上,大语言模型的误差预测器表现优于其他基线方法37。
-
来自Trip.com Group的Yincen Qu等人研究了LLMs在生成符合用户偏好和软约束条件的可行、可靠且吸引人的旅行计划方面的能力不足问题,提出了TripScore。主要创新点在于整合多个标准形成单一奖励分数,以及创建了专注于真实世界自由形式用户请求的大规模数据集。产生的价值在于提供了一种更加精细和可靠的旅行规划评估机制。实验揭示了不同方法如测试时间计算、神经符号方法和微调在提升交付率和常识约束通过率方面的优缺点,特别指出GRPO应用于Qwen3-14B模型时表现出色,适合长期规划场景38。
技术趋势
从上述论文可以看出,针对LLMs的专业化评估主要集中在以下几个技术路线上:
- 多代理系统与人类参与验证:利用多代理系统结合人类专家的反馈来提高评估的准确性和全面性。
- 综合评估框架:开发统一的评估框架,涵盖从数据准备到模型评估的各个环节,以提高评估的可靠性。
- 深度学习与强化学习相结合:通过结合深度学习和强化学习的方法,提高模型在特定任务上的表现。
- 误差预测与校准:利用辅助模型预测和校准误差,以实现跨领域模型性能的可靠排名。
数据集和评估
- StatEval:包含13,817个基础统计问题和2,374个研究级证明问题,用于评估LLMs的统计推理能力。
- GeoOLID & Amazon Reviews 2023:用于评估模型跨领域性能排名的可靠性,特别是地理分布和产品类别多样性的影响。
- SynthResume & RealResume:专为简历信息提取设计的数据集,包含合成和真实世界的简历样本。
- 旅行规划查询数据集:由4,870个旅行规划查询组成,旨在反映真实世界用户的复杂需求。
各论文使用的评估指标包括但不限于:
- Pass@k:用于衡量模型在特定任务上的稳定性和一致性。
- F1-score:衡量信息提取任务的精确度和召回率。
- Kendall’s rank correlation coefficient ($\tau$) 和 Pairwise Ranking Reversal Rate (PRR):用于评估模型学习轨迹的稳定性。
- Cohen’s Kappa 和 z-score:用于衡量LLM裁判与人类裁判的一致性。
- 交付率 (DR) 和常识约束通过率 (CPR):用于衡量旅行规划任务的成功率和合理性。
这些数据集和评估指标共同构成了一个较为全面的评估体系,帮助研究人员和从业者更好地理解和改进LLMs在特定领域的表现。
Topic 8: Reasoning Verification and Trustworthiness
主题概述
Reasoning Verification and Trustworthiness(推理验证与可信度)这一主题聚焦于提升大型推理模型的可靠性、忠实性和可解释性,以确保这些模型在关键应用中的有效性。随着AI系统在各个领域中的广泛应用,其推理过程的透明性和准确性变得尤为重要,特别是在那些依赖精确逻辑推理的应用场景中。此外,该主题还探讨了如何通过技术创新和理论研究来提高模型抵御恶意攻击的能力,确保模型输出的真实性和安全性,从而减少错误信息传播的风险。
各论文贡献
-
来自University of California San Diego的Chung-En Sun等人研究了大型推理模型缺乏信任度的问题,提出了ReFIne框架来解决这一问题。该框架的主要创新点是将监督微调与广义正则化规划目标(GRPO)相结合,并通过结构化的标签式推理轨迹提升模型的可解释性,同时通过显式披露决定性信息增强忠实性,以及通过自我评估推导正确性和最终答案的信心来促进可靠性。产生的价值在于使推理过程更加清晰、透明且可靠,这对于构建实用和可靠的AI推理系统至关重要。在数学基准测试上,相比基线方法,ReFIne模型在可解释性、忠实性和可靠性方面分别提升了+44.0%、+18.8%和+42.4%,这表明优化信任度指标对于提高AI系统的实用性具有重要意义39。
-
来自Peking University和Northeastern University等机构的Yubo Sun等人针对视觉检索增强生成(VRAG)系统在多图像场景下难以可靠感知并整合证据的问题进行了研究,提出了**Evidence-guided Vision Retrieval-augmented Generation (EVisRAG)**框架。该框架的主要创新点是引入了一种名为Reward-Scoped Group Relative Policy Optimization (RS-GRPO)的新训练方法,该方法能够为特定令牌分配细粒度奖励,以优化视觉感知和推理能力。EVisRAG框架通过详细的实验表明,在ChartQA、InfoVQA、DocVQA、SlideVQA和ViDoSeek等多个数据集上,EVisRAG显著提高了回答准确率(平均+19%)和F1分数(平均+27%),这显示了它在处理多图像场景时的优越性和抗幻觉能力40。
-
来自Chinese Academy of Sciences等机构的Xiaonan Si等人探讨了检索增强生成(RAG)系统在面对知识库中毒和污染攻击时的脆弱性问题,提出了SeCon-RAG框架。该框架的创新之处在于采用了语义过滤和无冲突知识集成的两阶段方法,旨在提高RAG系统的安全性而不牺牲有用信息。SeCon-RAG的价值在于提供了一个平衡安全性和实用性的新方法,填补了现有防御措施过于严格或无效的空白。虽然具体实验结果未详述,但该框架预期能有效减少错误率,保护相关信息,并改善响应的准确性和连贯性41。
-
来自University of Technology Nuremberg和University of Bamberg等机构的Yanran Chen等人研究了AI驱动的情感框架对人类谬误检测的影响,提出了一种方法,即通过大型语言模型(LLMs)系统地改变论据的情感框架,同时保持其逻辑结构不变。该研究的主要创新点在于首次将情感维度纳入到计算和人类中心自然语言处理(NLP)研究中,利用LOGIC数据集评估情感框架对认知的影响。实验表明,情感框架降低了人类谬误检测性能,特别是恐惧、悲伤和享受等情绪影响最大,其中享受反而提高了谬误检测性能。该研究有助于理解和防范AI生成内容可能带来的误导风险,对于增强人类批判性思维技能具有重要意义42。
-
来自Chinese Academy of Sciences等机构的Zhao Tong等人关注的是假新闻检测模型在面对恶意评论时的脆弱性问题,提出了AdComment框架。该框架的创新点在于根据人类认知理论和心理学引入了三类评论攻击:感知型、认知型和社会情感型攻击,并使用大型语言模型(LLMs)生成模拟真实世界攻击情景的对抗评论。AdComment的价值在于提高了假新闻检测系统的鲁棒性,特别是在面对多种类型攻击时。实验结果显示,AdComment在RumourEval-19、Weibo16和Weibo20数据集上表现出了最高的相对改进(macro-F1平均+80.8%,准确率平均+75.2%),表明其在对抗训练中的有效性43。
-
来自清华大学等机构的Zheng Zhao等人研究了链式思考(CoT)推理在大型语言模型(LLMs)中的验证问题,提出了**Circuit-based Reasoning Verification (CRV)**方法。CRV的独特贡献在于构建并分析归因图以检测和理解推理错误,这种方法能够深入理解模型内部的因果关系。CRV通过新的基准数据集覆盖了合成任务(布尔和算术)以及真实世界的GSM8K数据集,证明了其在识别错误计算上的有效性,尤其是在算术问题复杂度增加的情况下。然而,研究也指出CRV的性能在跨领域验证中有所下降,显示出其局限性。总的来说,CRV为提高LLMs的推理可靠性提供了新的视角和工具44。
-
来自Syracuse University的Weibin Cai等人针对准确分类仇恨性梗图的问题进行了研究,提出了SHIELD框架。该框架的独特贡献在于通过预设上下文模块(PCM)和虚假声明模块(FACT)增强了仇恨性梗图的分类能力,特别是捕捉到预设的评价性上下文和错误的指称关系。SHIELD不仅在技术上有所创新,还在理论上结合了哲学和心理学关于仇恨和仇恨言论的观点,提供了更深层次的理解。实验表明,SHIELD在FHM和Harm-P数据集上表现出色,并成功应用于其他社交媒体任务,如假新闻分类,显示出其广泛适用性和对社会知识的必要性45。
-
来自某机构的Ruizhe Zhu等人研究了视觉语言模型(VLMs)对文本提示注入攻击的脆弱性问题,提出了一种系统性的文本提示注入算法。该算法的主要创新点在于通过识别图像中的高颜色一致性区域嵌入文本提示,确保OCR功能被触发以读取并遵循注入的提示。此方法的效率和隐蔽性使其优于基于梯度的对抗攻击,尤其适用于高分辨率图像。实验表明,该算法在Oxford-IIIT Pet数据集上显著提高了攻击成功率,最高达到77.0%,展示了其在操纵VLM响应方面的强大能力46。
技术趋势
本主题下的研究呈现出几个明显的趋势:
- 多模态信息处理:越来越多的研究开始探索如何有效整合和利用视觉与文本信息,以提高模型在复杂推理任务中的表现。
- 对抗学习与安全:研究者们越来越重视模型的安全性,特别是在面对恶意攻击时的鲁棒性,通过设计新的对抗学习策略来提高模型的防御能力。
- 深度理解和因果分析:除了提高模型的准确性,研究者们也开始注重理解模型的内部工作原理,通过构建和分析归因图等方法来深入探究推理失败的根本原因。
- 跨领域应用与扩展:一些研究试图将改进的方法扩展到其他相关领域,例如假新闻检测和仇恨性内容识别,以验证其通用性和适应性。
数据集和评估
本主题下的论文广泛使用了多种数据集来进行评估,包括但不限于数学基准测试数据集、ChartQA、InfoVQA、DocVQA、SlideVQA、ViDoSeek、LOGIC、RumourEval-19、Weibo16、Weibo20、GSM8K、FHM、Harm-P、ReCOVery、GossipCop和Oxford-IIIT Pet数据集。评估指标涵盖了广泛的范畴,包括准确率、F1分数、回答质量、推理可靠性、模型鲁棒性和攻击成功率等。这些数据集和评估指标共同构成了一个全面的评估体系,帮助研究者们从多个角度衡量所提方法的有效性和改进程度。
Topic 9: Instruction and Prompt Engineering
主题概述
指令与提示工程(Instruction and Prompt Engineering)是大型语言模型(LLMs)领域中的一个重要分支,旨在通过优化模型输入和输出的方式,提高模型在特定任务上的表现能力。这包括但不限于改善模型对用户指定格式的遵从性、增强跨语言翻译性能、解决模型过度自信的问题以及保障模型安全性。随着LLMs在复杂决策、科学研究和自动化问题解决等领域的广泛应用,这些问题变得尤为重要。有效解决这些问题能够显著提升LLMs的实际应用价值和可靠性。
各论文贡献
-
来自上海交通大学的Yiqi Li等人研究了大型语言模型在执行推理任务时难以严格遵守用户指定输出格式的问题,提出了DICE框架来指导小型语言模型(SLMs)修正大型语言模型(LLMs)的输出,确保其符合结构化输出规范。该方法的主要创新点在于采用了两阶段的数据集构建过程和双调优策略,无需修改LLM参数即可优化SLMs。产生的价值在于,通过DICE,研究人员能够在不损害模型推理能力的情况下,大幅提升输出格式准确性(F-Acc)和内容准确性(C-Acc),并展示了其强大的跨模型和跨数据集泛化能力47。
-
来自南京大学的Changjiang Gao等人探讨了翻译增强模型在数学和编程等推理任务上的性能下降问题。他们提出了一种新颖的训练方法,即层选择性调优,使用少量平行数据从指令模型开始训练新的Qwen3-XPlus-8B和Qwen3-XPlus-14B模型。主要创新点是通过仅对部分层进行调优,而不是进行全面调优或使用低秩适配器(LoRA)方法,从而提高了多语言和推理性能。产生的价值在于,这种高效且数据需求较少的方法可以广泛应用于多语言模型,提升其实用性和适应性48。
-
来自Georgia Institute of Technology的Yijin Ni等人关注于大型语言模型如GPT-5和Claude Sonnet 4在面对细微输入变化时表现出的过度自信问题,限制了它们在敏感任务中的可靠性和适应性。为此,他们引入了反向条件偏好学习(abductive preference learning),一种新型的微调范式,通过反转偏好优化方向,专注于响应如何支持一个提示而非另一个提示。主要创新点在于提供了一个理论基础,并证明了这种新方法可以在不牺牲泛化能力的前提下提升模型对提示变化的敏感度。产生的价值在于,这种方法不仅可以独立使用,也可以与其他偏好学习方法结合,以提高整体模型的性能和适应性49。
-
来自Traversaal.ai的Muhammad Ali Shafique等人针对低资源语言乌尔都语开发高性能大型语言模型(LLMs)的问题进行了研究,提出了Alif-1.0-8B-Instruct模型。该模型基于改良的自我指令技术,在高质量合成数据集上进行训练,特别注重乌尔都语原生的链式思考推理、双语翻译、文化相关性和伦理安全对齐。主要创新点是使用低秩适配器(LoRA)和Unsloth框架来优化训练成本和加速训练过程。产生的价值在于,通过这种方法,即使在预算有限的情况下,也能开发出性能优越的乌尔都语模型,同时保持英语流利度,避免了灾难性的遗忘问题50。
-
来自北京交通大学的Yuanming Zhang等人分析了用于大型语言模型交互的不同提示数据集的现状,提出了一个分层分类法作为研究人员的详细参考。该研究收集了超过1.22TB的数据和6.73亿个提示实例,涵盖129个异质来源。主要创新点在于进行了多层次的语言学分析,揭示了提示数据集中的组合模式和独特的语言特征。产生的价值在于,该系统方法不仅有助于改进提示工程,还能帮助理解跨领域和应用的提示结构和影响51。
-
来自Dennis Rall等人的研究聚焦于大型语言模型集成外部工具(如网络搜索功能)时面临的间接提示注入攻击风险。主要创新点在于设计了一个系统评估框架,评估模型对这些攻击的脆弱性,包括89个不同的攻击模板及其12种变体,形成每个模型1068个独特攻击实例的数据集。产生的价值在于,揭示了不同制造商模型在已知攻击模式下的持续漏洞,建议加强训练程序和建立统一的测试框架以提高模型的安全性52。
技术趋势
这些论文共同反映了在指令与提示工程领域内,研究人员正在探索多种方法来优化大型语言模型的性能。其中,创新点集中在利用辅助模型进行输出校正、层选择性调优、反向条件偏好学习、合成数据集的利用、以及系统性地评估模型安全性的新方法上。这些技术路径显示了当前研究致力于提升模型的灵活性、跨语言能力、对用户指令的理解和执行能力,同时也在加强模型的安全防护机制。
数据集和评估
- DICE:使用了GSM8K, MATH, CSQA, MedQA-zh, 和StrategyQA数据集,评估指标包括格式准确性(F-Acc)和内容准确性(C-Acc)47。
- LLaMAX2:未明确提及具体使用的数据集名称,但提到了NLLB和OPUS-100数据集的预处理和格式化工作,评估标准涉及spBLEU和xComet等翻译质量指标48。
- Abductive Preference Learning:使用了HaluEval, AlpacaEval, 和基于HumorDB的多模态数据集,评估标准包括传统准确性指标和反向条件准确性指标49。
- Alif:使用了Urdu-Instruct数据集,包含51,686个例子,评估标准涵盖了MGSM, AlpacaEval, 和Dolly General QA等乌尔都语翻译和推理基准50。
- Large Language Model Prompt Datasets: An In-depth Analysis and Insights:分析了七个大规模、多样化和代表性数据集,使用了TF-IDF分析、词性标注和依赖嵌入等方法,评估标准侧重于揭示提示数据集的组合模式和独特语言特性51。
- Exploiting Web Search Tools of AI Agents for Data Exfiltration:构建了包含1068个独特攻击实例的数据集,评估标准主要围绕模型对间接提示注入攻击的抵抗能力52。
Topic 10: Dialogue Systems and Interaction
主题概述
对话系统与交互(Dialogue Systems and Interaction)是一个重要的研究领域,它专注于提高人机交互的质量和效率。随着大型语言模型(LLMs)的发展,对话系统在多个应用场景中的表现得到了显著提升,但同时也面临着一系列挑战,例如用户意图模糊、个性化的陷阱以及嵌入社会偏见等问题。这些挑战不仅影响系统的准确性和用户体验,还涉及到伦理和社会公平性的问题。因此,如何设计和优化对话系统,使其能够更有效地理解和响应用户需求,同时避免潜在的社会偏见,成为了当前研究的重点。
各论文贡献
-
来自Northeastern University的Mert İnan等人研究了在数据可视化代码生成过程中识别并互动修正模糊的用户目标的问题,提出了一个分类模糊类型的框架,并引入了几种新的度量标准来量化这些模糊类型,同时探索了多轮对话策略在减少模糊性方面的作用。该方法的主要创新点是通过多轮对话策略来提高代码生成的准确性,产生的价值在于提供了一种有效的框架来评价和缓解对话系统中的模糊性问题。在DS-1000数据集上的实验表明,相比传统的无对话基线方法,他们的方法在语义模糊和欠指定场景下显著提高了任务成功率,主要结论是多轮对话策略可以有效减少模糊性并提升代码生成的准确性53。
-
来自Institute of Science Tokyo的Seiya Ishikura等人研究了利用大型语言模型(LLMs)模拟非名人个体性格特征的难题。他们提出了一种新的方法,即通过增加思维发声语料(Think-Aloud Utterances, TAUs)来增强对话数据,从而改进LLMs的性格特征建模能力。该方法的主要创新点在于结合了TAUs来模拟说话者的内部心理状态,产生的价值在于使得LLMs能够更好地模仿个体的性格特征,特别是在需要细致情感和认知反应的领域。实验结果显示,经过TAU增强的对话数据训练的模型,在开放性和神经质性两个性格特质上表现出更好的一致性,主要结论是整合TAUs能显著提升LLMs的性格特征再现能力54。
-
来自University of Southampton的Guanming Chen等人研究了从文本中检测个人性格特征的挑战,特别是对于语义稀疏环境如社交媒体帖子的处理。他们开发了一个脑启发的层次化信息处理框架(HIPPD),用于改善文本中性格特征的提取。该方法的主要创新点是融合了全局语义编码器、动态工作记忆模块和专家模型路由层,产生的价值在于提供了一种新的架构,能够有效处理性格检测中的类别不平衡和短文本挑战。实验结果表明,HIPPD在Kaggle和Pandora数据集上都优于现有的基准模型,平均Macro-F1得分分别为78.97%和68.98%,主要结论是HIPPD框架能够更准确地识别和理解文本中的性格特征55。
-
来自Technical University of Munich的Nafiseh Nikeghbal等人研究了在对话环境中大型语言模型(LLMs)可能隐藏的社会偏见问题。他们提出了CoBia方法,这是一种轻量级的对抗攻击手段,旨在通过构建对话来揭示LLMs中的隐性偏见。该方法的主要创新点在于使用单一查询即可暴露偏见,不需要复杂的操作或大量的查询。产生的价值在于提供了新的方式来检测和评估LLMs中的偏见,确保其安全和伦理的使用。实验显示,某些模型在面对CoBia方法时显示出较重的偏见,而其他模型则表现出较低的偏见评分,主要结论是LLMs的大小并不直接决定其安全性,且需要结合多种方法来全面评估偏见56。
-
来自Amazon的Xi Fang等人研究了长期用户记忆如何改变LLMs的情感推理能力,特别是当这种记忆包含社会偏见时。他们探讨了用户记忆如何系统性地影响LLMs对情感的理解和指导。该方法的主要创新点是基于Bourdieu的社会资本理论,创建多样化的用户档案,并应用情感理解测试来评估LLMs的情感推理能力。产生的价值在于揭示了个性化AI系统中潜在的社会偏见风险,这对心理健康支持等高风险领域的服务质量和公平性有着重大影响。实验结果表明,复杂用户档案的存在会影响LLMs的情感推理准确性,且在不同的人口统计因素下存在显著性能差异,主要结论是个性化机制可能会将社会等级嵌入到模型的情感推理中,这提示我们需要更加谨慎地设计这类系统以避免不公平现象的发生57。
技术趋势
该主题的研究主要集中在提高对话系统的理解和响应能力上,包括使用多轮对话策略来减少用户指令的模糊性、通过增加额外的对话元素如思维发声语料来丰富对话内容,以及设计专门的框架来处理特定的任务如性格检测和情感理解。此外,研究者们也开始关注如何检测和减轻LLMs中的社会偏见,这一方向体现了对伦理和社会责任的重视。这些研究共同推动了对话系统的技术进步,特别是在理解和处理人类情感及社会行为方面。
数据集和评估
- DS-1000: 用于评估多轮对话策略在减少模糊性和提高代码生成准确性方面的有效性。
- RealPersonaChat (RPC): 日文闲聊对话数据集,包括人口统计学和基于Big Five框架的性格特质信息。
- Kaggle和Pandora: 用于评估HIPPD框架在性格检测任务上的性能。
- CoBia: 包含112个社会群体和六类社会人口统计学负面描述的数据集,用于检测和暴露LLMs中的隐性社会偏见。
- STEU和STEM: 用于评估LLMs在情感理解上的表现,特别是考虑用户记忆和个人档案的影响。
评估指标主要包括pass@1(一次性成功完成任务的比例)、Macro-F1(衡量分类性能的综合指标)、情感理解测试的准确性,以及通过人工标注和自动化判断工具(如Bias Judge和NLI Judge)评估偏见的存在和程度。
Topic 11: misc
主题概述
misc 是一个涵盖广泛研究领域的主题,涉及自然语言处理(NLP)、机器学习、计算机视觉等多个方面。这些研究旨在解决特定场景中的复杂问题,如学术推广自动化、因果关系发现、肩部疾病的诊断等,通过引入新的方法或框架,以提高效率、精确度和应用范围。这些研究对于推动相关领域的发展具有重要意义,特别是在资源有限、任务复杂的场景下,它们提供了更高效、更可靠的解决方案。
各论文贡献
-
来自哈尔滨工业大学的Qiguang Chen等人研究了学术论文推广材料创建的低效性和不精准问题,提出了AutoPR框架来解决这一核心问题。该方法的主要创新点是引入了PRBench数据集和PRAgent三阶段框架,分别包括内容提取、多智能体内容合成以及平台特异性适应。产生的价值在于系统化地提高了学术推广内容的质量、互动性和平台适用性。在RedNote平台上的实验表明,相比直接提示基线方法,PRAgent实现了至少7.15%的性能提升,得出的结论是自动化框架可以显著提升用户参与度和学术工作的可见性58。
-
来自北京大学的Feifan Song等人探讨了大型推理模型在推理过程中过度思考的问题,提出了Group Relative Segment Penalization (GRSP)方法。该方法的主要创新点是针对推理步骤而非标记进行长度惩罚控制,从而减少计算成本同时保持或提高任务表现。产生的价值在于提供了一种稳定且有效的方法来管理过度思考,而不会降级模型的表现。在MATH 500、AIMO Prize 1、Omni-MATH 500基准数据集上的实验表明,相比LCPO和O1-Pruner等基线方法,GRSP显著减少了标记使用量,同时保持了最高准确性59。
-
来自TU Delft的Yavuz Durmazkeser等人研究了大型语言模型(LLMs)在特定任务或数据分布上的选择问题,提出了LLM Selector框架。该方法的主要创新点是基于有限注释的动态模型选择,使用弱裁判进行注释并采用信息增益标准量化信息性。产生的价值在于在严格的注释预算限制下,提供了一种更高效的模型选择方法。在六项基准测试上,与随机、Bradley-Terry等基线方法相比,LLM Selector在识别最优模型方面表现出更高的效率和精度60。
-
来自西安电子科技大学的Ziyu Zheng等人研究了现有图提示调优方法单一粒度的局限性,提出了Multi-Scale Graph Chain-of-Thought (MSGCOT)框架。该方法的主要创新点是引入轻量级粗化网络提取多尺度特征,并使用回溯优化策略逐步细化提示。产生的价值在于通过多尺度信息整合增强了图神经网络(GNNs)在节点和图分类任务上的性能。在八个基准数据集上的实验表明,MSGCOT在单次分类任务中比最强基线方法平均提升了5%到20%的准确率61。
-
来自香港大学的Eshaan Tanwar等人研究了领域特定微调如何重塑大型语言模型参数空间的问题,提出了**’tuning vectors’概念。该方法的主要创新点是捕获领域特定微调带来的方向性参数变化**。产生的价值在于提供了一种系统化的分析方法,理解领域特定微调的影响及其潜在组合效应。实验显示,移除调优向量会导致模型在医疗基准测试、文本生成和指令跟随任务上出现显著性能下降62。
-
来自国防科技大学的Fang Yuan等人研究了手动编码规则的繁琐过程,提出了NL2GenSym框架。该方法的主要创新点是利用大型语言模型(LLMs)自动生成和持续优化适用于SOAR认知架构的执行规则。产生的价值在于自动化规则生成流程,使非专家也能开发和改进类似人类的智能代理。实验结果表明,NL2GenSym在成功率和平均决策周期数上均优于基线方法63。
-
来自密歇根大学的Yunxiang Zhang等人研究了在推理阶段激活大型语言模型(LLMs)长期推理能力的问题,提出了ThinkLogit和ThinkLogit-DPO两种解码技术。该方法的主要创新点是无需额外训练即可将长期推理行为从小型训练模型转移到大型模型。产生的价值在于降低了训练大模型用于特定任务的成本和资源负担。实验结果显示,ThinkLogit在多个基准测试上比冻结模型基线提高了24.5%的相对准确率64。
-
来自阿里巴巴集团的Hairu Wang等人研究了个体卖家在C2C电子商务平台上定价二手商品的挑战,提出了LLP系统。该方法的主要创新点是提出一种’检索后推理’范式来生成价格建议。产生的价值在于通过结合监督微调和策略优化技术,提高模型在定价复杂和多样化产品上的表现。实验表明,LLP系统在多个评估指标上显著优于其他基线方法65。
-
来自南加州大学的Hossein Entezari Zarch等人研究了解码阶段长上下文推理的高计算成本和内存带宽瓶颈问题,提出了DELTA机制。该方法的主要创新点是通过稀疏注意力机制来降低计算成本,同时保持准确性。产生的价值在于使大型推理模型能够更加有效地服务于长上下文推理任务。实验结果表明,DELTA在AIME和GPQA-Diamond基准测试上匹配或超越了全注意力机制的准确性66。
-
来自微软的Vishal Anand等人研究了在神经语言模型中解释风格和含义的不可分离性问题,提出了iBERT架构。该方法的主要创新点是生成分解且可解释的表示,而不是密集向量表示。产生的价值在于提高了模型的透明度和控制能力。实验表明,iBERT在某些数据集上风格表示学习的准确率比基线提高了8个百分点67。
-
来自上海交通大学的Jianuo Huang等人研究了扩散大型语言模型(dLLMs)在长上下文推理中的内存和计算开销问题,提出了MaskKV框架。该方法的主要创新点是通过注意力评分识别和保留关键提示标记,同时安全地剔除不重要的标记。产生的价值在于缓解了dLLMs的内存和计算瓶颈,同时维持高准确率。实验结果表明,MaskKV在LLaDA-8B和Dream-7B模型上显著减少了内存和计算开销68。
-
来自约翰霍普金斯大学的Adam Byerly等人研究了大型语言模型在多文档环境中的位置偏差问题,提出了Gold Panning Bandits和Gold Panning算法。该方法的主要创新点是将位置偏差视为信号进行利用,而非噪声进行抑制。产生的价值在于提高在知识密集型任务中识别相关信息的能力。实验结果显示,Gold Panning算法在MonoRel数据集上比信息无关基线提高了34%的准确性69。
-
来自上海交通大学的Jiale Guo等人分析了在大型语言模型(LLMs)赋能的软件工程系统中基准和解决方案之间的联系,提出了全面的分类法。该方法的主要创新点是将解决方案分为提示基础、微调基础和代理基础三个类别,并将其映射到相关的基准测试。产生的价值在于提供了一个完整的LLM赋能软件工程的工作流视图。该论文未提供具体实验结论或数据集比较70。
-
来自上海交通大学的Jianghao Lin等人批判性地讨论了AI生成综述论文的趋势及其可能的危害,提出了对AI生成综述论文质量及影响的担忧。该方法的主要创新点是没有提出新方法,而是对AI生成综述论文的现象进行了深入分析。产生的价值在于强调了AI生成综述论文缺乏深度整合知识和批判性评价的问题。该论文未提供具体实验结论或数据集比较71。
-
来自深圳大学的Zhitian Hou等人研究了中国法律文件生成中的法院观点部分,提出了ShiZhi模型。该方法的主要创新点是专门针对法庭观点生成任务进行微调。产生的价值在于展示了轻量级模型在特定领域数据集上的有效性。实验结果显示,ShiZhi在法院观点生成和指控预测上均优于基线Qwen2-0.5B-Instruct模型72。
-
来自耶鲁大学的Shengmin Piao等人研究了轻量级、高效的文本到SQL框架,提出了LitE-SQL。该方法的主要创新点是利用矢量化的模式链接技术和执行引导的自我校正机制。产生的价值在于通过较小的模型尺寸实现高效和准确的自然语言到SQL的转换。实验表明,LitE-SQL在BIRD和Spider 1.0数据集上达到了较高的执行准确率,同时减少了模型参数量73。
-
来自香港大学的Sicong Huang等人研究了抽象摘要生成中的不忠实现象,提出了三种细粒度微调方法:梯度上升、负例训练和任务向量否定。该方法的主要创新点是构建了包含LLM生成摘要的新型数据集,并进行了细粒度标注。产生的价值在于改善了模型生成摘要时的忠实度。实验结果显示,所有三种方法都提高了G-Eval和AlignScore衡量的忠实度74。
-
来自东京大学的Keno Harada等人研究了大语言模型在自动作文评分中的静态评分标准问题,提出了迭代细化评分标准框架。该方法的主要创新点是允许LLMs反思评分理由和与人类评分的差异,然后调整评分标准。产生的价值在于展示了LLMs可以通过自主调整评分标准来提高其评分准确性。实验表明,迭代细化方法显著提高了评分的一致性和准确性75。
-
来自卡内基梅隆大学的Beige Jerry Jin等人研究了脑活动估计问题,提出了自然语言到生成符号规则的框架。该方法的主要创新点是通过多模态大型语言模型(MLLMs)自动生成和优化规则。产生的价值在于增强了对复杂脑活动的理解和预测能力。实验结果显示,模型在多个数据集上表现优异,尤其在复杂病例中76。
-
来自香港科技大学的Wenyi Wu等人研究了GUI代理在不熟悉界面和长时任务上的泛化能力差的问题,提出了连续记忆系统CoMEM。该方法的主要创新点是使用固定长度序列的连续嵌入编码轨迹,减少了上下文成本。产生的价值在于提高了GUI代理在真实世界应用中的可靠性和效率。实验表明,CoMEM系统在多个GUI基准测试上表现优异,尤其是在OOD环境中77。
-
来自约翰霍普金斯大学的Jiuheng Lin等人研究了大型语言模型在多选题训练中的逻辑一致性问题,提出了CLARity框架。该方法的主要创新点是引入了一致性感知学习机制和两阶段精炼监控管道。产生的价值在于通过较少的数据和计算资源提高了模型的逻辑一致性和可靠性。实验结果显示,CLARity在逻辑一致性方面比标准RL基线提高了16.5%,在合理推理准确性方面提高了7.5%78。
-
来自阿里云的Yantao Du等人研究了危机通信中生成警告消息的有效性问题,提出了CrisiText数据集。该方法的主要创新点是包含超过40万条警告消息,涵盖了13种不同的危机情景。产生的价值在于提供了生成危机情景下警告消息的资源和框架。实验表明,使用Llama-3模型生成的警告消息质量更高79。
-
来自腾讯的Xiangxu Zhang等人研究了医疗诊断评估基准与现实临床实践的不匹配问题,提出了DyReMe动态评估框架。该方法的主要创新点是集成差异诊断、误诊因素和患者表达风格来模拟更真实的临床情景。产生的价值在于提供了一个更符合临床需求的评估框架。实验结果表明,DyReMe在多个维度上比现有静态基准表现更好80。
-
来自IBM研究院的Yue Huang等人研究了代理系统的预执行安全护栏问题,提出了AuraGen合成数据引擎和Safiron基础安全护栏系统。该方法的主要创新点是生成多样化的风险轨迹,用于预执行安全训练。产生的价值在于提供了一个可扩展、可控且通用的解决方案来处理各种风险情景。实验结果表明,Safiron在检测准确性、细粒度分类和解释性方面优于开放权重和专有基线81。
-
来自澳大利亚国立大学的Gregory D. Baker研究了可解释机器学习与黑箱模型之间的分离问题,提出了叙事学习(Narrative Learning)方法。该方法的主要创新点是通过一个监督者模型生成自然语言提示,底层模型则根据这些提示进行分类任务的评估。产生的价值在于提供了一种既可被人类理解又可由计算机执行的新方法。实验结果显示,叙事学习集成在多个数据集上表现优于传统可解释模型82。
-
来自清华大学的Xiangxu Zhang等人研究了医疗诊断评估基准与现实临床实践的不匹配问题,提出了DyReMe动态评估框架。该方法的主要创新点是通过DyGen生成现实且具有挑战性的诊断问题,通过EvalMed评估模型的多种性能维度。产生的价值在于提供了一个更符合临床需求的评估框架。实验结果表明,DyReMe在多个维度上比现有静态基准表现更好80。
-
来自日本先端科学技术大学院大学的Kohei Oda等人研究了句子嵌入方法未能捕捉隐含语义的问题,提出了DualCSE框架。该方法的主要创新点是为每个句子分配两个嵌入,一个用于显式语义,另一个用于隐式语义。产生的价值在于提高了模型对句子隐含语义的理解能力。实验结果表明,DualCSE在RTE和EIS任务上优于SimCSE等基线方法83。
技术趋势
这些论文展现了几个关键的技术趋势:
-
自动化与优化:许多研究集中在提高自动化程度和优化效率,例如通过自动化提示生成、多模态数据整合以及模型选择算法。
-
多模态处理:越来越多的研究开始探索多模态数据的处理,如图像、视频、文本和表格数据的综合理解,以应对复杂任务的需求。
-
模型微调与适应性:通过精细的微调和适应性策略来提升模型在特定领域的性能,确保模型能够更好地理解和处理特定类型的任务或数据。
-
安全与信任:一些研究关注于提高模型的安全性和可信度,例如通过引入安全护栏、改进模型推理的一致性以及增强模型生成内容的忠实度。
数据集和评估
这些论文使用的数据集包括:
- PRBench:用于评估学术推广自动化框架的多模态样本数据集。
- MATH 500, AIMO Prize 1, Omni-MATH 500:用于评估推理模型过思考问题的数据集。
- Inf-Streams-Train, Inf-Streams-Eval:用于视频流理解的体育评论数据集。
- CrisiText:包含13种不同危机情境下的警告消息的大规模数据集。
- CCVG:包含超过110,000个案件的中国法院观点生成数据集。
- Pre-Exec Bench:用于评估代理系统预执行安全性的基准数据集。
- Synthetic Multilingual, BLiMP, SICK:用于评估跨语言和跨模型几何变换的多语言数据集。
- LongBench:用于评估长上下文推理的基准数据集。
- LoCoMo:用于评估长期交互中LLM代理的记忆和一致性能力的数据集。
评估指标包括:
- 准确率(Accuracy)
- 召回率(Recall)
- F1分数(F1 Score)
- BLEU-1分数
- ROUGE-1和ROUGE-L分数
- Quadratic Weighted Kappa(QWK)
- Usability Index(UI)
- Effective Update Ratio(EUR)
- Update Consistency(UC)
- Rotor Alignment Scores
- Execution Accuracy
- Response Consistency
- Logical Consistency
以上总结报告详细介绍了各个研究论文的贡献、技术创新点以及所取得的实际效果,突出了在misc主题下,不同研究团队如何通过各自独特的方法和技术路线推进该领域的进步。
参考文献
-
Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models ↩︎
-
ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering ↩︎
-
All Code, No Thought: Current Language Models Struggle to Reason in Ciphered Language ↩︎
-
A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: Performance, Consistency, and Faithfulness Across Languages ↩︎
-
Hybrid Models for Natural Language Reasoning: The Case of Syllogistic Logic ↩︎
-
Stronger Re-identification Attacks through Reasoning and Aggregation ↩︎
-
Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors ↩︎
-
Exploring Cross-Lingual Knowledge Transfer via Transliteration-Based MLM Fine-Tuning for Critically Low-resource Chakma Language ↩︎
-
CapGeo: A Caption-Assisted Approach to Geometric Reasoning ↩︎
-
CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation ↩︎
-
DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation ↩︎
-
Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation ↩︎
-
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents ↩︎
-
Multimodal Policy Internalization for Conversational Agents ↩︎
-
Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Markov Likelihood ↩︎
-
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models ↩︎
-
DSPO: Stable and Efficient Policy Optimization for Agentic Search and Reasoning ↩︎
-
SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models ↩︎
-
Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models ↩︎
-
Accent-Invariant Automatic Speech Recognition via Saliency-Driven Spectrogram Masking ↩︎
-
The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach ↩︎
-
Unsupervised lexicon learning from speech is limited by representations rather than clustering ↩︎
-
Large Language Models Do NOT Really Know What They Don’t Know ↩︎
-
Closing the Data-Efficiency Gap Between Autoregressive and Masked Diffusion LLMs ↩︎
-
NG-Router: Graph-Supervised Multi-Agent Collaboration for Nutrition Question Answering ↩︎
-
ReaLM: Residual Quantization Bridging Knowledge Graph Embeddings and Large Language Models ↩︎
-
Hierarchical Indexing with Knowledge Enrichment for Multilingual Video Corpus Retrieval ↩︎
-
FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference ↩︎
-
Task-Aware Resolution Optimization for Visual Large Language Models ↩︎
-
Prompting Test-Time Scaling Is A Strong LLM Reasoning Data Augmentation ↩︎
-
Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World ↩︎
-
Domain-Adapted Pre-trained Language Models for Implicit Information Extraction in Crash Narratives ↩︎
-
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics ↩︎
-
Judge’s Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement ↩︎
-
Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation ↩︎
-
Can We Reliably Rank Model Performance across Domains without Labeled Data? ↩︎
-
TripScore: Benchmarking and rewarding real-world travel planning with fine-grained evaluation ↩︎
-
ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability ↩︎
-
VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation ↩︎
-
SeCon-RAG: A Two-Stage Semantic Filtering and Conflict-Free Framework for Trustworthy RAG ↩︎
-
Emotionally Charged, Logically Blurred: AI-driven Emotional Framing Impairs Human Fallacy Detection ↩︎
-
Group-Adaptive Adversarial Learning for Robust Fake News Detection Against Malicious Comments ↩︎
-
Verifying Chain-of-Thought Reasoning via Its Computational Graph ↩︎
-
Unpacking Hateful Memes: Presupposed Context and False Claims ↩︎
-
DICE: Structured Reasoning in LLMs through SLM-Guided Chain-of-Thought Correction ↩︎ ↩︎
-
LLaMAX2: Your Translation-Enhanced Model also Performs Well in Reasoning ↩︎ ↩︎
-
Alif: Advancing Urdu Large Language Models via Multilingual Synthetic Data Distillation ↩︎ ↩︎
-
Large Language Model Prompt Datasets: An In-depth Analysis and Insights ↩︎ ↩︎
-
Exploiting Web Search Tools of AI Agents for Data Exfiltration ↩︎ ↩︎
-
Identifying & Interactively Refining Ambiguous User Goals for Data Visualization Code Generation ↩︎
-
Augmenting Dialog with Think-Aloud Utterances for Modeling Individual Personality Traits by LLM ↩︎
-
HIPPD: Brain-Inspired Hierarchical Information Processing for Personality Detection ↩︎
-
CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs ↩︎
-
The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs ↩︎
-
Beyond Single-Granularity Prompts: A Multi-Scale Chain-of-Thought Prompt Learning for Graph ↩︎
-
NL2GenSym: Natural Language to Generative Symbolic Rules for SOAR Cognitive Architecture via Large Language Models ↩︎
-
Logit Arithmetic Elicits Long Reasoning Capabilities Without Training ↩︎
-
DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning ↩︎
-
iBERT: Interpretable Style Embeddings via Sense Decomposition ↩︎
-
Mask Tokens as Prophet: Fine-Grained Cache Eviction for Efficient dLLM Inference ↩︎
-
Gold Panning: Turning Positional Bias into Signal for Multi-Document LLM Reasoning ↩︎
-
A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System ↩︎
-
Stop DDoS Attacking the Research Community with AI-Generated Survey Papers ↩︎
-
ShiZhi: A Chinese Lightweight Large Language Model for Court View Generation ↩︎
-
LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction ↩︎
-
Enhancing Faithfulness in Abstractive Summarization via Span-Level Fine-Tuning ↩︎
-
Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise ↩︎
-
Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs ↩︎
-
CLARity: Reasoning Consistency Alone Can Teach Reinforced Experts ↩︎
-
CrisiText: A dataset of warning messages for LLM training in emergency communication ↩︎
-
Inflated Excellence or True Performance? Rethinking Medical Diagnostic Benchmarks with Dynamic Evaluation ↩︎ ↩︎
-
Building a Foundational Guardrail for General Agentic Systems via Synthetic Data ↩︎
-
It’s 2025 – Narrative Learning is the new baseline to beat for explainable machine learning ↩︎
-
One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations ↩︎