第二期(20250311-20250409)
标题: Eigenvalue-Based Randomness Test for Residual Diagnostics in Panel Data Models
作者: Marcell T. Kurbucz, Betsabé Pérez Garrido, Antal Jakovác
摘要: 本文提出基于随机矩阵理论Tracy-Widom定律的特征值随机性检验(EBR),用于面板数据模型的残差分析。与传统方法仅针对截面依赖性或自相关等特定问题不同,EBR通过分析对称化残差矩阵的最大特征值同时检验多个假设。蒙特卡洛模拟表明,EBR不仅能稳健检测自相关和线性截面依赖(CSD)等标准违规,还能识别更复杂的非线性和非单调依赖关系,使其成为提升面板数据分析可靠性的全面且高度灵活的工具。
链接: http://arxiv.org/abs/2504.05297v1
标题: A BLE and UWB Beacon-Assist Framework for Multiuser Augmented Reality Synchronization Across Multiple Devices in Shared Environments
作者: Maitree Hirunteeyakul
摘要: 增强现实(AR)跨设备同步的挑战通常依赖视觉特征映射解决,但这种方法在可扩展工作空间和应对环境视觉变化方面存在缺陷。本研究利用蓝牙低功耗(BLE)和超宽带(UWB)信标技术实现AR同步解决方案,解决现有AR系统的可扩展性和一致性问题。该框架分为两种方法:BLE辅助和UWB辅助AR同步。BLE辅助方法利用iBeacon技术进行房间上下文识别,与Apple ARKit的ARWorldMap和Google ARCore的云锚点集成;UWB辅助方案则通过精确的信标测距能力融合设备方位角,建立跨会话/设备的固定空间参考。对比评估显示,UWB辅助方法在环境变化下的可靠性更优,无论物理设置如何变化都能以平均25秒的近乎恒定延迟成功解析虚拟锚点;而BLE辅助方法在虚拟锚点解析精度上更优,位置误差平均0.02米,方向误差0.03弧度。UWB辅助方案计算的空间参考平均位姿差异为0.04米和0.11弧度,适合需要持续成功定位且精度可接受的场景;BLE辅助则更适用于对虚拟锚点位姿精度要求高但环境变化较少的短期AR会话。
链接: http://arxiv.org/abs/2504.05293v1
标题: Bayesian local clustering of age-period mortality surfaces across multiple countries
作者: Giovanni Romanò, Emanuele Aliverti, Daniele Durante
摘要: 尽管传统的死亡率建模研究主要集中于单一国家分析,但近期研究已逐步转向多国联合建模。这种联合建模方法不仅有助于通过信息共享改进年龄-时期预测,还能揭示特定年龄组和时期的国家间死亡率模式的局部相似性,从而发现未被探索的人口趋势并指导针对性政策制定。目前这一重要方向的发展受到缺乏多国模型的制约,该模型需要能够整合年龄-时期死亡率表面的核心结构,同时捕捉国家间非全局性、而是随不同年龄和时期组合变化的局部聚类模式。我们通过开发一个新颖的贝叶斯对数死亡率模型来填补这一空白,该模型通过B样条展开表征死亡率年龄结构,其国家特定的动态系数既编码了该年龄结构随时期的变化,也编码了在时间依赖性随机分割先验下这些国家特定动态系数的局部聚类模式。尽管模型灵活,该公式允许通过专门设计的Gibbs采样器进行易处理的后验推断。对14个国家死亡率数据的应用揭示了局部相似性,既突出了已知的人口现象,也发现了尚未被探索的趋势。
链接: http://arxiv.org/abs/2504.05240v1
标题: A moving target in AI-assisted decision-making: Dataset shift, model updating, and the problem of update opacity
作者: Joshua Hatherley
摘要: 机器学习(ML)系统容易因数据集偏移而随时间出现性能下降。为解决这一问题,专家通常建议应定期更新ML系统以确保持续的性能稳定性。虽然已有文献开始探讨与不同更新方法相关的认知和伦理挑战,但迄今为止,AI伦理和AI认识论文献中很少关注模型更新对ML辅助决策过程本身的影响。本文旨在填补这一文献空白,论证模型更新在ML辅助决策中引入了一种新型的不透明性——更新不透明性,即当用户无法理解更新如何或为何改变了ML系统的推理或行为时发生。这种不透明性带来了一系列独特的认知和安全问题,而现有的ML黑箱问题解决方案大多无法有效应对。为解决更新不透明性问题,可开发或采用多种替代策略,包括双事实解释、动态模型报告和更新兼容性等。然而,每种策略都有其自身风险或存在重大局限性。未来需要进一步研究来解决与模型更新和更新不透明性相关的认知和安全问题。
链接: http://arxiv.org/abs/2504.05210v1
标题: Utility-aware Social Network Anonymization using Genetic Algorithms
作者: Samuel Bonello, Rachel G. de Jong, Thomas H. W. Bäck, Frank W. Takes
摘要: 社交网络可能包含个人的隐私敏感信息。网络匿名化问题的目标是通过改变给定的社交网络数据集,最大化社交图中匿名节点的数量。这里的匿名节点是指没有唯一周围网络结构的节点。同时,目标是确保数据效用,即保留拓扑网络属性并在下游网络分析任务中保持良好性能。我们提出了针对该问题的两种遗传算法版本:一种通用遗传算法和一种唯一性感知遗传算法(UGA)。后者通过在突变过程中更有针对性地处理边,避免连接到已经匿名节点的边,从而提高算法效率。经过超参数调优后,我们在多个真实网络数据集上将这两种遗传算法与两种现有基线算法进行比较。结果显示,所提出的遗传算法平均比最佳基线算法多匿名化14倍的节点。此外,数据效用实验表明UGA需要删除更少的边,且我们的遗传算法与基线在下游任务上的性能保持得同样好。总体而言,我们的结果表明遗传算法是解决网络匿名化问题的有前景的方法。
链接: http://arxiv.org/abs/2504.05183v1
标题: Blending Queries and Conversations: Understanding Tactics, Trust, Verification, and System Choice in Web Search and Chat Interactions
作者: Kerstin Mayerhofer, Rob Capra, David Elsweiler
摘要: 本文介绍了一项用户研究(N=22),参与者使用结合网络搜索和生成式AI聊天功能的界面来解决健康相关信息任务。我们研究人们如何使用该界面、为何以特定方式行为以及这些行为的结果。通过有声思考协议捕捉他们在搜索过程中的思维活动。我们的发现表明,生成式AI既不是搜索的万能药,也不比标准网络搜索界面有重大退步。定性和定量分析识别出五个类别下的78种策略,并提供了关于不同界面功能如何及为何被使用的见解。我们发现任务前信心和信任都会影响使用哪种界面功能。在这两种系统中,特别是使用聊天功能时,信任常常被错误地放在易用性和看似完美的答案上,导致尽管结果不正确,搜索后的信心却增加了。我们讨论了这些发现对我们定义的研究问题的意义,并概述了几个未来研究的开放性问题。
链接: http://arxiv.org/abs/2504.05156v1
标题: SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation
作者: Stephen Brade, Sam Anderson, Rithesh Kumar, Zeyu Jin, Anh Truong
摘要: 新手内容创作者通常花费大量时间录制富有表现力的语音用于社交媒体视频。虽然最近的文本转语音(TTS)技术进步可以生成高度逼真的多种语言和口音的语音,但许多人难以使用不直观或过于细粒度的TTS界面。我们建议通过允许用户在其脚本旁指定高级上下文来简化TTS生成。我们的Wizard-of-Oz系统SpeakEasy利用用户提供的上下文来指导和影响TTS输出,支持通过高级反馈进行迭代优化。这种方法基于两项各8名参与者的形成性研究:一项考察内容创作者使用TTS的体验,另一项借鉴配音演员的有效策略。我们的评估显示,使用SpeakEasy的参与者更成功地生符合其个人标准的语音表现,且不需要比行业领先界面显著更多的努力。
链接: http://arxiv.org/abs/2504.05106v1
标题: Flexible Estimation of the Heterogeneous Non-Parametric Component in a Relative Survival Cure Model
作者: Fabrizio Di Mari, Roberto Rocci, Silvia Rossi, Giovanna Tagliabue, Roberta De Angelis
摘要: 在存在竞争性死亡原因的情况下,准确估计疾病人群的治愈比例对患者和临床医生都至关重要。当死亡原因信息不可得或不可靠时,相对生存(RS)框架成为估计净生存的首选方法,该方法表示在假设疾病是唯一可能死亡原因的情况下生存情况。在癌症研究中,RS常达到平台期,表明部分确诊患者已治愈,因为他们与具有相似人口统计学特征的健康人群具有相同的死亡风险。传统RS治愈模型使用逻辑回归估计治愈患者比例,但这种函数形式具有一定任意性,错误设定会严重扭曲治愈指标。这可能导致癌症治疗在人群层面疗效评估不准确,进而影响患者护理决策。本文通过放松参数假设,在广义模型和神经网络框架下考虑协变量的灵活函数来解决这一问题。我们为这些RS治愈模型设计了EM算法,并通过模拟研究比较新方法与经典方法。我们将该方法应用于意大利历史癌症登记的真实数据集,结果表明所提模型优于传统方法,并为意大利结肠癌患者的生存结果提供了有价值的见解。
链接: http://arxiv.org/abs/2504.05093v1
标题: Dominating Hyperplane Regularization for Variable Selection in Multivariate Count Regression
作者: Alysha Cooper, Zeny Feng, Ayesha Ali, Tim Arciszewski, Lorna Deeth
摘要: 由于复杂的关联和过度离散,在高维设置中识别影响复合数据中多项计数的相关因素具有挑战性。虽然Dirichlet-multinomial(DM)、负多项式和广义DM等多变量计数模型能适应过度离散,但由于其非凹似然函数而难以优化。此外,当潜在相关因素数量较大时,将协变量与多变量计数结果关联的回归模型需要进行变量选择。稀疏群套索(SGL)是正则化这些模型的自然选择。基于理解加拿大阿萨巴斯卡油砂地区水质与底栖大型无脊椎动物群落组成关联的动机,我们开发了支配超平面正则化(DHR),这是一种优化带SGL惩罚的正则化回归模型的新方法。在Majorization-Minimization框架下,我们证明将DHR应用于SGL惩罚会产生可表示为加权岭惩罚的替代函数。因此,我们证明了对于带SGL惩罚的多变量计数回归模型,优化会导致迭代再加权泊松岭回归。通过模拟和底栖大型无脊椎动物群落组成的实际应用,我们展示了算法的稳定优化和高性能。
链接: http://arxiv.org/abs/2504.05034v1
标题: Graph-based Diffusion Model for Collaborative Filtering
作者: Xuan Zhang, Xiang Deng, Hongxing Yuan, Chunyu Wei, Yushun Fan
摘要: 最近,基于扩散的推荐方法取得了令人印象深刻的成果。然而,现有方法主要将每个用户的历史交互视为独立训练样本,忽略了用户与项目间可能存在的更高阶协同信号。这些信号封装了更丰富和更细致的关系,可以自然地使用基于图的数据结构来捕捉。为弥补这一局限,我们通过直接使用扩散模型建模用户-项目二部图,将基于扩散的推荐方法扩展到图领域。这使得能够更好地建模复杂交互动态中固有的高阶连接性。然而,这种扩展引入了两个主要挑战:(1)噪声异质性,即交互受到各种形式的连续和离散噪声影响;(2)关系爆炸,指处理大规模图的高计算成本。为解决这些挑战,我们提出了基于图的扩散协同过滤模型(GDMCF)。为应对噪声异质性,我们引入了整合连续和离散噪声的多级噪声腐蚀机制,有效模拟真实世界的交互复杂性。为缓解关系爆炸,我们设计了用户活跃度引导的扩散过程,有选择地关注最有意义的边和活跃用户,在保持图拓扑完整性的同时降低推理成本。在三个基准数据集上的大量实验表明,GDMCF始终优于最先进的方法,突出了其在捕捉高阶协同信号和提升推荐性能方面的有效性。
链接: http://arxiv.org/abs/2504.05029v1
标题: Surveying Professional Writers on AI: Limitations, Expectations, and Fears
作者: Anastasiia Ivanova, Natalia Fedorova, Sergey Tilga, Ekaterina Artemova
摘要: 尽管AI驱动工具特别是大语言模型(LLM)的快速发展正在重塑专业写作领域,但其采用的关键方面如语言支持、伦理问题以及对作者声音和创造力的长期影响仍未得到充分探索。在这项工作中,我们对301名经常使用AI的专业写作者进行了问卷调查,并对36人进行了互动调查,考察了25+种语言中LLM辅助写作实践、伦理关切和用户期望。调查结果展示了重要见解,反映了以下方面的重要性:非英语使用者对LLM的采用;错误信息程度、领域和风格适应;LLM的可用性和关键特性。这些见解可以指导进一步开发,使写作者和更广泛的用户群体受益。
链接: http://arxiv.org/abs/2504.05008v1
标题: SurvSurf: a partially monotonic neural network for first-hitting time prediction of intermittently observed discrete and continuous sequential events
作者: Yichen Kelly Chen, Sören Dittmer, Kinga Bernatowicz, Josep Arús-Pous, Kamen Bliznashki, John Aston, James H. F. Rudd, Carola-Bibiane Schönlieb, James Jones, Michael Roberts
摘要: 我们提出了一种基于神经网络的生存模型(SurvSurf),专门用于从基线直接且同时概率预测序列事件的首次命中时间。与现有模型不同,SurvSurf理论上保证不会违反序列事件累积发生率函数间的单调关系,同时允许预测因子的非线性影响。该模型还在模型拟合中纳入了未观测中间事件的隐含真实情况,并支持离散和连续时间及事件。我们还确定了一种集成Brier评分(IBS)的变体,通过考虑缺失中间事件的隐含真实情况,该变体显示出与真实概率和预测概率间均方误差(MSE)的稳健相关性。在两个模拟数据集和两个真实数据集中,我们证明了SurvSurf相较于现代和传统预测生存模型的优越性,使用MSE、更稳健的IBS以及通过测量单调性违反程度进行评估。
链接: http://arxiv.org/abs/2504.04997v1
标题: How Is Generative AI Used for Persona Development?: A Systematic Review of 52 Research Articles
作者: Danial Amin, Joni Salminen, Farhan Ahmed, Sonja M. H. Tervola, Sankalp Sethi, Bernard J. Jansen
摘要: 尽管生成式AI(GenAI)具有用于人物角色开发的潜力,但必须解决许多挑战。本研究系统回顾了2022-2024年的52篇文章,得出重要发现。首先,封闭商业模型在人物角色开发中频繁使用,造成了单一文化。其次,GenAI用于人物角色开发的各个阶段(数据收集、分割、丰富和评估)。第三,与其他定量人物角色开发技术类似,AI生成人物角色的评估存在重大空白。第四,尽管人类监督对维护伦理标准至关重要,但人-AI协作模型发展不足。这些发现意味着要实现AI生成人物角色的全部潜力,需要学术界和产业界的实质性努力。为此,我们提供了一系列研究路径以启发未来工作。
链接: http://arxiv.org/abs/2504.04927v1
标题: On misconceptions about the Brier score in binary prediction models
作者: Linard Hoessly
摘要: Brier评分是临床研究中广泛使用的评估二元结果概率预测整体性能的指标。然而,其解释可能很复杂,因为它与医学统计中通常教授的概念不一致。因此,Brier评分经常被误解,有时甚至被严重误解,这一事实在文献中尚未得到充分解决。本评论旨在探讨围绕Brier评分的普遍误解,并阐明这些解释为何不正确。
链接: http://arxiv.org/abs/2504.04906v1
标题: Simulating Persuasive Dialogues on Meat Reduction with Generative Agents
作者: Georg Ahnert, Elena Wurth, Markus Strohmaier, Jutta Mata
摘要: 减少肉类摄入有益人类和地球健康,但社会规范使肉类在共享餐食中保持核心地位。迄今为止,开发在最小化社会成本的同时促进肉类减少的沟通策略需要在每个阶段都耗费人力参与。我们展示了使用基于大语言模型(LLM)的生成智能体模拟肉类减少多轮对话的工作进展。我们使用基于计划行为理论的成熟心理问卷测量主要结果,并额外调查社会成本。我们发现证据表明我们的初步模拟产生的结果:(i)与理论预期一致;(ii)与之前人类参与研究的数据相比具有效度。生成智能体模型是一种有前景的工具,可用于识别针对高度特定参与者群体的新型肉类减少沟通策略,然后在后续人类参与研究中进行测试。
链接: http://arxiv.org/abs/2504.04872v1
标题: Imagining the Far East: Exploring Perceived Biases in AI-Generated Images of East Asian Women
作者: Xingyu Lan, Jiaxi An, Yisu Guo, Chiyou Tong, Xintong Cai, Jun Zhang
摘要: 允许用户从文本创建图像的图像生成AI越来越多地用于制作视觉内容。尽管技术进步显著,但AI生成图像中的文化偏见引起了重大关注。虽然大量研究聚焦西方语境中的问题,但我们的研究考察了关于东亚女性形象的感知偏见。在这项探索性研究中,我们邀请东亚用户审计三种流行模型(DALL-E、Midjourney、Stable Diffusion),识别出18种具体感知偏见,分为四类模式:西方化、文化符号的过度使用或误用、性化与女性化,以及种族刻板印象。这项工作凸显了AI模型在描绘东方个体时可能带来的挑战。
链接: http://arxiv.org/abs/2504.04865v1
标题: Explanation-Driven Interventions for Artificial Intelligence Model Customization: Empowering End-Users to Tailor Black-Box AI in Rhinocytology
作者: Andrea Esposito, Miriana Calvano, Antonio Curci, Francesco Greco, Rosa Lanzilotti, Antonio Piccinno
摘要: 人工智能(AI)在现代社会中的集成正在深刻改变个人执行任务和活动的方式。使用基于AI的系统带来了设计师和开发者必须应对的挑战,以确保人类在交互过程中保持控制,特别是在高风险领域。本文通过Rhino-Cyt平台(一个面向医学专业人员[更准确地说,是鼻细胞学家]进行细胞分类的医疗AI决策支持系统)中重新设计的用户界面,提出了一种针对黑盒AI模型的终端用户开发(EUD)新方法。所提出的界面使用户能够通过编辑解释和重新配置模型来干预AI决策过程,影响其未来预测。这项工作通过讨论解释驱动干预如何实现可解释性、用户干预和模型重新配置的结合,促进人类与用户定制AI系统之间的共生关系,为以人为中心的AI(HCAI)和EUD做出了贡献。
链接: http://arxiv.org/abs/2504.04833v1
标题: Teaching Data Science Students to Sketch Privacy Designs through Heuristics (Extended Technical Report)
作者: Jinhe Wen, Yingxi Zhao, Wenqian Xu, Yaxing Yao, Haojian Jin
摘要: 最近研究表明,有经验的数据从业者经常绘制草图来促进围绕隐私设计概念的沟通。然而,对于如何帮助新手学生发展这种沟通技能的理解有限。本文研究了降低数据科学专业学生在创建高质量隐私草图方面障碍的方法。我们首先进行了需求发现研究(N=12)以识别学生在绘制隐私设计时面临的障碍。然后使用以人为中心的设计方法指导方法开发,最终形成了三个简单的基于文本的启发式方法。我们对24名数据科学专业学生进行的用户研究表明,仅在研究开始时向参与者展示这三种启发式方法就能增强草图中隐私相关设计决策的覆盖范围,减少创建草图所需的心理努力,并提高最终草图的易读性。
链接: http://arxiv.org/abs/2504.04734v1
标题: TangibleNet: Synchronous Network Data Storytelling through Tangible Interactions in Augmented Reality
作者: Kentaro Takahira, Wong Kam-Kwai, Leni Yang, Xian Xu, Takanori Fujiwara, Huamin Qu
摘要: 由于网络组件的实时操作复杂性,使用网络可视化进行同步数据驱动叙事面临重大挑战。虽然现有研究解决了异步场景,但缺乏有效的现场演示工具。为填补这一空白,我们开发了TangibleNet,这是一个基于投影仪的AR原型,允许演示者在现场演示期间使用双面磁铁与节点-链接图交互。设计过程参考了具有同步数据叙事经验的专业人士访谈和与14名HCI/VIS研究人员的工作坊。访谈的见解帮助确定了在演示上下文中将物理对象整合为交互工具的关键设计考虑因素。工作坊贡献了将用户动作映射到节点-链接图交互命令的设计空间开发。对12名参与者的评估证实TangibleNet支持直观交互并增强演示者自主性,展示了其在基于网络的同步数据叙事中的有效性。
链接: http://arxiv.org/abs/2504.04710v1
标题: Usability Testing of an Explainable AI-enhanced Tool for Clinical Decision Support: Insights from the Reflexive Thematic Analysis
作者: Mohammad Golam Kibria, Lauren Kucirka, Javed Mostafa
摘要: 人工智能增强技术代表了改善医疗服务的重大机遇。在展示复杂模型提升临床医生决策效率价值方面已取得显著进展。然而,由于多方面实施问题,此类模型的临床采用仍然稀少,其中AI模型的可解释性就是问题之一。一个被充分记录的关切领域是不明确的AI可解释性对临床医生接受复杂模型的考虑产生负面影响。通过对20名美国临床医生进行的可用性研究和定性反思主题分析,本研究开发并提出了一个具体的框架和可解释性的操作定义。该框架可以为AI工具中所需的定制和功能开发提供信息,以支持临床医生的偏好并增强其接受度。
链接: http://arxiv.org/abs/2504.04703v1
标题: The Disruption Index Measures Displacement Between a Paper and Its Most Cited Reference
作者: Yiling Lin, Linzhuo Li, Lingfei Wu
摘要: 最初为捕捉技术创新而开发,后来被调整用于识别科学突破的颠覆指数(D-index)提供了分析变革性研究的首个定量框架。尽管前景广阔,但先前研究难以阐明其理论基础,引发了对潜在偏见的担忧。在此,我们表明-与D-index测量绝对创新的普遍看法相反-它捕捉的是相对创新:一篇论文取代其最高被引参考文献的能力。通过这种方式,D-index反映了科学进步如同用新答案替换旧答案来回答相同基本问题的过程-就像灯泡取代蜡烛一样。我们通过数学分析、专家调查和大规模文献计量证据支持这一见解。为促进复制、验证和更广泛使用,我们发布了基于OpenAlex的4900万期刊文章(1800-2024)D-index值数据集。
链接: http://arxiv.org/abs/2504.04677v1
标题: 3DM-WeConvene: Learned Image Compression with 3D Multi-Level Wavelet-Domain Convolution and Entropy Model
作者: Haisheng Fu, Jie Liang, Feng Liang, Zhenman Fang, Guohe Zhang, Jingning Han
摘要: 学习图像压缩(LIC)最近取得显著进展,超越了传统方法。然而,大多数LIC方法主要在空间域操作,缺乏减少频域相关性的机制。为解决这一问题,我们提出了一种新颖框架,将低复杂度3D多级离散小波变换(DWT)集成到卷积层和熵编码中,减少空间和通道相关性以提高频率选择性和率失真(R-D)性能。我们提出的3D多级小波域卷积(3DM-WeConv)层首先应用3D多级DWT(如JPEG 2000中的5/3和9/7小波)将数据转换到小波域。然后对不同频率子带应用不同大小的卷积,随后进行逆3D DWT恢复空间域。3DM-WeConv层可以灵活用于现有基于CNN的LIC模型中。我们还引入了3D小波域通道自回归熵模型(3DWeChARM),在3D DWT域执行基于切片的熵编码。低频(LF)切片首先编码以为高频(HF)切片提供先验。采用两步训练策略:首先平衡LF和HF率,然后使用单独权重进行微调。大量实验表明,我们的框架在R-D性能和计算复杂度上始终优于最先进的基于CNN的LIC方法,对高分辨率图像增益更大。在Kodak、Tecnick 100和CLIC测试集上,我们的方法相比H.266/VVC分别实现了-12.24%、-15.51%和-12.97%的BD-Rate降低。
链接: http://arxiv.org/abs/2504.04658v1
标题: Autono: A ReAct-Based Highly Robust Autonomous Agent Framework
作者: Zihao Wu
摘要: 本文提出了一种基于ReAct范式的高度鲁棒自主智能体框架,旨在通过自适应决策和多智能体协作解决复杂任务。与传统依赖LLM规划器生成固定工作流的框架不同,该框架在智能体执行过程中基于先前轨迹动态生成下一步动作,从而增强其鲁棒性。为解决自适应执行路径可能导致的任务终止问题,我提出了一种结合概率惩罚机制的及时放弃策略。对于多智能体协作,我引入了一种内存转移机制,实现智能体间共享和动态更新的内存。该框架创新的及时放弃策略通过概率惩罚动态调整任务放弃概率,允许开发者通过调整超参数平衡智能体执行策略中的保守和探索倾向。这显著提高了复杂环境中的适应性和任务执行效率。此外,通过外部工具集成支持智能体扩展,模块化设计和MCP协议兼容性实现了灵活的动作空间扩展。通过明确分工,多智能体协作机制使智能体能专注于特定任务组件,从而显著提高执行效率和质量。
链接: http://arxiv.org/abs/2504.04650v2
标题: "You just can't go around killing people" Explaining Agent Behavior to a Human Terminator
作者: Uri Menkes, Assaf Hallak, Ofra Amir
摘要: 考虑一个场景,预训练智能体在环境中运行,人类操作者可以决定暂时终止其操作并接管一段时间。这类情景在人机交互中很常见,例如在自动驾驶、工厂自动化和医疗保健中。在这些设置中,我们通常观察到两种极端情况之间的权衡--如果不允许接管,智能体可能采用次优甚至危险的策略;相反,如果接管过多,人类对智能体没有信心,大大限制了其实用性。在本文中,我们形式化了这一设置,并提出了一种可解释性方案来帮助优化人类干预次数。
链接: http://arxiv.org/abs/2504.04592v1
标题: How Untested Modeling Assumptions Influence the U.S. EPA's Estimates of Population-Level Ozone Exposure Risk
作者: Garrett Glasgow, Anne E. Smith
摘要: 在美国环保署(EPA)最近对臭氧国家环境空气质量标准(NAAQS)的审查中,提出了与臭氧暴露相关的健康风险估计。EPA计算人群水平臭氧风险估计的一种方法是通过模拟模型计算臭氧暴露和模拟人群的肺功能减损。该模拟模型包含几个随机误差项以捕捉臭氧反应性的个体间和个体内变异性。在本手稿中,我们进行了敏感性分析,检验关于这些误差项的未经测试假设的影响。我们表明,对误差项施加的临时边界和个体内误差项重绘频率对EPA报告的人群水平臭氧暴露风险有强烈影响。
链接: http://arxiv.org/abs/2504.04591v1
标题: Quantifying uncertainty of individualized treatment effects in right-censored survival data: A comparison of Bayesian additive regression trees and causal survival forest
作者: Daijiro Kabata, Nicholas C. Henderson, Ravi Varadhan
摘要: 个体化治疗效果(ITE)或条件平均治疗效果(CATE)估计是方法学发展的活跃领域。然而,对右删失生存数据中ITE/CATE估计不确定性的量化关注较少。在此,我们进行了广泛的模拟研究,检验两种流行估计算法--贝叶斯加性回归树(BART)和因果生存森林(CSF)--区间估计的覆盖率。我们进行了三种不同设置的模拟设计:首先是在BART为加速失效时间模型开发的设置中;其次是在CSF开发的设置中;最后是在BART和CSF均未开发的"中性"模拟设置中。BART在所有三种模拟设置中都优于CSF。BART和CSF算法都涉及多个超参数,在默认值和优化值下,BART可信区间都比CSF置信区间具有更好的覆盖率。
链接: http://arxiv.org/abs/2504.04571v1
标题: Chain of Understanding: Supporting Code Understanding with Large Language Models
作者: Jie Gao, Yue Xue, Xiaofei Xie, SoeMin Thant, Erika Lee
摘要: 代码审计需要对代码库有深入理解--这对专业知识有限的终端开发者尤其具有挑战性。为此,我们采访了经验丰富的审计人员,确定了"理解链"方法,其中大语言模型(LLM)引导开发者进行分层代码理解--从高级概述到具体函数和变量。基于此,我们将"理解链"概念融入CodeMap系统,该系统提供交互式可视化、逐步引导分析和上下文感知聊天机器人支持。通过对10名不同背景参与者的主体内用户研究以及5名专家和2名新手的访谈,CodeMap被证明能有效减少提示工程的体力劳动,同时通过可视化增强参与度,优于独立LLM和传统静态可视化工具。
链接: http://arxiv.org/abs/2504.04553v1
标题: Variational Bayesian Multiple Imputation in High-Dimensional Regression Models With Missing Responses
作者: Qiushuang Li, Recai Yucel
摘要: 多重插补已成为许多不完整数据应用中推断的标准方法之一。在更复杂的设置(如高维聚类数据)中应用多重插补需要专门方法来克服计算负担。使用线性混合效应模型,我们开发了可通过变分贝叶斯推断对缺失数据的后验预测分布进行采样的方法,这些方法特别针对高维数据,并使用spike-and-slab先验自动选择重要变量进入插补模型。然后将个体回归计算纳入逐个变量的插补算法。最后,我们使用基于校准的算法使这些方法适应分类变量的多重插补。我们通过模拟研究和国家儿童健康调查数据应用评估这些方法在重复抽样框架下的表现。
链接: http://arxiv.org/abs/2504.04547v1
标题: Sequential Hierarchical Regression Imputation with Variable Selection Routines
作者: Qiushuang Li, Recai Yucel
摘要: 我们的目标是在聚类数据中,将变量选择程序纳入逐个变量(或顺序)插补,以在大型健康数据应用中实现计算改进。具体而言,我们在贝叶斯变量选择程序中使用spike-and-slab先验进行变量选择。这些先验的选择使我们能够基于一类混合效应模型"强制"重要变量(如设计变量或已知在缺失机制中起作用的变量)进入插补模型。我们采用马尔可夫链蒙特卡罗技术从模型未知数和缺失数据的隐含后验分布中抽样。我们通过模拟研究评估所提方法的性能。结果表明,所提算法能产生令人满意的估计,在某些情况下优于从业者可用的现有方法。我们使用全国儿童健康调查数据说明了我们的方法。
链接: http://arxiv.org/abs/2504.04539v1
标题: The Mediating Effects of Emotions on Trust through Risk Perception and System Performance in Automated Driving
作者: Lilit Avetisyan, Emmanuel Abolarin, Vanik Zakarian, X. Jessie Yang, Feng Zhou
摘要: 对自动驾驶车辆(AV)的信任传统上通过认知视角探索,但越来越多的证据表明情绪在塑造信任中的重要作用。本研究调查风险感知和AV性能(错误与无错误)如何通过中介分析考察情绪的间接效应,影响情绪反应和对AV的信任。在本研究中,70名参与者(42男,28女)观看了AV在有或无错误情况下运行的真实记录视频,并结合不同风险信息水平(高、低或无)。他们使用19个离散情绪项报告预期情绪反应,并通过倾向性、习得性和情境性信任测量评估信任。因子分析确定了受风险感知和AV性能影响的四个关键情绪成分:敌意、信心、焦虑和孤独。线性混合模型显示风险感知不是信任的显著预测因子,而性能和个体差异是。中介分析显示信心是强烈的正向中介,而敌对和焦虑情绪对信任产生负面影响。然而,孤独情绪并未显著中介AV性能与信任间关系。结果表明,实时AV行为对信任的影响大于预先存在的风险感知,表明对AV的信任可能更多基于经验而非先前信念。我们的发现还强调了培养积极情绪反应对信任校准的重要性,这对自动驾驶中的用户体验设计具有重要意义。
链接: http://arxiv.org/abs/2504.04508v1
标题: Public speech recognition transcripts as a configuring parameter
作者: Damien Rudaz, Christian Licoppe
摘要: 显示人类说话内容的文字转录(即生成"自动语音识别转录文本")是智能手机语音助手的常见功能:人类说话者(如提问者)的话语在被语音助手口头回应的同时会显示在屏幕上。虽然非常罕见,但这一功能也存在于一些"社交"机器人上,它们会在屏幕或平板上转录人类交互者的语音。我们认为这种信息配置对交互具有实际的语用影响,无论对人类参与者还是具身对话代理都是如此。基于与人形机器人现场交互的语料库,我们试图证明这种转录文本是一种情境特征,可以严重影响人类归因给机器人的动作:即人类将机器人行为视为构成特定类型动作(而非其他)以及构成对他们先前话轮恰当回应的方式。
链接: http://arxiv.org/abs/2504.04488v1
标题: Fast Maximization of Current Flow Group Closeness Centrality
作者: Haisong Xia, Zhongzhi Zhang
摘要: 源自有效电阻的节点组电流流紧密中心性(CFCC)用于衡量具有n个节点的无向图中节点组的重要性。鉴于识别关键节点的广泛应用,我们研究了在基数约束∣S∣=k≪n下最大化节点组S的CFCC的问题。尽管该问题已被证明是NP难问题,我们提出了两种新颖的贪心算法。我们的算法基于生成森林采样和Schur补,具有近线性时间复杂度,对于任何0<ϵ<1,能达到1−k/(k−1)·1/e−ϵ的近似因子。在真实图上的大量实验表明,我们的算法在效率和效果上均优于现有最优方法,可扩展到数百万节点的图。
链接: http://arxiv.org/abs/2504.04472v1
标题: Do We Need Responsible XR? Drawing on Responsible AI to Inform Ethical Research and Practice into XRAI / the Metaverse
作者: Mark McGill, Joseph O'Hagan, Thomas Goodge, Graham Wilson, Mohamed Khamis, Veronika Krauß, Jan Gugenheimer
摘要: 这篇为CHI 2025研讨会"通过AI-in-the-Loop实现日常AR"撰写的立场论文,反思了HCI领域是否需要定义"负责任XR"作为与"负责任AI"并行且协同的概念,以解决可穿戴AI增强现实眼镜和XR设备大规模采用所带来的独特脆弱性,这些设备可能实现AI驱动的人类感知增强。
链接: http://arxiv.org/abs/2504.04440v1
标题: Forecasting a time series of Lorenz curves: One-way functional analysis of variance
作者: Han Lin Shang
摘要: 洛伦兹曲线是分析国家和地区层面收入与财富分配及不平等的基本工具。我们利用单因素函数方差分析分解洛伦兹曲线时间序列,并开发了生成一步超前点预测和区间预测的方法。通过将数组分解为函数总效应、函数行效应和残差函数,该方法具有良好可解释性。我们使用意大利家庭收入和财富数据评估并比较了函数方差分析与三种非函数方法的预测准确性。
链接: http://arxiv.org/abs/2504.04437v1
标题: FluentLip: A Phonemes-Based Two-stage Approach for Audio-Driven Lip Synthesis with Optical Flow Consistency
作者: Shiyan Liu, Rui Qu, Yan Jin
摘要: 在音频驱动的唇部合成中生成与给定语音对齐的连续唇部运动图像是一项具有挑战性的任务。虽然先前研究在同步和视觉质量方面取得了进展,但唇部可懂度和视频流畅性仍然是持续存在的挑战。本研究提出FluentLip,一种用于音频驱动唇部合成的两阶段方法,包含三个特色策略:为提高唇部同步和可懂度,我们整合了音素提取器和编码器来生成音频和音素信息的融合以实现多模态学习;此外,我们采用光流一致性损失来确保图像帧之间的自然过渡;进一步,我们在生成对抗网络(GANs)训练中引入扩散链以提高稳定性和效率。我们通过大量实验评估了所提出的FluentLip,在五个指标上与五种最先进(SOTA)方法进行比较,包括一个称为音素错误率(PER)的新指标,用于评估唇部姿态可懂度和视频流畅性。实验结果表明,我们的FluentLip方法具有很强的竞争力,在平滑度和自然度方面实现了显著改进。特别是,它在Fr'echet起始距离(FID)上比这些SOTA方法提高了约16.3%,在PER上提高了约35.2%。
链接: http://arxiv.org/abs/2504.04427v1
标题: The Fidelity-based Presence Scale (FPS): Modeling the Effects of Fidelity on Sense of Presence
作者: Jacob Belga, Richard Skarbez, Yahya Hmaiti, Eric J. Chen, Ryan P. McMahan, Joseph J. LaViola
摘要: 在虚拟现实(VR)研究领域,已有多次尝试开发问卷以更好地理解临场感。尽管已有大量调查工具,但研究界仍缺乏能够说明VR应用中哪些组件促成了临场感的问卷。此外,先前文献指出在应使用哪种问卷或问题方面缺乏共识。因此,我们开展了德尔菲研究,邀请临场感专家就最重要的问题及其具体表述达成共识。随后我们通过探索性因子分析(EFA)进行了验证研究。这两项研究的成果共同促成了基于保真度的临场感量表(FPS)的创建。通过这种基于共识的方法和保真度因子分析,我们希望FPS能够促进研究界更好的交流,并在VR系统保真度与临场感关系方面产生重要的未来研究成果。
链接: http://arxiv.org/abs/2504.04355v1
标题: Crowdsourcing-Based Knowledge Graph Construction for Drug Side Effects Using Large Language Models with an Application on Semaglutide
作者: Zhijie Duan, Kai Wei, Zhaoqian Xue, Jiayan Zhou, Shu Yang, Siyuan Ma, Jin Jin, Lingyao li
摘要: 社交媒体是获取药物警戒相关患者真实体验数据的宝贵来源。然而,从非结构化和嘈杂的社交媒体内容中挖掘数据仍然具有挑战性。我们提出了一个系统框架,利用大型语言模型(LLMs)从社交媒体中提取药物副作用信息并组织成知识图谱(KG)。我们将该框架应用于Reddit上关于减肥药司美格鲁肽的数据。通过构建的知识图谱,我们进行了全面分析,研究不同品牌司美格鲁肽随时间变化的副作用报告。这些发现通过与FAERS数据库中报告的不良事件进行比较得到进一步验证,为医疗专业人员和患者提供了关于司美格鲁肽副作用的以患者为中心的重要见解,补充了其安全性特征和当前知识库。我们的工作证明了使用LLMs将社交媒体数据转化为结构化知识图谱用于药物警戒的可行性。
链接: http://arxiv.org/abs/2504.04346v2
标题: Constructing the Truth: Text Mining and Linguistic Networks in Public Hearings of Case 03 of the Special Jurisdiction for Peace (JEP)
作者: Juan Sosa, Alejandro Urrego-López, Cesar Prieto, Emma J. Camargo-Díaz
摘要: 哥伦比亚特别和平管辖区(JEP)的03号案件聚焦于所谓的"假阳性"事件,代表了哥伦比亚武装冲突中最惨痛的篇章之一。本文提出了一种基于自然语言分析和语义共现模型的创新方法,用于探索、系统化和可视化受害者和出庭方在公开听证会中呈现的叙事模式。通过构建skipgram网络并分析其模块性,该研究识别出揭示区域和程序状态差异的主题聚类,为本案中的受害、责任和承认动态提供了实证证据。这种计算方法有助于司法和法外真相的共同构建,为其他过渡司法案件提供了可复制的工具。该研究基于真相、正义、赔偿和不重复四大支柱,提出了对争议记忆的批判性和深入解读。
链接: http://arxiv.org/abs/2504.04325v2
标题: A statistical framework for analyzing activity pattern from GPS data
作者: Haoyang Wu, Yen-Chi Chen, Adrian Dobra
摘要: 我们提出了一个用于分析个体GPS数据的新型统计框架。我们的方法将每日GPS观测数据建模为底层随机轨迹的噪声测量,从而能够定义平均GPS密度函数等有意义的概念。我们提出了该密度函数的估计量,并建立了它们的渐近性质。为了利用GPS数据研究人类活动模式,我们开发了一个基于混合模型的简单运动模型来生成随机轨迹。基于此框架,我们引入了若干分析工具来探索活动空间和移动模式。我们通过将方法应用于模拟和真实GPS数据,展示了该方法的有效性,并揭示了有意义的移动趋势。
链接: http://arxiv.org/abs/2504.04316v1
标题: A Survey of Social Cybersecurity: Techniques for Attack Detection, Evaluations, Challenges, and Future Prospects
作者: Aos Mulahuwaish, Basheer Qolomany, Kevin Gyorick, Jacques Bou Abdo, Mohammed Aledhari, Junaid Qadir, Kathleen Carley, Ala Al-Fuqaha
摘要: 在当今数字时代,互联网特别是社交媒体平台在塑造公众观点、态度和信念方面发挥着重要作用。遗憾的是,科学信息来源的可信度常常被通过技术工具(如机器人、半机器人、网络喷子、马甲账号和深度伪造)传播的错误信息所破坏。这种对公共话语的操纵既服务于对抗性商业议程,也损害了公民社会。为应对这一挑战,一个新的科学学科——社交网络安全应运而生。
链接: http://arxiv.org/abs/2504.04311v1
标题: AI-induced sexual harassment: Investigating Contextual Characteristics and User Reactions of Sexual Harassment by a Companion Chatbot
作者: Mohammad Namvarpour, Harrison Pauwels, Afsaneh Razi
摘要: 人工智能(AI)的进步使得诸如Replika等旨在提供社交互动和情感支持的对话代理日益普及。然而,关于这些AI系统与用户进行不当性行为的报告引发了重大关切。本研究通过对Google Play商店用户评论的主题分析,调查了Replika聊天机器人性骚扰的案例。从35,105条负面评论中,我们筛选出800个相关案例进行分析。研究发现,用户经常遭遇未经请求的性接近、持续的不当行为,以及聊天机器人未能尊重用户边界的情况。用户表达了不适感、隐私被侵犯和失望情绪,特别是当他们寻求柏拉图式或治疗性AI陪伴时。本研究强调了AI伴侣的潜在危害,并强调开发者需要实施有效的保障措施和道德准则来预防此类事件。通过揭示用户对AI诱导骚扰的体验,我们促进了对AI相关风险的理解,并强调了开发更安全、更道德AI系统的企业责任的重要性。
链接: http://arxiv.org/abs/2504.04299v1
标题: Samila: A Generative Art Generator
作者: Sadra Sabouri, Sepand Haghighi, Elena Masrour
摘要: 生成艺术将创造力与计算相结合,利用算法产生美学作品。本文介绍了Samila,一个基于Python的生成艺术库,它通过数学函数和随机性来创建视觉上引人入胜的作品。该系统允许用户通过随机种子、函数选择和投影模式控制生成过程,从而探索随机性和艺术表达。我们证明,Samila的输出由两个随机生成种子唯一确定,缺少其中任何一个都几乎不可能重现作品。此外,在保持种子不变的情况下改变点生成函数会产生具有不同图形特征的作品,形成一个视觉家族。Samila既是艺术家的创作工具,也是教授数学和编程概念的教育资源,同时为生成设计和计算美学研究提供了平台。未来的发展可能包括AI驱动的生成和美学评估指标,以增强创意控制和可访问性。
链接: http://arxiv.org/abs/2504.04298v1
标题: Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks
作者: Marios Kokkodis, Richard Demsyn-Jones, Vijay Raghavan
摘要: 在这个AI热潮的时代,传统分类方法是否已经过时?我们证明,在某些多类分类问题上,预测模型在整体上优于基于LLM提示的框架。基于Thumbtack客户提供的家装服务项目描述的文本和图像,我们构建了基于嵌入的softmax模型来预测每个问题描述对应的专业类别(如杂工、浴室改造)。与要求最先进LLM模型解决相同问题的提示方法相比,嵌入方法在准确率(高出49.5%)、校准性、延迟和成本方面都表现更优。值得注意的是,这种优势在纯文本、纯图像和图文混合的问题描述中保持一致。此外,嵌入方法产生了经过良好校准的概率,我们随后将其用作部署时的置信信号来提供情境化用户体验。相比之下,提示方法产生的分数信息量不足。在实际部署假设下,嵌入方法处理图像和文本的速度分别比提示方法快14倍和81倍,成本可降低达10倍。基于这些结果,我们部署了嵌入方法的一个变体,通过A/B测试观察到了与离线分析一致的表现。我们的研究表明,对于可以利用专有数据集的多类分类问题,基于嵌入的方法可能产生明确更好的结果。因此,科学家、从业者、工程师和商业领袖可以参考我们的研究,超越炒作,为分类用例选择合适的预测模型。
链接: http://arxiv.org/abs/2504.04277v1
标题: BlockingPy: approximate nearest neighbours for blocking of records for entity resolution
作者: Tymoteusz Strojny, Maciej Beręsewicz
摘要: 实体解析(概率记录链接、去重)是涉及多数据源的科学分析和数据科学流程中的关键步骤。其目标是在没有标识符的情况下,将指向同一实体(如个人、公司)的记录进行关联。然而,缺乏标识符时,研究人员需要指定待比较的记录以计算匹配概率并降低计算复杂度。传统解决方案是基于姓名、出生日期或性别等共同变量进行确定性分块,但这种方法假设这些变量无误差且完全可观测,实际情况往往并非如此。为解决这一挑战,我们开发了Python包BlockingPy,通过现代近似最近邻搜索和图算法实现分块,显著减少了比较次数。本文介绍了该软件包的设计、功能以及与官方统计相关的两个案例研究。我们相信该软件将为需要链接多源数据的研究人员(如社会科学家、经济学家或统计学家)提供实用工具。
链接: http://arxiv.org/abs/2504.04266v1
标题: nonprobsvy -- An R package for modern methods for non-probability surveys
作者: Łukasz Chrostowski, Piotr Chlebicki, Maciej Beręsewicz
摘要: 本文介绍nonprobsvy - 一个用于非概率样本推断的R包。该包实现了三类方法:基于预测的方法、逆概率加权法和双重稳健法。我们假设存在总体水平数据或基于概率的总体信息,并利用survey包进行推断。该包为提出的估计量同时实现了解析法和自助法的方差估计。本文阐述了包的理论基础、功能特性及展示用法的案例研究。该包面向希望使用非概率样本(如大数据、选择性网络面板、社交媒体)准确估计总体特征的研究人员。
链接: http://arxiv.org/abs/2504.04255v1
标题: User-Centered AI for Data Exploration -- Rethinking GenAI's Role in Visualization
作者: Kathrin Schnizer, Sven Mayer
摘要: 生成式AI的最新进展实现了数据可视化的自动化,允许用户通过自然语言生成视觉表征。然而现有系统主要聚焦自动化,忽视了用户专业水平和分析需求的差异性。在本立场论文中,我们主张转向自适应生成式AI驱动的可视化工具,根据个体用户定制交互、推理和可视化方案。我们首先回顾了现有以自动化为中心的方法及其局限,随后介绍了评估用户专业水平的方法,以及实现自适应方法必须解决的关键开放挑战和研究问题。最后我们提出了以用户为中心的系统愿景,将生成式AI不仅用于自动化,更作为视觉数据探索的智能协作者。我们的观点为设计能通过动态适应用户来增强人类认知的生成式AI系统贡献了更广泛的讨论,最终推动实现增强认知的系统。
链接: http://arxiv.org/abs/2504.04253v1
标题: Task load dependent decision referrals for joint binary classification in human-automation teams
作者: Kesav Kaza, Jerome Le Ny, Aditya Mahajan
摘要: 我们研究了人机团队执行二元分类任务时的最优决策转介问题。自动化系统包含预训练分类器,观察一批独立任务的数据并进行分析,可以选择将部分任务转介给人类操作员进行最终分析。我们的核心建模假设是人类表现会随任务负荷下降。我们将任务选择问题建模为随机优化问题,证明在给定任务负荷下,基于观测数据条件期望成本最大降幅的近视转介策略是最优的。这提供了确定最优转介任务集的排序方案和策略。通过雷达屏幕模拟器的人体实验评估,参与者在时间压力下进行目标分类决策。初步实验估计了人类表现模型参数,第二次实验比较了两种转介策略。结果显示提出的最优转介策略相比不考虑观测数据的盲策略具有统计显著优势。
链接: http://arxiv.org/abs/2504.04248v1
标题: Perils of Label Indeterminacy: A Case Study on Prediction of Neurological Recovery After Cardiac Arrest
作者: Jakob Schoeffer, Maria De-Arteaga, Jonathan Elmer
摘要: 设计辅助人类决策的AI系统通常需要标签来训练和评估监督模型。然而这些标签常常未知,不同的估计方法涉及无法验证的假设或任意选择。本文提出标签不确定性的概念,并推导其在高风险AI辅助决策中的重要影响。我们通过心脏骤停后昏迷患者恢复预测的实证研究表明,标签不确定性会导致模型在已知标签患者上表现相似,但对标签未知患者的预测差异巨大。在展示这一高风险情境下标签不确定性的关键伦理影响后,我们讨论了评估、报告和设计方面的启示。
链接: http://arxiv.org/abs/2504.04243v1
标题: Evaluating the Usability of Microgestures for Text Editing Tasks in Virtual Reality
作者: Xiang Li, Wei He, Per Ola Kristensson
摘要: 随着虚拟现实(VR)技术的持续发展,传统输入方法如手持控制器和手势系统常常面临精度、社交可接受性和用户疲劳等挑战。我们开发了microGEXT,这是一种轻量级的基于微手势的系统,专为无需外部传感器的VR文本编辑而设计,通过微小、精细的手部动作来减少与标准手势相比的体力消耗。我们在三项用户研究中评估了microGEXT。在研究1(N=20)中,microGEXT相比基线系统减少了整体编辑时间和疲劳感。研究2(N=20)发现microGEXT在短文本选择任务中表现良好,但在较长文本范围中速度较慢。在研究3(N=10)中,参与者认为microGEXT对于开放式信息收集任务非常直观。所有研究结果表明,microGEXT提供了增强的用户体验和减少的体力消耗,为传统VR文本编辑技术提供了一个有前景的替代方案。
链接: http://arxiv.org/abs/2504.04198v1
标题: The Rhythm of Aging: Stability and Drift in Human Senescence
作者: Silvio Cabral Patricio
摘要: 人类衰老以死亡风险随年龄稳定上升为特征——这一过程被人口统计学家称为衰老。尽管过去一个世纪预期寿命显著提高,但一个基本问题仍然存在:死亡率加速的速率是生物固定的,还是代际间发生了变化?Vaupel的假说认为衰老速度是稳定的——人类不是衰老得更慢,而只是开始得更晚。为验证这一点,我们分析了法国、丹麦、意大利和瑞典的队列死亡率数据。我们使用两步框架首先分离衰老死亡率,然后将Gompertz斜率分解为三部分:生物常数、潜在趋势和累积时期效应。结果表明,衰老速率的大多数变异并非生物起源。一旦排除了非衰老死亡和历史冲击,Gompertz斜率就表现出显著的稳定性。我们观察到的波动不是衰老变化的迹象,而是共同历史的回响。衰老本身似乎保持不变。这些发现表明,虽然寿命发生了变化,但人类衰老的基本节律可能是生物固定的——不是由进化塑造的,而是由历史塑造的。
链接: http://arxiv.org/abs/2504.04143v2
标题: Collaboration and Controversy Among Experts: Rumor Early Detection by Tuning a Comment Generator
作者: Bing Wang, Bingrui Zhao, Ximing Li, Changchun Li, Wanfu Gao, Shengsheng Wang
摘要: 过去十年中,社交媒体平台在谣言传播中发挥了关键作用,产生了显著的负面影响。为应对这一问题,学界开发了多种谣言检测(RD)算法,利用用户评论作为证据自动识别谣言。然而,这些RD方法在谣言传播早期仅有有限用户评论可用时往往失效,促使学界关注更具挑战性的谣言早期检测(RED)问题。现有RED方法通常从早期评论的有限语义中学习,但我们的初步实验表明,当训练和测试评论数量一致且充足时,RED模型表现最佳。这启发我们通过生成更拟人化的评论来解决RED问题。为实现这一想法,我们通过模拟专家协作与争议来调整评论生成器,提出了新的RED框架CAMERED。具体而言,我们在生成语言模型中集成专家混合结构,并提出新的路由网络实现专家协作。此外,我们合成了一个知识丰富的数据集,并设计了对抗学习策略使生成评论风格与真实评论对齐。我们进一步通过相互争议融合模块整合生成和原始评论。实验结果表明,CAMERED优于最先进的RED基线模型和生成方法,证明了其有效性。
链接: http://arxiv.org/abs/2504.04076v1
标题: Real-Time Auralization for First-Person Vocal Interaction in Immersive Virtual Environments
作者: Mauricio Flores-Vargas, Enda Bates, Rachel McDonnell
摘要: 随着虚拟现实(VR)技术整合不同感官反馈,多模态研究和应用变得越来越普遍,使得在视听环境中重建真实空间成为可能。在VR体验中,许多应用依赖用户声音作为交互的关键元素,包括音乐表演和公开演讲应用。自我感知在我们的声音产生中起着关键作用。当唱歌或说话时,我们的声音会与环境声学特性互动,根据感知到的空间特征调整声音参数。本技术报告提出了一种实时听觉化管线,利用三维空间脉冲响应(SIRs)实现需要第一人称语音交互的VR多模态研究应用。它描述了脉冲响应创建和渲染的工作流程,视听集成,并解决了延迟和计算方面的考虑。该系统使用户能够在预定义区域内从不同位置和方向探索声学空间,支持研究和创意应用中的三自由度(3Dof)和五自由度(5DoF)视听多模态感知。
链接: http://arxiv.org/abs/2504.04075v1
标题: Spatially-Heterogeneous Causal Bayesian Networks for Seismic Multi-Hazard Estimation: A Variational Approach with Gaussian Processes and Normalizing Flows
作者: Xuechun Li, Shan Gao, Runyu Gao, Susu Xu
摘要: 震后灾害和影响评估对于有效的灾害响应至关重要,但现有方法面临重大限制。传统模型不考虑地理背景使用固定参数,错误呈现了地震效应在不同景观间的变化,而遥感技术难以区分共存的灾害。我们通过空间感知的因果贝叶斯网络解决这些挑战,通过建模灾害与位置特定参数的因果关系来解耦共存灾害。我们的框架通过高斯过程与标准化流的创新组合,整合了传感观测、潜变量和空间异质性,使我们能够捕捉同一地震在不同地质和地形特征下产生的不同效应。对三次地震的评估表明,Spatial-VCBN相比现有方法实现了高达35.2%的曲线下面积(AUC)提升。这些结果突显了在因果机制中建模空间异质性对于准确灾害评估的关键重要性,对改进应急响应资源分配具有直接意义。
链接: http://arxiv.org/abs/2504.04013v1
标题: JsStories: Improving Social Inclusion in Computer Science Education Through Interactive Stories
作者: Inas Ghazouani Ghailani, Yoshi Malaise, Beat Signer
摘要: 为弱势群体提供计算机科学教育的非营利组织面临的主要挑战是高辍学率。这一问题源于影响学生和教师的多重因素,如许多课程采用的"一刀切"方法。增强学习过程中的社会包容性可能有助于降低这些辍学率。我们提出了JsStories,这是一个通过互动故事帮助学生学习JavaScript的工具。JsStories的开发参考了关于包容性故事叙述的现有文献,并借鉴了对HackYourFuture比利时分部(HYFBE)的实地考察见解。为降低入门障碍并最大化与故事的连接感,我们融入了HYFBE校友的叙述。此外,我们通过应用PRIMM原则和提供基于知识图谱的分级内容,遵循了教育最佳实践。JsStories已通过访谈和调查向不同利益相关者展示、评估和传达,使我们能够确定基于故事学习解决方案的未来发展方向。
链接: http://arxiv.org/abs/2504.04006v1
标题: Regression Discontinuity Design with Distribution-Valued Outcomes
作者: David Van Dijcke
摘要: 本文介绍了具有分布值结果的断点回归设计(R3D),将标准RDD框架扩展到结果变量为分布而非标量的场景。这种情况发生在处理分配比结果更高聚合水平时——例如基于企业收入门槛分配补贴,而关注结果是企业内部员工工资的分布。由于标准RDD方法无法适应这种两层次随机性,我提出了一种基于随机分布的新方法。目标估计量是"局部平均分位数处理效应",跨随机分位数取平均。为估计这一目标,我提出了两种相关方法:一种将局部多项式回归扩展到随机分位数,另一种基于局部Fr\'echet回归(一种函数回归形式)。对两种估计量,我都建立了渐近正态性,并开发了均匀、去偏的置信带以及数据驱动的带宽选择程序。模拟验证了这些理论性质,并显示现有方法在此场景下存在偏差且不一致。随后我将提出的方法应用于研究美国州长党派控制对州内收入分布的影响,使用势均力敌选举设计。结果表明在民主党执政下存在经典的平等-效率权衡,主要由收入分布顶端的减少驱动。
链接: http://arxiv.org/abs/2504.03992v1
标题: Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models
作者: Siddharth Srikanth, Varun Bhatt, Boshen Zhang, Werner Hager, Charles Michael Lewis, Katia P. Sycara, Aaquib Tabrez, Stefanos Nikolaidis
摘要: 理解人类如何在团队中协作和沟通对于改进人机协作和AI辅助决策至关重要。然而,仅依赖大规模用户研究的数据由于后勤、伦理和实践限制而不切实际,需要建立多种多样化人类行为的合成模型。最近,由大型语言模型(LLMs)驱动的智能体已显示出在社交场景中模拟人类行为的能力。但获取多样化行为需要手动设计提示的繁琐工作。另一方面,质量多样性(QD)优化已被证明能够生成强化学习(RL)智能体的多样化行为。在这项工作中,我们将QD优化与LLM驱动的智能体相结合,迭代搜索能在多步协作环境中产生多样化团队行为的提示。我们首先通过人体实验(n=54参与者)表明人类在该领域表现出多样化的协调和沟通行为。然后我们证明我们的方法能有效复现人类团队数据的趋势,并能捕捉不收集大量数据就难以观察到的行为。我们的发现突显了QD与LLM驱动智能体结合作为研究多智能体协作中团队和沟通策略的有效工具的价值。
链接: http://arxiv.org/abs/2504.03991v1
标题: Building a Village: A Multi-stakeholder Approach to Open Innovation and Shared Governance to Promote Youth Online Safety
作者: Xavier V. Caddle, Sarvech Qadir, Charles Hughes, Elizabeth A. Sweigart, Jinkyung Katie Park, Pamela J. Wisniewski
摘要: SIGCHI和社会计算研究社区一直处于青少年网络安全努力的前沿,从理解青少年面临的严重网络风险到开发基于证据的风险防护干预措施。然而,要实现这些努力,我们必须与从业者合作,包括知道如何将这些技术推向市场的行业利益相关者,以及直接与青少年合作的服务提供者。因此,我们采访了33位青少年网络安全领域的利益相关者,包括行业专业人士(n=12)、青少年服务提供者(n=11)和研究人员(n=10),以了解他们在合作保护青少年网络安全方面的共识点和紧张关系,以及如何协调冲突观点,作为一个拥有协同专业知识的社区共同前进,改变当前青少年网络安全的社交技术格局。总体而言,我们发现需要无党派领导来制定可操作、公平的目标,促进利益相关者之间的合作,对抗孤立感,并在利益相关群体间建立信任。基于这些发现,我们建议使用具有内在透明性的开放创新方法、联邦治理模型和清晰但包容的领导结构来促进青少年网络安全利益相关者之间的协作。我们提议创建一个开放创新组织,统一青少年网络安全中的不同声音,制定开放标准和基于证据的设计模式,集中目前未能实现有效技术解决方案保护青少年网络安全的分散努力。
链接: http://arxiv.org/abs/2504.03971v1
标题: Bridging LMS and Generative AI: Dynamic Course Content Integration (DCCI) for Connecting LLMs to Course Content -- The Ask ME Assistant
作者: Kovan Mzwri, Márta Turcsányi-Szabo
摘要: 将大型语言模型(LLMs)与学习管理系统(LMSs)集成有潜力增强教育中的任务自动化和可访问性。然而,LLMs产生不准确或误导信息的幻觉问题仍然是一个重大挑战。本研究介绍了动态课程内容集成(DCCI)机制,它能动态检索并将Canvas LMS中的课程内容和课程大纲集成到LLM驱动的助手Ask ME中。通过使用提示工程在LLM的上下文窗口中构建检索到的内容,DCCI确保了准确性、相关性和上下文一致性,减轻了幻觉问题。为评估DCCI的有效性、Ask ME的可用性以及学生对教育AI的更广泛看法,我们采用了结合用户满意度评分和结构化调查的混合方法。试点研究结果显示用户满意度很高(4.614/5),学生认可Ask ME能够为行政和课程相关问题提供及时且上下文相关的回答。此外,大多数学生认为Ask ME与Canvas LMS课程内容的集成减少了平台切换,提高了可用性、参与度和理解力。AI在减少课堂犹豫、培养自主学习和求知欲方面的作用也得到了强调。尽管有这些好处和对AI工具的积极看法,但也出现了对AI过度依赖、准确性限制以及抄袭和减少师生互动等伦理问题的担忧。这些发现强调了需要战略性的AI实施、伦理保障措施以及优先考虑人机协作而非替代的教学框架。
链接: http://arxiv.org/abs/2504.03966v1
标题: Confirmatory Biomarker Identification via Derandomized Knockoffs for Cox Regression with k-FWER Control
作者: Rui Liu, Nan Sun
摘要: 在高维生存分析中选择重要特征对于在保持严格错误控制的同时识别验证性生物标志物至关重要。本文提出了一种用于Cox回归的去随机化knockoffs程序,在增强特征选择稳定性的同时严格控制k-族系错误率(k-FWER)。通过聚合多个随机knockoff实现的结果,我们的方法减轻了传统knockoffs常见的不稳定性问题。大量模拟表明,我们的方法在筛选能力和错误控制方面持续优于标准knockoffs。我们将该方法应用于原发性胆汁性肝硬化(PBC)的临床数据集,识别与患者生存相关的关键预后生物标志物。结果证实了去随机化knockoffs方法的优越稳定性,可以更可靠地识别重要临床变量。此外,我们的方法适用于包含连续和分类协变量的数据集,拓宽了其在真实世界生物医学研究中的实用性。该框架为高维生存分析提供了强大且可解释的解决方案,特别适合需要精确稳定变量选择的应用场景。
链接: http://arxiv.org/abs/2504.03907v1
标题: Investigating Affective Use and Emotional Well-being on ChatGPT
作者: Jason Phang, Michael Lampe, Lama Ahmad, Sandhini Agarwal, Cathy Mengying Fang, Auren R. Liu, Valdemar Danry, Eunhae Lee, Samantha W. T. Chan, Pat Pataranutaporn, Pattie Maes
摘要: 随着AI聊天机器人日益普及并融入日常生活,关于拟人化AI对用户潜在影响的问题不断涌现。本研究通过两项平行研究调查了与ChatGPT(聚焦高级语音模式)的互动可能如何影响用户情绪健康、行为和体验。为研究AI聊天机器人的情感使用,我们以保护隐私的方式对ChatGPT平台使用情况进行了大规模自动化分析,分析了超过300万次对话的情感线索,并调查了4,000多名用户对ChatGPT的认知。为探究模型使用与情绪健康之间是否存在关联,我们在28天内对近1,000名参与者进行了机构审查委员会(IRB)批准的随机对照试验(RCT),观察他们在不同实验设置下与ChatGPT互动时的情绪健康变化。在平台数据分析和RCT中,我们都观察到极高使用量与自我报告依赖指标增加相关。从RCT发现,语音交互对情绪健康的影响高度微妙,受用户初始情绪状态和总使用时长等因素影响。总体而言,我们的分析表明,少数用户产生了情感线索的不成比例份额。
链接: http://arxiv.org/abs/2504.03888v1
标题: A New Statistical Approach to Calibration-Free Localization Using Unlabeled Crowdsourced Data
作者: Haozhou Hu, Harpreet S. Dhillon, R. Michael Buehrer
摘要: 基于指纹的室内定位方法通常需要劳动密集型的现场勘测来收集已知参考位置的信号测量数据,并且需要频繁重新校准,这限制了其可扩展性。本文通过利用无位置标签的众包数据提出了一种新颖的室内定位方法来解决这些挑战。我们利用众包数据的统计信息,提出了一种基于累积分布函数(CDF)的距离估计方法,将接收信号强度(RSS)映射到与接入点的距离。这种方法通过有效捕捉阴影衰落和多径的影响,克服了基于经验路径损耗模型的传统距离估计的局限性。与指纹识别相比,我们的无监督统计方法无需在已知参考位置收集信号测量数据。估计的距离随后被整合到一个三步框架中以确定目标位置。我们使用射线追踪模拟生成的RSS数据评估了所提方法的定位性能。结果表明,与基于经验路径损耗模型的方法相比,我们的方法在定位精度上有显著提升。此外,我们基于无标签数据的统计方法实现了与需要带标签指纹的有监督k近邻(kNN)算法相当的定位精度。为促进可重复性和未来研究,我们在[2]公开提供了射线追踪数据集。
链接: http://arxiv.org/abs/2504.03619v1
标题: Going green across boundaries: Spatial effects of environmental policies on tourism flows
作者: Riccardo Gianluigi Serio, Diego Giuliani, Maria Michela Dickson, Giuseppe Espa
摘要: 本研究使用空间杜宾误差模型(SDEM)在引力框架下分析了环境可持续性政策与意大利各省间旅游流量的关系。通过纳入公共和企业环境举措,该分析强调了可持续性措施对旅游需求的直接和空间溢出效应。结果表明,企业主导的举措(如生态认证和绿色投资)对旅游流量的直接影响强于公共措施,突显了私营部门行动的可见性和即时影响。但两类举措都产生了显著的正向空间溢出,表明可持续性努力的影响超出本地边界。这些发现证明了区域旅游系统的互联性,强调了协调可持续性政策在促进旅游增长同时保护环境的关键作用。通过解决旅游流量与可持续实践的空间相互依赖性,本研究为寻求在区域和国家层面推动可持续旅游发展的政策制定者和利益相关者提供了宝贵见解。
链接: http://arxiv.org/abs/2504.03608v1
标题: evalprob4cast: An R-package for evaluation of ensembles as probabilistic forecasts or event forecasts
作者: Mathias Blicher Bjerregård, Jethro Browell, John Zack, Jan Kloppenborg Møller, Henrik Madsen, Gregor Giebel, Corinna Möhrlen
摘要: 在任何预测应用中,预测评估都是重要任务。例如在可再生能源领域,电力生产的高变异性与不确定性使得预测及其评估对电力交易和电网平衡都至关重要。特别是以集合形式表示的概率预测因其能够覆盖所有可能情景而广受欢迎,使预测用户能做出比简单确定性预测更明智的决策。目前支持评估集合预测(尤其是事件检测)的开源软件选择有限。作为解决方案,evalprob4cast是一个用于概率预测评估的新R包,旨在为用户提供评估集合预测所需的所有工具,包括指标和可视化方法。它涵盖单变量和多变量概率预测以及事件检测。此外,它提供了用户友好的设计,只要输入数据按照包定义的格式组织,所有评估方法都可以快速简单地应用。虽然其开发动机是可再生能源预测,但该包可用于任何涉及集合预测的应用领域。
链接: http://arxiv.org/abs/2504.03544v1
标题: Target Prediction Under Deceptive Switching Strategies via Outlier-Robust Filtering of Partially Observed Incomplete Trajectories
作者: Yiming Meng, Dongchang Li, Melkior Ornik
摘要: 受欺骗与反欺骗研究的启发,本文解决了在给定环境中识别智能体目标的问题,该智能体试图到达两个目标中的一个。实践中,智能体可能最初遵循针对一个目标的策略,但中途决定切换到另一个。当对手只能获取包含严重污染传感器噪声和可能异常值的非完美观测时,这种策略可能具有欺骗性,使得难以直观识别智能体的真实意图。为反制欺骗并识别真实目标,我们利用智能体动态特性的先验知识和其状态的部分观测轨迹,动态更新对是否发生欺骗性切换的后验概率估计。然而现有文献中的方法尚未在合理计算时间内实现有效的欺骗识别。我们提出了一组抗异常值的变更检测方法来高效跟踪相关变更统计量,使得在合理计算量下检测隐藏非线性动态中的欺骗策略成为可能。使用带有外部强迫的运动学模型中的随机模拟,我们在欺骗策略下的武器目标分配(WTA)检测中检验了所提框架的性能。
链接: http://arxiv.org/abs/2504.03502v1
标题: Spatiotemporal causal inference with arbitrary spillover and carryover effects
作者: Mitsuru Mukaigawara, Kosuke Imai, Jason Lyall, Georgia Papadogeorgou
摘要: 具有精细时空信息的微观数据对社会科学研究者越来越可用。多数研究者将这些数据聚合为方便的面板数据格式并应用标准因果推断方法。但这种方法有两个局限:首先,数据聚合导致丢失详细地理位置和时间信息,可能带来偏差;其次,多数面板数据方法要么忽略空间溢出和时间滞后效应,要么对其结构施加限制性假设。我们提出了一个处理任意溢出和滞后效应的时空因果推断通用框架。在此框架下,我们展示了如何定义和估计感兴趣的因果量、探索异质性处理效应、研究因果机制,并通过可视化促进结果解释。我们通过对伊拉克空袭和叛乱袭击的分析展示了所提方法。开源软件包geocausal实现了我们所有的方法。
链接: http://arxiv.org/abs/2504.03464v1
标题: Managing Information Overload in Large-Scale Distributed Mixed-Reality Meetings
作者: Katja Krug, Wolfgang Büschel, Mats Ole Ellenberg
摘要: 大规模分布式混合现实会议涉及众多参与者及其视听表征。这些协作环境可能带来感官过载、认知压力和社交疲劳等挑战。本文讨论了如何利用混合现实独特的适应性来缓解这些压力源,通过管理信息过载来实现。
链接: http://arxiv.org/abs/2504.03455v1
标题: Virtualizing a Collaboration Task as an Interactable Environment and Installing it on Real World
作者: Euijun Jung, Youngki Lee
摘要: 本文提出了一种通过将协作任务虚拟化为独立可安装环境来扩展混合现实中分布式协作的新方法。通过将小组活动映射到适应每个用户现实情境的专属虚拟空间,所提方法支持一致的MR交互、动态小组参与和无缝任务转换。个人构思的初步研究显示了增强的沉浸感和生产力,为未来多用户协作系统铺平了道路。
链接: http://arxiv.org/abs/2504.03375v1
标题: Scalable Fitting Methods for Multivariate Gaussian Additive Models with Covariate-dependent Covariance Matrices
作者: Vincenzo Gioia, Matteo Fasiolo, Ruggero Bellio, Simon N. Wood
摘要: 我们提出了在经验贝叶斯框架下拟合协方差矩阵随协变量变化的多变量高斯加性模型的高效计算方法。为保证协方差矩阵的正定性,我们对无约束参数化矩阵的元素建模,特别关注修正Cholesky分解和矩阵对数。一个关键计算挑战源于响应向量维度增加时参数数量呈平方增长。因此我们讨论了如何通过利用简约模型结构、稀疏导数系统和采用面向块的计算方法,在中等高维度实现快速计算和低内存占用。SCM R包提供了构建和拟合多变量高斯加性模型的方法,可从https://github.com/VinGioia90/SCM获取,而重现本文结果的代码可在https://github.com/VinGioia90/SACM找到。
链接: http://arxiv.org/abs/2504.03368v1
标题: Detecting Stereotypes and Anti-stereotypes the Correct Way Using Social Psychological Underpinnings
作者: Kaustubh Shivshankar Shejole, Pushpak Bhattacharyya
摘要: 刻板印象众所周知危害极大,使其检测变得至关重要。然而当前研究主要聚焦于检测和评估LLMs中的刻板印象偏差,使刻板印象研究仍处于早期阶段。许多研究未能清晰区分刻板印象和刻板印象偏差,显著阻碍了该领域的研究进展。刻板印象和反刻板印象检测是需要社会知识的难题,是负责任AI中最具挑战性的领域之一。本研究探索了这一任务,提出了四元组定义,并提供了精确区分刻板印象、反刻板印象、刻板印象偏差和偏差的术语,深入剖析了它们的各个方面。本文提出了StereoDetect,这是一个通过优化利用现有数据集(如StereoSet和WinoQueer)精心策划的高质量基准数据集,涉及人工验证过程和语义信息转移。我们展示了参数少于100亿的推理语言模型在检测反刻板印象时常常混淆。通过将我们的模型与其他当前刻板印象检测模型比较,我们也证明了精心策划数据集的关键重要性。数据集和代码可在https://github.com/KaustubhShejole/StereoDetect获取。
链接: http://arxiv.org/abs/2504.03352v1
标题: Bayesian LSTM for indoor temperature modeling
作者: Emma Hannula, Arttu Häkkinen, Antti Solonen, Felibe Uribe, Jana de Wiljes, Lassi Roininen
摘要: 提高建筑供暖系统的能效对减少全球能源消耗和温室气体排放至关重要。建筑中的传统控制方法依赖基于室外温度测量的静态加热曲线,忽略了系统状态和太阳得热等自由热源。模型预测控制(MPC)不仅解决了这些局限,还通过整合天气预报和系统状态预测进一步优化供暖控制。但当前工业MPC解决方案常使用简化的物理启发模型,为可解释性牺牲了准确性。虽然纯数据驱动模型提供了更好的预测性能,但它们面临过拟合和缺乏透明度等挑战。为弥合这一差距,我们提出了用于室内温度建模的贝叶斯长短期记忆(LSTM)架构。我们在100个真实建筑中的实验表明,贝叶斯LSTM在预测精度上优于工业物理模型,若部署于供暖MPC解决方案中可能提高能效和热舒适性。相比确定性黑盒方法,贝叶斯框架通过不确定性量化提高泛化能力和预测可解释性,提供了额外优势。这项工作通过平衡预测性能与真实世界供暖MPC应用所需的透明度和可靠性,推进了数据驱动的供暖控制发展。
链接: http://arxiv.org/abs/2504.03350v1
标题: Talk2X -- An Open-Source Toolkit Facilitating Deployment of LLM-Powered Chatbots on the Web
作者: Lars Krupp, Daniel Geißler, Peter Hevesi, Marco Hirsch, Paul Lukowicz, Jakob Karolus
摘要: 集成到网站中的LLM驱动聊天机器人为导航和信息检索提供了替代方式,正在改变用户在网络上获取信息的方式。然而,当前主流的闭源解决方案限制了其在网站主机中的普及,并且在实现细节和能源效率方面缺乏透明度。在这项工作中,我们提出了开源的Talk2X代理,它采用改进的检索增强生成方法(RAG)结合自动生成的向量数据库,从而提高了能源效率。Talk2X的架构可推广到任意网站,为开发人员提供了即用型集成工具。通过混合方法评估,我们让用户从开放科学资源库获取特定资源来测试Talk2X的可用性。与标准用户-网站交互相比,Talk2X显著提高了任务完成时间、正确性和用户体验,帮助用户快速定位特定信息。我们的发现为当前网络信息获取方式的范式转变提供了技术支持。
链接: http://arxiv.org/abs/2504.03343v1
标题: Data Augmentation of Time-Series Data in Human Movement Biomechanics: A Scoping Review
作者: Christina Halmich, Lucas Höschler, Christoph Schranz, Christian Borgelt
摘要: 机器学习和深度学习的整合通过大量可穿戴传感器数据改变了生物力学数据分析。然而,该领域面临着大规模数据集有限和数据采集成本高等挑战,这阻碍了鲁棒算法的发展。数据增强技术有望解决这些问题,但其在生物力学时间序列数据中的应用需要全面评估。本范围综述调查了生物力学领域中时间序列数据的数据增强方法。它分析了当前用于增强和生成时间序列数据集的方法,评估了它们的有效性,并提供了在生物力学中应用这些技术的建议。检索了PubMed、IEEE Xplore、Scopus和Web of Science四个数据库中2013年至2024年间发表的研究。按照PRISMA-ScR指南,通过两阶段筛选确定了21篇相关文献。结果表明,对于增强生物力学时间序列数据,没有普遍首选的方法;相反,方法因研究目标而异。一个主要问题是合成数据中缺乏软组织伪影,导致被称为"合成差距"的差异。此外,许多研究缺乏对增强方法的适当评估,难以评估其对模型性能和数据质量的影响。本综述强调了数据增强在解决有限数据集可用性和提高生物力学模型泛化能力方面的关键作用。针对生物力学数据特性定制增强策略对于推进预测建模至关重要。更好地理解不同增强方法如何影响数据质量和下游任务将是开发更有效和更真实技术的关键。
链接: http://arxiv.org/abs/2504.03334v1
标题: A model-free feature extraction procedure for interval-valued time series prediction
作者: Wan Tian, Zhongfeng Qin, Tao Hu
摘要: 在本文中,我们提出了一种新颖的特征提取方法,通过结合迁移学习和成像方法来预测区间值时间序列。首先,我们使用双变量点值时间序列表示区间值时间序列,作为代表性形式。我们首先通过采用各种成像方法(如递归图、格拉米安角和/差场和马尔可夫转移场)将每个时间序列转换为图像,并通过将每个成像方法的输出视为单独的类别来构建图像数据集。基于此数据集,我们训练了几个候选特征提取网络(FEN),特别是具有不同层的ResNet。然后我们选择FEN的倒数第二层来从转换后的图像中提取最相关的特征。我们将提取的特征集成到常规预测模型中以制定相应的预测模型。为了制定预测,我们将提取的特征集成到常规预测模型中。所提出的方法基于标普500指数和三个数据生成过程(DGP)进行评估,实验结果表明,与现有方法相比,预测性能有显著提高。
链接: http://arxiv.org/abs/2504.03310v1
标题: How to Test for Compliance with Human Oversight Requirements in AI Regulation?
作者: Markus Langer, Veronika Lazar, Kevin Baum
摘要: 人类监督要求是欧盟AI法案和AI治理的核心组成部分。在本文中,我们强调了测试这些要求合规性的关键挑战。一个主要困难在于平衡简单但可能无效的基于清单的方法与资源密集型的不同背景下人类监督AI系统的实证测试。此外,缺乏易于操作的标准和人类监督的情境依赖性进一步使合规性测试复杂化。我们认为,这些挑战说明了未来社会技术AI治理中更广泛的挑战。
链接: http://arxiv.org/abs/2504.03300v1
标题: Ultra-low-power ring-based wireless mouse
作者: Yifan Li, Masaaki Fukumoto, Mohamed Kari, Shigemi Ishida, Akihito Noda, Tomoyuki Yokota, Takao Someya, Yoshihiro Kawahara, Ryo Takahashi
摘要: 无线鼠标环为可穿戴计算平台提供了微妙、可靠的指向交互。然而,微型环中低于27 mAh的小电池将环的连续使用寿命限制在仅1-10小时,因为当前的低功耗无线通信(如BLE)对于环的连续使用来说功耗较高。环的短寿命频繁中断用户的鼠标使用,需要频繁充电。本文介绍了picoRing鼠标,通过超低功耗环到手环无线通信实现连续的基于环的鼠标交互。picoRing鼠标采用名为半无源感应遥测的基于线圈的阻抗传感,允许手环线圈通过线圈之间的敏感感应耦合捕获附近环线圈的独特频率响应。环线圈通过高达449 uW的鼠标驱动调制系统将相应的用户鼠标输入转换为独特的频率响应。因此,picoRing鼠标的连续使用在27 mAh电池单次充电下可持续约600(每天使用8小时)-1000(每天使用4小时)小时,同时支持真实世界可穿戴计算情况下的微妙拇指到索引滚动和按压交互。
链接: http://arxiv.org/abs/2504.03253v1
标题: Improving Clinical Imaging Systems using Cognition based Approaches
作者: Kailas Dayanandan, Brejesh Lall
摘要: 临床系统在安全关键环境中运行,其设计初衷并非自主运行;然而当前系统主要复制临床医生的诊断结果而非辅助诊断过程。为更好监督系统生成的诊断,我们模拟了放射科医生分析胸部X光片的系统方法。这种方法有助于全面分析临床图像的所有区域,可减少因注意力盲区和阅读不足导致的错误。我们的工作通过结合人类视觉洞察识别临床医生难以诊断的疾病,填补了关键研究空白,使这些系统能作为有效的"第二双眼睛"。这些改进使临床成像系统更具互补性,结合了人类视觉和机器视觉的优势。此外,我们利用深度学习模型中的有效感受野,以足够上下文呈现机器生成的诊断,使临床医生更易评估。
链接: http://arxiv.org/abs/2504.03251v1
标题: Augmenting Human Cognition With Generative AI: Lessons From AI-Assisted Decision-Making
作者: Zelun Tony Zhang, Leon Reicherts
摘要: 如何利用生成式AI设计增强而非取代人类认知的工具?在本立场论文中,我们回顾了AI辅助决策研究的经验教训。我们观察到,在AI辅助决策和生成式AI中,流行方法是向用户提供AI生成的端到端解决方案,用户可接受、拒绝或编辑。或者,AI工具可提供更渐进的支持帮助用户自行解决问题,我们称之为过程导向支持。我们描述了端到端解决方案的挑战,以及过程导向支持如何解决这些问题。基于最近比较两种方法辅助用户完成LLM复杂决策任务的研究,我们也讨论了这些发现对生成式AI的适用性。
链接: http://arxiv.org/abs/2504.03207v1
标题: A Human Digital Twin Architecture for Knowledge-based Interactions and Context-Aware Conversations
作者: Abdul Mannan Mohammed, Azhar Ali Mohammad, Jason A. Ortiz, Carsten Neumann, Grace Bochenek, Dirk Reiners, Carolina Cruz-Neira
摘要: 人工智能和机器学习的最新发展为人类-自主团队在任务、任务和持续协调活动中创造了新机会。主要挑战是使人类能保持对自主资产的感知和控制,同时建立信任和支持共享情境理解。为此,我们提出实时人类数字孪生架构,集成大型语言模型实现知识报告、回答和推荐,具现于可视化界面。该系统应用元认知方法,提供符合人类队友期望的个性化情境感知响应。人类数字孪生作为视觉和行为逼真的团队成员,集成于从训练到部署再到行动后审查的整个任务生命周期。我们的架构包括语音识别、情境处理、AI驱动对话、情感建模、唇形同步和多模态反馈。我们描述了系统设计、性能指标以及更自适应和逼真人类-自主团队系统的未来发展方向。
链接: http://arxiv.org/abs/2504.03147v1
标题: See-Through Face Display for DHH People: Enhancing Gaze Awareness in Remote Sign Language Conversations with Camera-Behind Displays
作者: Kazuya Izumi, Akihisa Shitara, Yoichi Ochiai
摘要: 本文提出基于透视面部显示的手语对话系统,解决远程手语互动中保持眼神接触的挑战。位于透明显示屏后方的摄像头允许用户观看对话伙伴面部同时保持直接眼神接触。不同于依赖软件视线校正或大型半镜设置的常规方法,此设计减少视觉失真并简化安装。我们实现并评估了集成透视面部显示的视频会议系统,与传统视频会议方法比较。我们探讨其对聋哑人士的潜在应用,包括多方手语对话、语料收集、远程翻译和AI驱动手语化身。与聋哑社区合作将是优化系统实际应用和确保其部署的关键。
链接: http://arxiv.org/abs/2504.03141v1
标题: Graph Network Modeling Techniques for Visualizing Human Mobility Patterns
作者: Sinjini Mitra, Anuj Srivastava, Avipsa Roy, Pavan Turaga
摘要: 城市尺度的人类移动分析需要模型来表示人类移动的复杂性质,这反过来又受附近兴趣点可达性、地方社会经济因素和地理区域人们的本地交通选择影响。本工作将人类移动和相关移动流表示为图。基于图的移动分析方法仍处于采用早期阶段并积极研究中。基于图的移动分析挑战是多方面的——缺乏足够高质量数据表示高时空分辨率的流动,而有限计算资源将大量移动数据转化为网络结构,以及图模型固有的扩展问题等。当前研究开发了通过将图嵌入连续空间的方法论,缓解快速图匹配、图时间序列建模和移动动态可视化相关问题。通过实验,我们展示如何将从出租车轨迹收集的移动数据转化为网络结构和移动流变化模式,并可用于下游任务,报告匹配图与未匹配图相比平均误差降低约40%。
链接: http://arxiv.org/abs/2504.03119v1
标题: Symbiotic AI: Augmenting Human Cognition from PCs to Cars
作者: Riccardo Bovo, Karan Ahuja, Ryo Suzuki, Mustafa Doga Dogan, Mar Gonzalez-Franco
摘要: 随着AI在人机交互中承担越来越复杂的角色,基本问题出现:HCI如何帮助保持用户作为主要主体同时增强人类认知和智能?本文提出指导研究人员思考对代理、自主权、人类智力增强和人类-AI协同未来影响的问题。我们观察到HCI转型背后的关键范式转变,从显式命令控制模型转向用户直接定义高级目标的系统。XR技术将通过其多模态输入输出提供更无缝传达这些目标的方式促进这种转变。本文通过个人电脑和汽车两个文化里程碑的视角思考这种转变,超越键盘或方向盘等传统界面,将它们视为日常XR的载体。
链接: http://arxiv.org/abs/2504.03105v1
标题: The Use of Gaze-Derived Confidence of Inferred Operator Intent in Adjusting Safety-Conscious Haptic Assistance
作者: Jeremy D. Webb, Michael Bowman, Songpo Li, Xiaoli Zhang
摘要: 人类直接完成危险环境中的任务并不总是可行,这些任务越来越多地由遥操作机器人远程执行。然而,遥操作很困难,因为操作者感觉与机器人脱节,原因是缺少来自触觉等多个感官的反馈,以及呈现给操作者的视频反馈缺乏深度。为解决此问题,所提系统主动推断操作者意图并基于预测意图提供协助。此外,计算推断意图置信度的创新方法修改了人在环控制。操作者的视线用于在机器人操作开始前直观指示目标。势场法用于提供朝向预期目标的引导力,安全边界降低损坏风险。基于操作者意图置信度水平修改这些辅助使控制更自然,并使机器人直观理解其人类操作者。初步验证结果显示系统在提高准确性、执行时间和减少操作错误方面的能力。
链接: http://arxiv.org/abs/2504.03098v1
标题: Design of AI-Powered Tool for Self-Regulation Support in Programming Education
作者: Huiyong Li, Boxuan Ma
摘要: 大型语言模型工具通过提供即时个性化反馈展示了高质量辅助潜力,这对有效编程教育至关重要。然而许多工具独立于机构学习管理系统运行,造成重大脱节。这种隔离限制利用学习材料和练习情境生成定制情境感知反馈。此外,先前关于自我调节学习和LLM支持的研究主要关注知识获取而非重要自我调节技能发展。为解决这些挑战,我们开发了CodeRunner Agent,这是基于LLM的编程助手,集成Moodle中自动评分插件CodeRunner。CodeRunner Agent使教育者能通过结合讲座材料、编程问题、学生答案和执行结果的详细情境来自定义AI生成反馈。此外,它通过提供基于策略的AI响应增强学生自我调节学习。这种集成、情境感知和技能聚焦方法为编程教育数据驱动改进提供了有前景的途径。
链接: http://arxiv.org/abs/2504.03068v2
标题: Ontologies in Design: How Imagining a Tree Reveals Possibilites and Assumptions in Large Language Models
作者: Nava Haghighi, Sunny Yu, James Landay, Daniela Rosner
摘要: 随着生成式AI的快速普及,社会技术学者和评论家已追溯出由此产生的多种危害,分析主要聚焦于价值和价值论(如偏见)。虽然基于价值的分析至关重要,但我们认为本体论(关于我们允许自己思考或谈论的内容)是分析这些系统时重要但未被充分认识的维度。我们提出需要基于实践的本体论参与,为设计中的本体论思考提供了四种导向:多元主义、基础性、生动性和制定性。我们通过进行两个本体论分析来展示这些导向在整个LLM开发流程中开启的潜力:检查四个基于LLM的聊天机器人在提示练习中的响应,以及分析一个基于LLM的代理模拟的架构。我们通过分享在社会技术系统设计和开发中运用本体论的机会和限制来总结。
链接: http://arxiv.org/abs/2504.03029v1
标题: Quantifying Personality in Human-Drone Interactions for Building Heat Loss Inspection with Virtual Reality Training
作者: Pengkun Liu, Pingbo Tang, Jiepeng Liu, Yu Hou
摘要: 可靠的建筑能源审计对通过热损失检测提高效率至关重要。虽然无人机辅助检查,但它们忽视了专家工程师运用的人格特质、压力管理和操作策略之间的相互作用。这种差距加上劳动力短缺,使得有效的知识传递成为必要。本研究提出了一个基于VR的训练系统,用于建筑热损失检查中的人机交互。参与者操作带有热成像监视器的虚拟无人机来识别缺陷。通过分析不同学员的飞行模式、压力适应和检查表现,我们发现:(1)飞行轨迹 - 外向型、直觉型、情感型和感知型探索了更大区域但显示出更高的错误分类率,而内向型、感觉型、思考型和判断型展示了系统化方法。(2)压力适应 - 心率变异性揭示了外向型、直觉型、情感型和感知型更广泛压力波动,而内向型、感觉型、思考型和判断型保持更稳定响应。任务复杂性放大了这些差异。(3)检查表现 - 外向型、直觉型和情感型实现了更高召回率但过度识别缺陷。内向型、感觉型、思考型和判断型犯更少随机错误但可能忽略细微热损失。这些发现强调了VR训练中人格特质、压力管理和操作策略在无人机辅助审计中的相互作用。该框架通过促进知识传递和优化人机协作,显示出解决劳动力短缺的潜力。
链接: http://arxiv.org/abs/2504.03014v1
标题: A Review of Prototyping in XR: Linking Extended Reality to Digital Fabrication
作者: Bixun Chen, Shaun Macdonald, Moataz Attallah, Paul Chapman, Rami Ghannam
摘要: 扩展现实(XR)扩展了娱乐和社交生活的视野,并在制造业显示出巨大潜力。XR中的原型设计可以帮助设计师在制造商和投资者决定是否投资研发甚至生产之前,以低成本提出初步方案和迭代。根据文献(过去15年的54篇手稿),XR中的原型设计比个人计算机上的三维(3D)建模更易于使用,并且比纸张绘图更能展示3D结构。在这篇全面综述中,我们系统地调查了关于XR中原型设计的文献,并讨论了将创建的虚拟原型从XR转移到常用3D建模软件和现实的可行性。我们提出了关于XR中原型设计的五个研究问题。它们是:原型设计的组成要素和工作流程是什么;哪些显示设备可以提供令人满意的沉浸式和交互式体验;如何获取用户控制输入以及用户与虚拟元素交互和创建XR原型的方法有哪些;哪些方法可以促进与制造的连接以确保从虚拟世界到物理世界的平稳过渡;以及该研究领域面临哪些挑战和未来发展方向。基于这些问题,我们总结了XR中原型设计的组件和工作流程。此外,我们还概述了显示设备演变、控制技术、数字模型构建和制造过程的最新趋势。鉴于这些最新发展和差距,我们推测了XR中原型设计领域的挑战和机遇,特别是在将扩展现实与数字制造联系起来方面,旨在引导研究人员朝着新的研究方向前进。
链接: http://arxiv.org/abs/2504.02998v1
标题: What People Share With a Robot When Feeling Lonely and Stressed and How It Helps Over Time
作者: Guy Laban, Sophie Chiang, Hatice Gunes
摘要: 孤独和压力在年轻人中普遍存在,并与重大的心理和健康相关后果有关。社交机器人可能为情感支持提供有前景的途径,特别是考虑到对话AI的持续进步。本研究调查了与社交机器人重复互动如何影响孤独感和感知压力,以及这些感受如何反映在用户对机器人的披露主题中。参与者参与了由大型语言模型驱动的QTrobot主导的五次干预,旨在支持认知重新评估。线性混合效应模型的结果显示,孤独感和感知压力随时间显著减少。此外,对560条用户对机器人披露的语义聚类揭示了六个不同的对话主题。Kruskal-Wallis H检验的结果表明,报告较高孤独感和压力的参与者更频繁地参与以社交为中心的披露,如友谊和连接,而较低痛苦与内省和目标导向主题(如学术抱负)相关。通过探索干预如何影响幸福感,以及幸福感如何塑造机器人导向对话的内容,我们旨在捕捉人机交互中情感支持的动态本质。
链接: http://arxiv.org/abs/2504.02991v1
标题: Bayesian sequential analysis of adverse events with binary data
作者: Jiayue Wang, Ben Boukai
摘要: 我们提出了一种贝叶斯序贯程序,用于基于从双臂临床试验获得的二进制数据来测试关于两种特定治疗之间相对风险的假设。我们的发展基于\citet{wang2024early}的最优序贯检验,该检验被置于贝叶斯框架内。这种方法使我们能够基于停止规则原则(SRP),以后验概率和条件错误概率的形式,以直接的方式提供各种错误概率的评估。此外,我们提出了与均匀最强大贝叶斯检验(UMPBT)概念的联系。为了说明我们的程序,我们利用\citet{silva2020optimal}的数据来分析从标准贝叶斯和\citet{berger1997unified}的修正贝叶斯检验在几种不同先验分布下获得的结果。
链接: http://arxiv.org/abs/2504.02959v1
标题: Geospatial and Symbolic Hypothesis for the Foundation of Tenochtitlan Based on Digital Elevation Analysis of the Valley of Mexico
作者: Jose Alberto Baeza Guerra
摘要: 本文通过将数字高程建模与历史和符号分析相结合,提出了关于特诺奇蒂特兰建立的新假设。利用来自EarthExplorer的地理空间数据,我们模拟了墨西哥谷地的各种历史水位。由此产生的湖泊配置揭示了古代定居点在现已消失的湖岸线附近的可能位置,表明与墨西卡神话关键部分相一致的圣地的动态转变。我们将Santa Mar\'ia Aztahuacan确定为历史Aztlan的有力候选者,并根据地理神话关联提出了对基础抄本的新解释。
链接: http://arxiv.org/abs/2504.03787v1
标题: Beyond Discretization: A Continuous-Time Framework for Event Generation in Neuromorphic Pixels
作者: Aaron J. Hendrickson, David P. Haefner
摘要: 提出了一种新颖的连续时间框架,以初始规范表示的形式建模神经形态图像传感器,具有解析可操作性。开发了精确的模拟算法与描述模型动态的闭式表达式并行。该框架支持在真正的连续时间中生成合成事件流,结合分析结果,揭示了文献中提出的事件数据振荡行为背后的基本机制。
链接: http://arxiv.org/abs/2504.02803v1
标题: MENA: Multimodal Epistemic Network Analysis for Visualizing Competencies and Emotions
作者: Behdokht Kiafar, Pavan Uttej Ravva, Asif Ahmmed Joy, Salam Daher, Roghayeh Leila Barmaki
摘要: 提高老年护理质量的需求提出了一个需要从利益相关者那里获得洞察的挑战。虽然模拟培训可以提高能力,但从这些实践中提取有意义的洞察以提高模拟效果仍然是一个挑战。在这项研究中,我们介绍了多模态认知网络分析(MENA),这是一个用于分析增强现实环境中护理人员态度和情绪的新框架,并探讨虚拟老年患者(VGP)的意识如何影响这些方面。MENA通过检测积极情绪增强了认知网络分析的能力,实现了对动态护理实践中护理能力与情绪之间复杂关系的可视化和分析。该框架提供了视觉表示,展示了参与者在有意识的VGP情况下如何提供更多支持性护理并更有效地参与以人为中心的护理。这种方法可以适用于任何依赖于动态人际互动的环境,因为它使用网络图可视化关键元素之间的联系,并支持直接比较多个网络,从而扩大其在各个领域的影响。
链接: http://arxiv.org/abs/2504.02794v1
标题: A Framework for Situating Innovations, Opportunities, and Challenges in Advancing Vertical Systems with Large AI Models
作者: Gaurav Verma, Jiawei Zhou, Mohit Chandra, Srijan Kumar, Munmun De Choudhury
摘要: 大型人工智能(AI)模型因其在标准化基准测试中的卓越(通常是"超人")性能而受到极大关注。然而,当这些模型部署在医疗保健、教育和法律等高风险垂直领域时,它们常常表现出明显的局限性。例如,它们对输入数据的微小变化表现出脆弱性,在关键环境中提供缺乏情境信息的决策,并通过自信地产生或再现不准确信息来破坏用户信任。应用大型模型的这些挑战需要通过跨学科创新来调整模型能力与现实应用需求。我们引入了一个框架,通过分层抽象创新来解决这一差距,旨在用大型模型满足用户需求。通过多个案例研究,我们说明了各个领域的研究人员和实践者如何操作此框架。除了模块化将大型模型转化为有用"垂直系统"的流程外,我们还强调了框架不同层之间存在的动态性。最后,我们讨论了我们的框架如何指导研究人员和实践者(i)优化其创新定位(例如,当垂直特定洞察能够赋能具有广泛影响的垂直无关创新时),(ii)发现被忽视的机会(例如,发现跨垂直领域的重复问题以开发实用基础模型而非追逐基准),以及(iii)促进关键挑战的跨学科交流(例如,为AI开发者、领域专家和人机交互学者启用共享词汇)。
链接: http://arxiv.org/abs/2504.02793v1
标题: From Consumption to Collaboration: Measuring Interaction Patterns to Augment Human Cognition in Open-Ended Tasks
作者: Joshua Holstein, Moritz Diener, Philipp Spitzer
摘要: 生成式AI和大型语言模型(LLMs)的兴起正在从根本上改变知识工作中的认知过程,这引发了关于它们对人类推理和问题解决能力影响的关键问题。随着这些AI系统越来越多地集成到工作流程中,它们为增强人类思维提供了前所未有的机会,同时也存在通过被动消费生成答案导致认知侵蚀的风险。这种张力在开放式任务中尤为明显,因为有效的解决方案需要深入的背景化和领域知识的整合。与具有既定指标的结构化任务不同,由于缺乏基本事实和解决方案开发的迭代性质,测量此类开放式任务中人机交互的质量提出了重大挑战。为了解决这个问题,我们提出了一个框架,该框架沿着两个维度分析交互模式:认知活动模式(探索与利用)和认知参与模式(建设性与有害性)。该框架提供了系统测量,以评估LLMs何时是有效的思维工具而非人类认知的替代品,推进理论理解并为开发保护和增强人类认知能力的AI系统提供实践指导。
链接: http://arxiv.org/abs/2504.02780v1
标题: How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices?
作者: Andres Algaba, Vincent Holst, Floriano Tori, Melika Mobini, Brecht Verbeken, Sylvia Wenmackers, Vincent Ginis
摘要: 科学知识的传播取决于研究人员如何发现和引用先前的工作。大型语言模型(LLMs)在科学研究过程中的采用为这些引用实践增加了一个新层面。然而,目前尚不清楚LLMs在多大程度上与人类引用实践保持一致,它们在不同领域的表现如何,以及可能如何影响引用动态。在这里,我们表明LLMs通过在选择参考文献时始终偏爱高引用论文,系统地加强了引用中的马太效应。尽管存在率(指生成参考文献与外部文献计量数据库中现有记录匹配的比例)存在显著的领域特定差异,但这种模式在科学领域中持续存在。分析GPT-4o为10,000篇论文生成的274,951条参考文献,我们发现LLM推荐与传统引用模式不同,更倾向于引用更新、标题更短、作者更少的参考文献。强调其内容层面的相关性,生成的参考文献在语义上与每篇论文的内容保持一致,水平与基本事实参考文献相当,并显示出类似的网络效应,同时减少了作者自引用。这些发现说明了LLMs如何通过反映和放大既定趋势来重塑引用实践并影响科学发现的轨迹。随着LLMs越来越多地融入科学研究过程,重要的是要理解它们在塑造科学界如何发现和建立在先前工作基础上的作用。
链接: http://arxiv.org/abs/2504.02767v1
标题: Echoes of the hidden: Uncovering coordination beyond network structure
作者: Shahar Somin, Tom Cohen, Jeremy Kepner, Alex Pentland
摘要: 对连接性和协调性的研究近几十年来受到越来越多的关注,因为它们在推动市场、塑造社会动态和影响生物系统中的核心作用。传统上,可观察的连接,如电话呼叫、金融交易或社交媒体连接,被用来推断协调性和连接性。然而,不完整、加密或碎片化的数据,以及通信平台的普遍存在和故意混淆,常常使许多现实世界的连接隐藏起来。在这项研究中,我们证明协调个体表现出共享的突发活动模式,即使它们之间的可观察链接稀疏或完全缺失,也能检测到它们。我们进一步提出了一个基于网络网络形式的生成模型来解释驱动这种协作突发性的机制,将其归因于跨网络的冲击传播而非孤立的个体行为。模型模拟表明,当可观察连接密度低于70%时,突发性显著改善了协调检测,优于最先进的时间方法和结构方法。这项工作为社区和协调动态提供了新的视角,推进了理论理解和实际检测。通过为识别超出可观察网络结构的隐藏连接奠定基础,它实现了跨不同平台的检测,同时增强了对系统行为的理解、知情决策和风险缓解。
链接: http://arxiv.org/abs/2504.02757v1
标题: Pushing the Limit of PPG Sensing in Sedentary Conditions by Addressing Poor Skin-sensor Contact
作者: Manh Pham Hung, Matthew Yiwen Ho, Yiming Zhang, Dimitris Spathis, Aaqib Saeed, Dong Ma
摘要: 光电容积描记术(PPG)是一种广泛使用的非侵入性技术,用于监测心血管健康和消费及医疗设备上的各种生理参数。虽然运动伪影是动态环境中的众所周知的挑战,但静态条件下次优的皮肤-传感器接触(现有文献中经常忽视的关键问题)可能会扭曲PPG信号形态,导致基本波形特征的丢失或偏移,从而降低传感性能。在这项工作中,我们提出了CP-PPG,一种将接触压力扭曲的PPG信号转换为具有理想形态信号的新方法。CP-PPG包含一种新颖的数据收集方法、精心设计的信号处理流程和训练有自定义PPG感知损失函数的先进深度对抗模型。我们通过综合评估验证了CP-PPG,包括1)对我们自收集数据集的形态转换性能,2)公共数据集上的下游生理监测性能,以及3)野外性能。大量实验表明,在心率(HR)、心率变异性(HRV)、呼吸率(RR)和血压(BP)估计中,信号保真度(平均绝对误差:0.09,比原始信号提高40%)以及下游性能均有实质性和一致的改进(HR平均提高21%;HRV提高41-46%;RR提高6%;BP提高4-5%)。这些发现强调了解决皮肤-传感器接触问题对于准确可靠的基于PPG的生理监测的关键重要性。此外,CP-PPG可以作为通用的插件API来增强PPG信号质量。
链接: http://arxiv.org/abs/2504.02735v1
标题: Joint Modeling of Spatial Dependencies Across Multiple Subjects in Multiplexed Tissue Imaging
作者: Joel Eliason, Arvind Rao, Timothy L Frankel, Michele Peruzzi
摘要: 肿瘤微环境(TME)是一个空间异质的生态系统,其中细胞相互作用塑造肿瘤进展和治疗反应。多重成像技术能够实现TME的高分辨率空间表征,但用于分析多受试者空间组织数据的统计方法仍然有限。我们提出了一个贝叶斯层次模型,用于推断多重成像数据集中跨多个受试者的空间依赖性。我们的模型将TME表示为多元对数高斯Cox过程,其中不同细胞类型的空间强度函数由潜在多元高斯过程控制。通过跨受试者汇集信息,我们估计捕获类型内和跨类型依赖性的空间相关函数,从而实现对疾病特异性细胞组织的可解释推断。我们使用模拟验证了我们的方法,证明其对潜在因子规范和空间分辨率的鲁棒性。我们将我们的方法应用于两个多重成像数据集:胰腺癌和结直肠癌,揭示了跨疾病亚型的独特空间组织模式,并突出了区分免疫允许和免疫排斥微环境的肿瘤-免疫相互作用。这些发现提供了对免疫逃避机制的洞察,并可能为新的治疗策略提供信息。我们的方法为建模多受试者数据中的空间依赖性提供了一个原则性框架,具有更广泛适用于空间分辨组学和成像研究。一个R包在线实现了我们的方法。
链接: http://arxiv.org/abs/2504.02693v1
标题: STOOD-X methodology: using statistical nonparametric test for OOD Detection Large-Scale datasets enhanced with explainability
作者: Iván Sevillano-García, Julián Luengo, Francisco Herrera
摘要: 分布外(OOD)检测是机器学习中的一项关键任务,特别是在模型失败可能产生严重后果的安全敏感应用中。然而,当前的OOD检测方法常常受到限制性分布假设、有限的可扩展性和缺乏可解释性的困扰。为了解决这些挑战,我们提出了STOOD-X,这是一个两阶段方法,将用于OOD检测的统计非参数测试与可解释性增强相结合。在第一阶段,STOOD-X使用特征空间距离和Wilcoxon-Mann-Whitney测试来识别OOD样本,而不假设特定的特征分布。在第二阶段,它生成用户友好的、基于概念的可视化解释,揭示驱动每个决策的特征,与BLUE XAI范式保持一致。通过在基准数据集和多种架构上的大量实验,STOOD-X实现了与最先进的后期OOD检测器竞争的性能,特别是在高维和复杂设置中。此外,其可解释性框架支持人类监督、偏差检测和模型调试,促进人与AI系统之间的信任和协作。因此,STOOD-X方法为现实世界的OOD检测任务提供了一个鲁棒、可解释和可扩展的解决方案。
链接: http://arxiv.org/abs/2504.02685v1
标题: Cybersickness Assessment Framework(TestBed): Towards a Standardization of Experiments
作者: Nana Tian, Elif Kurtay, Dylan Vairoli, Adriano Viegas Milani, Ronan Boulic
摘要: 研究虚拟现实(VR)中的晕动症(CS)通常需要大量资源来创建VR环境和管理其他实验相关方面。此外,研究中VR内容的细微差异可能导致相互矛盾的结果。为了解决这些挑战,我们提出了一个标准化评估框架以促进晕动症研究。主要目标是实现一致和可比较的CS相关实验。通过建立这一共同基础,研究人员可以更好地评估和比较各种因素对晕动症的影响。我们全面解释了概念设计,详细说明了技术实现,并提供了使用建议框架的说明。最后,我们通过讨论局限性和未来发展的潜在途径来总结。
链接: http://arxiv.org/abs/2504.02675v1
标题: How humans evaluate AI systems for person detection in automatic train operation: Not all misses are alike
作者: Romy Müller
摘要: 如果人工智能(AI)要应用于安全关键领域,其性能需要可靠地评估。本研究旨在了解人类如何评估自动列车运行中用于人员检测的AI系统。在三个实验中,参与者看到人们在铁路轨道附近移动的图像序列。模拟AI突出显示了所有检测到的人,有时正确有时不正确。参与者必须提供AI性能的数值评分,然后用语言解释他们的评分。实验改变了几个可能影响人类评分的因素:AI错误的类型和合理性、受影响图像的数量、图像中存在的人数、人与轨道的相关位置以及用于获取人类评估的方法。虽然所有这些因素都影响了人类评分,但有些影响是意外的或偏离了规范标准。例如,影响最强的因素是人与轨道的相对位置,尽管参与者明确被告知AI无法处理此类信息。综合来看,结果表明人类有时可能评估的不仅仅是AI在分配任务上的表现。在进行AI系统的安全审计时,应考虑AI能力与人类期望之间的这种不匹配。
链接: http://arxiv.org/abs/2504.02664v1
来源:arxiv