实践应用

第一期(20250208-20250310)

2025-03-19

发布

第一期(20250208-20250310)

标题: A comparison of the Alkire-Foster method and a Markov random field approach in the analysis of multidimensional poverty  
作者: Joseph Lam  
摘要: 多维贫困测量对于捕捉超越基于收入指标的剥夺至关重要。本研究通过基于模拟的分析,比较了Alkire-Foster(AF)方法和马尔可夫随机场(MRF)方法在分类多维贫困中的应用。AF方法采用基于确定性阈值的分类,而MRF方法则利用概率图模型来考虑剥夺指标之间的相关性。使用包含50,000个个体和十个二元剥夺指标的合成数据集,我们评估了分类准确性、假阳性/假阴性权衡以及方法之间的一致性。结果显示,AF的分类准确性(89.5%)高于MRF(75.4%),其中AF最小化了假阴性,而MRF减少了假阳性。两种方法的总体一致性为65%,差异主要发生在AF将个体分类为贫困而MRF未分类的情况下。虽然AF透明且易于实施,但它未能捕捉指标之间的相互依赖性,可能导致误分类。MRF尽管计算密集,但提供了对剥夺集群的更细致理解。这些发现突出了多维贫困测量中的权衡,并为政策制定者基于数据可用性和政策目标选择方法提供了见解。未来的研究应将这些方法扩展到非二元指标和现实世界的数据集。  
链接: http://arxiv.org/abs/2503.05676v1  

标题: Enhancing User Performance and Human Factors through Visual Guidance in AR Assembly Tasks  
作者: Leon Pietschmann, Michel Schimpf, Zhu-Tian Chen, Hanspeter Pfister, Thomas Bohné  
摘要: 本研究通过一项被试间实验,探讨了视觉引导(VG)对增强现实(AR)中用户表现和人为因素的影响。VG是AR应用中的关键组成部分,作为数字信息与现实世界交互的桥梁。与以往研究常常产生不一致结果不同,我们的研究专注于不同类型的支持性可视化,而非交互方法。我们的研究结果显示,任务完成时间减少了31%,但错误率显著上升,突显了速度与准确性之间的权衡。此外,我们评估了遮挡的负面影响作为实验设计的一部分。除了考察认知负荷、动机和可用性等其他变量外,我们还为未来研究提出了具体方向和可行见解。总体而言,我们的结果强调了VG在提升AR用户表现方面的潜力,同时强调了进一步研究潜在人为因素的重要性。  
链接: http://arxiv.org/abs/2503.05649v1  

标题: Nuanced Safety for Generative AI: How Demographics Shape Responsiveness to Severity  
作者: Pushkar Mishra, Charvi Rastogi, Stephen R. Pfohl, Alicia Parrish, Roma Patel, Mark Diaz, Ding Wang, Michela Paganini, Vinodkumar Prabhakaran, Lora Aroyo, Verena Rieser  
摘要: 确保生成式AI的安全性需要对多元观点有细致入微的理解。本文提出了一种新颖的数据驱动方法,用于校准多元数据集中的细粒度评分。具体而言,我们解决了如何解释不同人群对通过序数量表(如Likert量表)表达的安全性的响应挑战。我们提炼了非参数响应性指标,量化了评分者在评分安全违规严重程度时的一致性。以AI生成内容的安全性评估为案例研究,我们调查了来自不同人口群体(年龄、性别、种族)的评分者如何使用序数量表表达他们对多元安全数据集中违规严重程度的感知。我们将这些指标应用于不同类型的违规,展示了它们在提取关键见解方面的实用性,这些见解对于在多文化背景下开发可靠的AI系统至关重要。我们表明,我们的方法通过捕捉不同人口群体的细微观点,提供了改进的安全问题优先级排序能力,从而提高了多元数据收集的可靠性,进而为更稳健的AI评估做出贡献。  
链接: http://arxiv.org/abs/2503.05609v1  

标题: Synchronization between media followers and political supporters during an election process: towards a real time study  
作者: Rémi Perrier, Laura Hernández, J. Ignacio Alvarez-Hamelin, Mariano G. Beiró Dimitris Kotzinos  
摘要: 我们分析了2022年法国总统选举期间Twitter(在它成为X之前)上不同候选人的支持者与不同类型媒体的追随者之间的讨论动态。我们的研究表明,我们可以在特定时间自动检测不同群体围绕特定话题的兴趣同步。我们引入了两种互补的方法来构建动态语义网络,每种方法都有其优势。增长聚合网络有助于识别过去话题的重新激活,而滚动窗口网络对新兴讨论更为敏感,尽管这些讨论可能突然出现且寿命较短。这两种方法提供了对讨论景观的不同视角。我们主张同时使用这两种方法,因为它们的比较以相对较低的计算和存储成本提供了有价值的见解。我们的研究结果在更大规模上以自动、不可知的方式确认并量化了以往使用更定性方法得出的观察结果。我们认为这项工作代表了开发评估信息处理公平性方法的重要一步,这是某些国家使用广播频谱频率的广播机构的法律义务。  
链接: http://arxiv.org/abs/2503.05552v1  

标题: PoSSUM: A Protocol for Surveying Social-media Users with Multimodal LLMs  
作者: Roberto Cerina  
摘要: 本文介绍了PoSSUM,一种通过多模态大语言模型(LLMs)对社交媒体用户进行无干扰投票的开源协议。PoSSUM利用用户的实时帖子、图像和其他数字痕迹创建硅样本,捕捉LLM训练数据中不存在的信息。为了获得代表性估计,PoSSUM采用多级回归和后分层(MrP)方法,结合结构化先验来抵消社交媒体平台的可观察选择偏差。该协议在2024年美国总统选举期间进行了验证,期间进行了五次PoSSUM投票,并在GitHub和X上发布。在10月17日至26日进行的最后一次投票中,PoSSUM使用1,054名X用户的合成样本,准确预测了51个州中的50个州的结果,并为共和党候选人分配了0.65的获胜概率。值得注意的是,它在州级偏差方面也低于大多数知名民调机构。这些结果展示了PoSSUM作为完全自动化、无干扰的传统调查方法替代方案的潜力。  
链接: http://arxiv.org/abs/2503.05529v1  

标题: Cognitive Bias Detection Using Advanced Prompt Engineering  
作者: Frederic Lemieux, Aisha Behr, Clara Kellermann-Bryant, Zaki Mohammed  
摘要: 认知偏差,即判断中系统性偏离理性的现象,在生成客观内容时提出了重大挑战。本文提出了一种新颖的方法,利用大语言模型(LLMs)和高级提示工程技术实时检测用户生成文本中的认知偏差。该系统分析文本数据以识别常见的认知偏差,如确认偏差、循环推理和隐藏假设。通过设计定制提示,系统有效利用LLMs的能力来识别和减轻这些偏差,从而提高人类生成内容(如新闻、媒体、报告)的质量。实验结果表明,我们的方法在识别认知偏差方面具有高准确性,为提高内容客观性和减少偏差决策风险提供了有价值的工具。  
链接: http://arxiv.org/abs/2503.05516v1  

标题: A systemic and cybernetic perspective on causality, big data and social networks in tourism  
作者: Miguel Lloret-Climent, Andrés Montoyo-Guijarro, Yoan Gutierrez-Vázquez, Rafael Muñoz-Guillena, Kristian Alonso-Stenberg  
摘要: 目的 - 本文旨在提出一个数学模型,用于确定旅游变量集合中的不变集、集合覆盖、轨道,特别是吸引子。分析基于一种算法,并在大数据的背景下应用了广义系统论中开发的混沌理论解释。设计/方法论/方法 - 旅游业是经济中最数字化的部门之一,而社交网络是信息收集的重要数据来源。然而,网络上冗余信息的高水平以及矛盾意见和事实的出现产生了不良影响,必须与现实数据进行交叉验证。本文阐述了与旅游流量相关的因果关系,以便制定适当的策略。发现 - 结果可应用于众多案例,例如在分析旅游流量时,这些发现可用于确定某些群体的行为是否影响其他群体的行为,以及分析旅游行为中最相关的变量。原创性/价值 - 本文提出的技术打破了旅游主题的常规处理方式。与仅提供当前数据信息的统计分析不同,作者使用轨道分析来预测,如果发现吸引子,旅游变量在不久的将来的行为。  
链接: http://arxiv.org/abs/2503.05502v1  

标题: The Software Diversity Card: A Framework for Reporting Diversity in Software Projects  
作者: Joan Giner-Miguelez, Sergio Morales, Sergio Cobos, Javier Luis Canovas Izquierdo, Robert Clariso, Jordi Cabot  
摘要: 近年来,对软件开发多样性的兴趣和关注度激增。报告软件项目的多样性相关方面可以增加用户信任,并帮助监管机构评估潜在的采用。此外,围绕AI的最新指令开始要求在AI产品开发中提供多样性信息,表明公共监管机构对此的兴趣日益增长。尽管重要性如此,当前软件开发过程中的文档资产常常忽视多样性,而偏向于技术特征,部分原因是缺乏描述和注释多样性的工具。本工作介绍了软件多样性卡片,一个用于报告软件项目多样性相关方面的综合框架。该卡片旨在描述参与开发和治理软件项目的不同类型团队(包括参与测试的最终用户群体)以及为特定社会群体进行的软件适配。为了鼓励其采用,我们提供了一种多样性建模语言、一个使用该语言生成卡片的工具包,以及来自活跃软件项目的真实示例集合。我们的提案可以通过开源项目(如CONTRIBUTING.md文件)增强软件开发中的多样性实践,支持公共管理部门的软件评估,并帮助企业将多样性作为关键资产进行推广。  
链接: http://arxiv.org/abs/2503.05470v1  

标题: PinchCatcher: Enabling Multi-selection for Gaze+Pinch  
作者: Jinwook Kim, Sangmin Park. Qiushi Zhou, Mar Gonzalez-Franco, Jeongmi Lee, Ken Pfeuffer  
摘要: 本文研究了基于眼和手交互的XR界面中的多选技术。我们提出了使用半捏合手势的不同变体来启用多选的技术,允许用户选择多个对象,同时过渡到完全捏合。虽然我们的探索基于半捏合模式来激活准模式,但我们探索了四种用于确认多选模式下子选择的方法,这些方法在努力和复杂性上有所不同:停留时间(SemiDwell)、滑动(SemiSwipe)、倾斜(SemiTilt)和非主导手输入(SemiNDH),并将它们与基线技术进行比较。在用户研究中,我们评估了它们在减少任务完成时间、错误和努力方面的有效性。结果表明了每种技术的优缺点,其中SemiSwipe和SemiDwell是参与者最青睐的方法。我们还展示了它们在文件管理和RTS游戏应用场景中的实用性。这项研究为推进XR中的3D输入系统提供了宝贵的见解。  
链接: http://arxiv.org/abs/2503.05456v1  

标题: Controllable Complementarity: Subjective Preferences in Human-AI Collaboration  
作者: Chase McDonald, Cleotilde Gonzalez  
摘要: 关于人机协作的研究通常优先考虑客观表现。然而,理解人类的主观偏好对于改善人机互补性和人类体验至关重要。我们研究了人类在共享工作空间任务中对可控性的偏好,使用行为塑造(BS)算法,该算法允许人类对AI行为进行显式控制。在一个实验中,我们验证了BS在生成有效AI策略方面的鲁棒性,与自玩策略相比,当控制被隐藏时。在另一个实验中,我们启用了人类控制,显示当参与者能够直接指示AI行为时,他们感知到AI合作伙伴更有效和更愉快。我们的研究结果强调了设计既优先考虑任务表现又优先考虑人类主观偏好的AI的必要性。通过将AI行为与人类偏好对齐,我们展示了人机互补性如何超越客观结果,包括主观偏好。  
链接: http://arxiv.org/abs/2503.05455v1  

标题: Continual Human-in-the-Loop Optimization  
作者: Yi-Chi Liao, Paul Streli, Zhipeng Li, Christoph Gebhardt, Christian Holz  
摘要: 最佳输入设置因用户的运动能力和个人偏好而异,通常通过手动调整或校准来解决。尽管人机闭环优化有潜力在使用过程中识别最佳设置,但由于其优化过程较长,很少被应用。一种更高效的方法将不断利用先前用户的数据来加速优化,利用共享特征同时适应个体特征。我们引入了持续人机闭环优化的概念,并提出了一种基于贝叶斯优化的方法,利用贝叶斯神经网络代理模型捕捉群体特征,同时适应新用户。我们提出了一种生成重放策略来缓解灾难性遗忘。我们通过优化虚拟现实键盘参数以进行直接触摸文本输入,展示了我们的方法,显示了随着用户基数的增长,适应时间的减少。我们的方法为下一代个性化输入系统打开了大门,这些系统随着积累的经验而改进。  
链接: http://arxiv.org/abs/2503.05405v1  

标题: Improving Hate Speech Classification with Cross-Taxonomy Dataset Integration  
作者: Jan Fillies, Adrian Paschke  
摘要: 由于研究和实践中使用的不同定义和数据集,算法仇恨言论检测面临重大挑战。社交媒体平台、法律框架和机构各自应用不同但重叠的定义,使分类工作复杂化。本研究通过展示现有数据集和分类法可以整合到一个统一模型中,增强预测性能并减少对多个专门分类器的依赖,解决了这些挑战。该工作引入了一种通用分类法和一个能够在一个框架内检测广泛定义的仇恨言论分类器。我们的方法通过结合两个广泛使用但不同注释的数据集进行了验证,显示在独立测试集上分类性能的改进。这项工作突出了数据集和分类法整合在推进仇恨言论检测、提高效率和确保跨上下文更广泛应用方面的潜力。  
链接: http://arxiv.org/abs/2503.05357v1  

标题: Spatial Distillation based Distribution Alignment (SDDA) for Cross-Headset EEG Classification  
作者: Dingkun Liu, Siyang Li, Ziwei Wang, Wei Li, Dongrui Wu  
摘要: 非侵入性脑机接口(BCI)使用户能够直接与外部设备交互,通常通过脑电图(EEG)信号进行。然而,由于电极数量和位置的不同,跨头戴设备的EEG信号解码仍然是一个重大挑战。为了解决这一挑战,我们提出了一种基于空间蒸馏的分布对齐(SDDA)方法,用于非侵入性BCI中的异构跨头戴设备迁移。SDDA首先使用空间蒸馏来利用完整的电极集,然后通过输入/特征/输出空间分布对齐来应对源域和目标域之间的显著差异。据我们所知,这是首次在跨头戴设备迁移中使用知识蒸馏的工作。在六个来自两种BCI范式的EEG数据集上的广泛实验表明,SDDA在离线无监督域适应和在线监督域适应场景中均表现出色,始终优于10种经典和最先进的迁移学习算法。  
链接: http://arxiv.org/abs/2503.05349v1  

标题: A Comparative Study of How People With and Without ADHD Recognise and Avoid Dark Patterns on Social Media  
作者: Thomas Mildner, Daniel Fidel, Evropi Stefanidi, Pawel W. Wozniak, Rainer Malaka, Jasmin Niess  
摘要: 黑暗模式是欺骗性策略,近年来在人机交互(HCI)领域的研究中在包括社交网站(SNSs)在内的数字领域中被广泛捕捉。虽然研究已经发现人们在有效识别黑暗模式方面存在困难,但很少有研究考虑弱势群体在这方面的体验,包括注意力缺陷多动障碍(ADHD)患者,他们可能特别容易受到吸引注意力的技巧的影响。基于一项涉及135名参与者的交互式网络研究,我们通过比较ADHD和非ADHD参与者的结果,调查了SNS用户识别和避免黑暗模式的能力。与先前的工作一致,我们注意到整体对黑暗模式的识别率较低,两组之间没有显著差异。然而,ADHD个体能够更频繁地避免特定的黑暗模式。我们的结果通过理解黑暗模式在现实环境中的影响,推进了先前的工作,并提供了对弱势群体影响的见解。  
链接: http://arxiv.org/abs/2503.05263v1  

标题: Bayesian analysis of restricted mean survival time adjusted for covariates using pseudo-observations  
作者: Léa Orsini, Emmanuel Lesaffre, Guosheng Yin, Caroline Brard, David Dejardin, Gwénaël Le Teuff  
摘要: 限制平均生存时间(RMST)的差异是量化随机对照试验中治疗效果的一个临床上有意义的指标,尤其是在比例风险假设不成立时。已有几种基于建模和整合生存函数的频率学方法用于估计调整协变量的RMST。一种更自然的方法可能是使用伪观测值的RMST回归模型,它允许直接估计而无需建模生存函数。现有的贝叶斯方法较少,且每种方法都需要对生存函数进行建模。我们开发了一种新的贝叶斯方法,将伪观测值与广义矩方法结合使用。这提供了调整协变量的RMST估计,而无需建模生存函数,使其比现有贝叶斯方法更具吸引力。通过不同时间依赖性治疗效果(早期、延迟和交叉生存)和协变量效应的模拟研究,我们展示了我们的方法提供了有效的结果,与现有方法一致,并在协变量调整后显示出改进的精确度。为了说明,我们将我们的方法应用于前列腺癌的III期试验,提供了RMST的治疗效果估计,与现有方法相当。此外,我们的方法提供了其他协变量对RMST的影响,并确定了RMST差异超过任何给定时间阈值的后验概率,从而为任何协变量提供了细致入微且可解释的结果。  
链接: http://arxiv.org/abs/2503.05225v1  

标题: ARbiter: Generating Dialogue Options and Communication Support in Augmented Reality  
作者: Julián Méndez, Marc Satkowski  
摘要: 在本立场论文中,我们提出研究增强现实(AR)和人工智能(AI)的结合以支持对话,灵感来自常见于视频游戏的对话系统界面。AR设备正变得越来越强大且外观更传统,如Snapchat Spectacles、XREAL眼镜或最近发布的Meta Orion等头戴式显示器(HMDs)。这一发展减少了可能的工效学、外观和运行时间问题,从而允许AR在我们日常生活中的更直接集成和更广泛使用,无论是在私人生活还是工作中。同时,我们可以观察到AI开发的巨大浪潮(在CHI也是如此)。最近著名的大语言模型(LLMs)如OpenAI的o3-mini或DeepSeek-R1在维持对话、提供建议和处理复杂话题方面超越了其前身。结合自然语言识别系统(如今已成为智能手机和类似设备的标准组件,包括现代AR-HMDs),很容易想象一个结合的系统,它将融入日常对话并提供各种类型的帮助。这样的系统将为AR+AI的研究提供许多机会,正如Hirzle等人所述,这一领域仍然稀缺。在接下来的内容中,我们描述了如何从视频游戏对话系统中学习设计一个对话式AR+AI系统,并提出了可以通过这种AR+AI组合进行研究的使用案例和研究问题。  
链接: http://arxiv.org/abs/2503.05220v1  

标题: Deep Muscle EMG construction using A Physics-Integrated Deep Learning approach  
作者: Rajnish Kumar, Tapas Tripura, Souvik Chakraborty, Sitikantha Roy  
摘要: 基于肌电图(EMG)的计算肌肉骨骼建模是一种非侵入性方法,用于研究肌肉肌腱功能、人类运动和神经肌肉控制,提供内部变量(如肌肉力量和关节扭矩)的估计。然而,通过放置表面EMG电极测量深层肌肉的EMG信号通常具有挑战性,并且使用侵入性方法直接测量不可行。获取深层肌肉EMG数据的限制对广泛采用EMG驱动建模技术构成了重大障碍。一种战略替代方案是使用估计算法来近似深层肌肉缺失的EMG信号。类似的策略被用于物理信息深度学习,其中物理系统的特征是在没有标注数据的情况下学习的。在这项工作中,我们提出了一种混合深度学习算法,即神经肌肉骨骼模型(NMM),它结合了物理信息和数据驱动的深度学习来近似深层肌肉的EMG信号。数据驱动建模用于预测缺失的EMG信号,而基于物理的建模将特定受试者的信息刻入预测中。对五名测试对象进行了实验验证,以研究所提出的混合框架的性能。所提出的NMM通过与“OpenSim”软件计算的关节扭矩进行了验证。预测的深层EMG信号还与最先进的肌肉协同外推(MSE)方法进行了比较,其中所提出的NMM以显著优势完全优于现有的MSE框架。
链接: http://arxiv.org/abs/2503.05201v1

标题: Can Large Language Models Grasp Concepts in Visual Content? A Case Study on YouTube Shorts about Depression  
作者: Jiaying "Lizzy" Liu, Yiheng Su, Praneel Seth  
摘要: 大语言模型(LLMs)越来越多地用于辅助计算社会科学研究。虽然之前的努力主要集中在文本上,但利用多模态LLMs(MLLMs)进行在线视频研究的潜力仍未得到充分探索。我们进行了首批关于MLLM辅助视频内容分析的案例研究之一,将AI对抽象概念的解释与人类理解进行比较。我们利用LLaVA-1.6 Mistral 7B来解释与视频介导的自我披露相关的四个抽象概念,分析了142个与抑郁症相关的YouTube短视频中的725个关键帧。我们对MLLM自我生成的解释进行了定性分析,发现操作化的程度可以影响MLLM的解释。有趣的是,更详细的描述并不一定会增加人类与AI的一致性。我们还识别了其他影响AI与人类理解一致性的因素,例如概念的复杂性和视频类型的多样性。我们的探索性研究强调了为特定概念定制提示的必要性,并呼吁研究人员在多模态背景下与AI系统合作时纳入更多以人为中心的评估。  
链接: http://arxiv.org/abs/2503.05109v1  

标题: Towards democratic data agency: Attitudes and concerns about online data practices  
作者: Niels J. Gommesen  
摘要: 最近的研究揭示了人们对个人数据在未经同意的情况下被收集、共享和使用的广泛担忧和日益增加的不理解。这一问题因数字公民在跨平台上理解、控制和管理其数据流的有限选项而加剧,突显了探索这种缺乏信任和透明度如何影响公民数据实践(包括他们在现代知识社会中行动的能力)的必要性。尽管这一领域的研究前景广阔,但重要的群体常常被忽视,特别是来自边缘化社会群体的人,如老年人、社会经济弱势社区和年轻参与者。本文通过特别关注这些未被充分代表的群体,强调需要探索他们对在线数据实践的理解和感知。基于三个半结构化焦点小组访谈,本文提出:公众对互联网上数据共享的态度和担忧在多大程度上可以为增强数字信任和民主数据机构(特别是丹麦边缘化群体)的必要策略和框架提供信息?该研究探讨了人们在其日常在线数据实践中希望获得的信息类型、透明度水平和机构。此外,它还探讨了这些见解如何可能为未来公平数据策略和技术方法的发展提供信息,以增强数字信任和民主数据机构。主要发现指出,透明、可访问的隐私政策和数据管理工具是必要的,强调仅透明度不足以解决信任问题,还需要增强民主机构以促进更具包容性的数字环境。  
关键词: 公众理解,个人数据,数字信任,数据实践,数据机构  
链接: http://arxiv.org/abs/2503.05058v1  

标题: Enhancing Autonomous Vehicle-Pedestrian Interaction in Shared Spaces: The Impact of Intended Path-Projection  
作者: Le Yue, Tram Thi Minh Tran, Xinyan Yu, Marius Hoggenmueller  
摘要: 外部人机界面(eHMIs)对于在共享空间中实现自动驾驶车辆(AVs)与行人之间的无缝交互至关重要。然而,它们往往难以适应这些环境,因为行人流动是灵活的,路权是模糊的。为了解决这些挑战,我们提出了PaveFlow,这是一种将AV的预期路径实时投影到地面上的eHMI,提供连续的空间信息,而不是二进制的停止/通行信号。通过一项VR研究(N=18),我们评估了PaveFlow在两种AV密度条件(单AV与多AV)和无PaveFlow基线条件下的有效性。结果显示,PaveFlow显著提高了行人对安全性、信任和用户体验的感知,同时减少了认知负荷。这一表现在单AV和多AV条件下保持一致,尽管在优先级谈判中仍然存在紧张关系。这些发现表明,路径投影通过提供更丰富的移动线索,增强了eHMI的透明度,可能更好地支持共享空间中的AV-行人交互。  
链接: http://arxiv.org/abs/2503.05041v1  

标题: Bridging the AI Adoption Gap: Designing an Interactive Pedagogical Agent for Higher Education Instructors  
作者: Si Chen, Reid Metoyer, Khiem Le, Adam Acunin, Izzy Molnar, Alex Ambrose, James Lang, Nitesh Chawla, Ronald Metoyer  
摘要: 教师在将AI整合到教育中发挥着关键作用,然而他们对AI支持工具的采用仍然不一致。尽管如此,有限的研究探讨了如何设计支持更广泛教师采用的AI工具。本研究采用以人为中心的设计方法,结合定性方法,调查了为教师提供教学建议的交互式教学代理的设计。我们进行了一项形成性研究,包括对五位教学专家的访谈,以研究支持教师教学需求的现有策略。基于这些见解,我们与十位教学专家进行了一次参与式设计会议,参与者审查了一个故事板,描绘了一个为具有不同AI素养和对AI态度的教师设计的聊天机器人。专家还评估了基于常见教学挑战的LLM生成建议的质量。我们的研究结果强调了设计能够培养信任的聊天机器人交互的必要性,特别是对于AI保守的教师。专家强调了社会透明度(例如展示同行如何使用该工具)的重要性,并允许教师灵活控制他们与系统的互动程度。我们还提出了设计建议,以提高AI生成教学建议的质量,例如根据教师先前的教学经验进行调整。这项工作强调了支持AI保守教师的迫切需求,因为AI素养和态度密切相关。如果没有深思熟虑的设计,存在扩大教学差距和减少学生学习机会的风险。  
链接: http://arxiv.org/abs/2503.05039v1  

标题: A Scorecard Model Using Survival Analysis Framework  
作者: Cheng Lee, Hsi Lee  
摘要: 信用风险评估是金融决策的关键方面,使机构能够预测违约的可能性并做出明智的借贷选择。风险建模中的两种主要方法是逻辑回归和生存分析。逻辑回归因其简单性、可解释性和在估计二元结果(如违约与非违约)概率方面的有效性而被广泛用于创建评分卡模型。另一方面,生存分析,特别是风险率框架,提供了对事件时间(如违约时间)的洞察。通过将逻辑回归与生存分析相结合,传统的评分卡模型不仅可以考虑违约概率,还可以考虑违约动态。这种组合方法提供了信用风险的全面视图,使机构能够主动管理风险并根据个人借款人档案定制策略。本文介绍了使用逻辑回归开发评分卡模型并通过生存分析技术增强数据以纳入时变风险因素的过程。该过程包括数据准备、模型构建、评估指标和模型实施。  
链接: http://arxiv.org/abs/2503.05023v1

标题: Value of Information in Social Learning  
作者: Hiroto Sato, Konan Shimizu  
摘要: 本研究将Blackwell(1953)的信息比较扩展到顺序社会学习模型,其中代理人基于私人信号和观察到的他人行为依次做出决策。在此背景下,我们引入了一种新的信息结构二元关系:如果一个信息结构在所有代理人的偏好下都能带来更高的预期收益,则它比另一个信息结构更具社会价值。首先,我们证明这种二元关系严格强于Blackwell序。然后,我们为这种二元关系提供了一个充分必要条件,并提出了一个更简单且易于验证的充分条件。  
链接: http://arxiv.org/abs/2503.05015v1  

标题: LLMs' Reshaping of People, Processes, Products, and Society in Software Development: A Comprehensive Exploration with Early Adopters  
作者: Benyamin Tabarsi, Heidi Reichert, Ally Limke, Sandeep Kuttal, Tiffany Barnes  
摘要: 像OpenAI ChatGPT、Google Gemini和GitHub Copilot这样的大语言模型(LLMs)在软件行业中迅速获得关注,但它们对软件工程的全面影响仍未得到充分探索。尽管其采用率不断增长,但缺乏对LLMs在现实世界软件开发环境中如何应用的正式定性评估。为了填补这一空白,我们对16位早期采用者专业开发者进行了半结构化访谈,以探索他们在软件开发生命周期各个阶段使用LLMs的情况。我们的研究从四个维度展开:人——LLMs如何影响个体开发者和团队;过程——LLMs如何改变软件工程工作流程;产品——LLMs对软件质量和创新的影响;社会——LLMs采用的更广泛社会经济和伦理影响。通过对数据的主题分析,我们发现尽管LLMs尚未从根本上革新开发过程,但它们显著增强了常规编码任务,包括代码生成、重构和调试。开发者报告称,当向LLMs提供清晰、明确的问题陈述时,效果最佳,表明LLMs擅长处理分解问题和特定需求。此外,这些早期采用者认为LLMs对个人和职业发展具有重要价值,有助于学习新语言和概念。早期采用者在软件工程和LLMs工作原理方面技能高超,他们识别了软件工程中的早期和持续挑战,例如生成内容的不准确性以及在将LLM输出集成到生产环境之前需要仔细的手动审查。我们的研究提供了对LLMs如何塑造软件开发格局的细致理解,包括其优势、局限性和持续影响。  
链接: http://arxiv.org/abs/2503.05012v1  

标题: Eggly: Designing Mobile Augmented Reality Neurofeedback Training Games for Children with Autism Spectrum Disorder  
作者: Yue Lyu, Pengcheng An, Yage Xiao, Zibo Selena Zhang, Huan Zhang, Keiko Katsuragawa, Jian Zhao  
摘要: 自闭症谱系障碍(ASD)是一种神经发育障碍,影响儿童与他人和周围世界的沟通和互动方式。新兴研究表明,神经反馈训练(NFT)游戏是一种有效且有趣的干预手段,可以增强自闭症儿童的社交和注意力能力。然而,NFT主要在临床环境中提供,难以扩展。此外,干预需要精心设计的游戏化反馈,以增加趣味性和享受性,而HCI社区对此知之甚少。通过与四位领域专家进行为期十个月的迭代设计过程,我们开发了Eggly,一款基于消费级EEG头带和平板电脑的移动NFT游戏。Eggly采用新颖的增强现实(AR)技术,提供参与感和个性化,增强训练体验。我们在一个特殊教育中心进行了两项实地研究(单次研究和为期三周的多轮研究),共有五名自闭症儿童参与,以评估Eggly的实际效果。定量和定性结果均表明该方法的有效性,并为创建移动AR NFT游戏的设计知识做出了贡献。  
链接: http://arxiv.org/abs/2503.04984v1  

标题: A Novel Framework for Modeling Quarantinable Disease Transmission  
作者: Wenchen Liu, Chang Liu, Dehui Wang, Yiyuan She  
摘要: COVID-19大流行对传统流行病学模型提出了重大挑战,原因包括延迟诊断、无症状传播、隔离引起的接触变化以及未报告的死亡率。为了应对这些复杂性,本文提出了一种新颖的CURNDS模型,优先考虑基于接触水平的隔室和传播,而不仅仅是基于症状严重程度或住院状态。该框架通过结合自适应幂律、动态传播速率和基于样条的平滑技术,超越了传统的均匀混合和静态速率假设。CURNDS模型从COVID-19数据中提供了未检测感染和未记录死亡率的准确估计,揭示了大流行的真实影响。我们的分析挑战了传统流行病学模型中感染者和非感染者之间均匀混合的假设。通过捕捉感染和确认的细微传播动态,我们的模型为不同COVID-19毒株的传播提供了新的见解。总体而言,CURNDS为理解高度传染性、可隔离疾病的复杂传播模式提供了一个稳健的框架。  
链接: http://arxiv.org/abs/2503.04951v1  

标题: Collaborative Evaluation of Deepfake Text with Deliberation-Enhancing Dialogue Systems  
作者: Jooyoung Lee, Xiaochen Zhu, Georgi Karadzhov, Tom Stafford, Andreas Vlachos, Dongwon Lee  
摘要: 生成模型的激增在区分真实人类撰写的内容与深度伪造内容方面提出了重大挑战。由AI工具增强的协作人类努力提供了一种有前景的解决方案。在本研究中,我们探讨了DeepFakeDeLiBot(一种增强审议的聊天机器人)在支持群体检测深度伪造文本方面的潜力。我们的研究结果表明,基于群体的问题解决显著提高了识别机器生成段落的准确性,相较于个体努力。虽然与DeepFakeDeLiBot的互动并未带来整体性能的显著提升,但它通过促进更高的参与者参与度、共识建立以及基于推理的发言频率和多样性,增强了群体动态。此外,感知群体协作效果较高的参与者从DeepFakeDeLiBot中获得了性能提升。这些发现强调了审议聊天机器人在促进互动和高效群体动态方面的潜力,同时确保协作深度伪造文本检测的准确性。\textit{本研究使用的数据集和源代码将在论文被接受后公开。  
链接: http://arxiv.org/abs/2503.04945v1  

标题: A Nonparametric Bayesian Model to Adjust for Monitoring Bias with an Application to Identifying Environments Stressed by Climate Change  
作者: Jonathan Auerbach, Theresa M. Crimmins, David Kepplinger, Ruishan Lin, E. M. Wolkovich  
摘要: 我们提出了一种新方法,用于调整当个体监测某个地点并报告事件状态时产生的偏差。例如,监测者可能每周访问一株植物并报告其是否开花。目标是估计该地点事件发生的时间。问题在于,流行的估计方法通常会因事件可能与监测者的到达时间不一致以及监测者可能错误报告状态而产生偏差。为了纠正这种偏差,我们提出了一种非参数贝叶斯模型,使用单调样条来估计事件时间。我们首先使用模拟数据展示了该问题及我们提出的解决方案。然后,我们将该方法应用于物候学中的一个真实案例,其中美国东北部的公民科学家监测丁香的开花时间,开花时间用于研究人为变暖。我们的分析表明,常见方法未能考虑监测偏差,并平均低估了丁香的开花高峰日期48天。此外,在调整监测偏差后,几个地点的开花日期异常晚,而这些异常在调整前并未显现。我们的发现强调了在事件时间估计中考虑监测偏差的重要性。通过应用我们的非参数贝叶斯模型和单调样条,我们提供了一种更准确的开花日期估计方法,揭示了以前未检测到的异常,并提高了公民科学数据在环境监测中的可靠性。  
链接: http://arxiv.org/abs/2503.04924v1  

标题: Iris Style Transfer: Enhancing Iris Recognition with Style Features and Privacy Preservation through Neural Style Transfer  
作者: Mengdi Wang, Efe Bozkir, Enkelejda Kasneci  
摘要: 虹膜纹理被广泛认为是用于身份验证和识别的黄金标准生物特征模态。对鲁棒虹膜识别方法的需求,加上对虹膜攻击的安全和隐私问题的日益关注,近年来不断上升。受神经风格迁移的启发,这是一种利用神经网络分离内容和风格特征的先进技术,我们假设虹膜纹理的风格特征为识别提供了可靠的基础,并且比传统方法更能适应旋转和视角变化等变化。我们的实验结果支持了这一假设,显示分类准确性显著高于传统特征。此外,我们提出使用神经风格迁移来掩盖可识别的虹膜风格特征,确保敏感生物特征信息的保护,同时保持眼图像在眼部分割和视线估计等任务中的实用性。这项工作为面向虹膜的安全和隐私感知生物特征系统开辟了新的途径。  
链接: http://arxiv.org/abs/2503.04707v1  

标题: Assessing Student Adoption of Generative Artificial Intelligence across Engineering Education from 2023 to 2024  
作者: Jesan Ahammed Ovi, Gabe Fierro, C. Estelle Smith  
摘要: 生成式人工智能(GenAI)工具和模型有潜力重塑所有工程教育领域的教育需求、规范、实践和政策。实证数据,而非轶事和假设,对于理解工程学生在学术培训期间与GenAI相关的行为和需求至关重要。这些数据还将帮助学术机构和工业雇主制定有效的GenAI应对策略。我们在美国科罗拉多矿业学院(一所小型工程类R-1大学)收集了2023年5月($n_1=601$)和2024年9月($n_2=862$)的两个代表性调查样本,以解决与(RQ1)GenAI如何被工程学生采用,包括促成GenAI使用的动机和人口因素,(RQ2)学生对GenAI的伦理担忧,以及(RQ3)学生感知的GenAI对自身、科学和社会的利弊相关的研究问题。分析显示,从2023年到2024年,GenAI采用率显著上升。学生主要利用GenAI工具来加深理解、提高工作质量并了解新兴技术。尽管大多数学生认为自己对GenAI的使用是合乎伦理且有益的,但他们仍然对GenAI及其对社会的影响表达了重大担忧。我们收集了学生对“P(doom)”的估计,并发现了双峰分布。因此,我们表明,尽管学生越来越愿意探索GenAI,但他们对GenAI未来对工程劳动力和社会的影响存在两极分化。我们讨论了这些发现对未来研究以及将GenAI整合到工程教育中的意义。  
链接: http://arxiv.org/abs/2503.04696v1  

标题: Rapid updating of multivariate resource models based on new information using EnKF-MDA and multi-Gaussian transformation  
作者: Sultan Abulkhair, Peter A. Dowd, Chaoshui Xu  
摘要: 基于新信息快速更新资源模型对于在资源管理和采矿作业中做出及时决策至关重要。这需要模型和观测的最优融合,可以通过数据同化实现,而集合卡尔曼滤波(EnKF)已成为这一任务的流行方法。然而,采矿中的建模资源通常由多个具有复杂多元关系的变量组成。EnKF不是一种多元方法,即使对于单变量情况,其输出与观测之间也可能存在轻微偏差。本研究提出了一种使用EnKF与多重数据同化(EnKF-MDA)结合基于旋转的迭代高斯化(RBIG)快速更新多元资源模型的方法。EnKF-MDA通过使用膨胀的测量误差多次同化相同数据来改进更新,而RBIG快速将数据转换为多元高斯因子。通过一个具有九个互相关变量的真实案例研究验证了所提出算法的应用。EnKF-MDA和RBIG的结合成功提高了资源模型更新的准确性,最小化了不确定性,并保留了多元关系。  
链接: http://arxiv.org/abs/2503.04694v1  

标题: The Influence of Prior Discourse on Conversational Agent-Driven Decision-Making  
作者: Stephen Pilli, Vivek Nallur  
摘要: 通过对话进行说服一直是许多研究的焦点。助推是一种在物理和数字环境中影响决策的流行策略。然而,采用“助推”策略的对话代理尚未受到显著关注。我们探讨了认知偏差的表现——助推的潜在心理机制——并研究了先前对话任务的复杂性如何影响由对话代理促成的决策。我们的研究采用了组间实验设计,涉及756名参与者,他们被随机分配到简单或复杂任务,然后遇到决策场景。我们改编了Samuelson关于现状偏差(默认助推的潜在机制)的经典实验中的三个场景。我们的结果与之前的研究在两个简单任务场景中一致。增加任务复杂性一致地将效应量推向我们的假设,尽管仅在一种情况下偏差显著。这些发现为对话助推策略提供了信息,并突出了与行为经济学相关的固有偏差。  
链接: http://arxiv.org/abs/2503.04692v1  

标题: 3HANDS Dataset: Learning from Humans for Generating Naturalistic Handovers with Supernumerary Robotic Limbs  
作者: Artin Saberpour Abadian, Yi-Chi Liao, Ata Otaran, Rishabh Dabral, Marie Muehlhaus, Christian Theobalt, Martin Schmitz, Jürgen Steimle  
摘要: 超数机器人肢体(SRLs)是与用户身体紧密集成的机器人结构,增强了人类的身体能力,并需要无缝、自然的人机交互。为了在物理任务中提供有效辅助,使SRLs能够向人类传递物体至关重要。然而,为机器人设计基于启发式的策略耗时、难以泛化到不同任务,并且生成的运动不够自然。当使用适当的数据集进行训练时,生成模型是创建自然传递运动的有力替代方案。我们引入了3HANDS,一个新颖的物体传递交互数据集,其中一名参与者执行日常活动,另一名参与者以自然方式扮演安装在臀部的SRL。3HANDS捕捉了SRL交互的独特特征:在亲密的个人空间中操作,具有不对称的物体起源,隐式的运动同步,以及用户在传递过程中参与主要任务。为了展示我们数据集的有效性,我们提出了三个模型:一个生成自然传递轨迹,另一个确定适当的传递端点,第三个预测启动传递的时刻。在一项用户研究(N=10)中,我们将使用我们方法进行的传递交互与基线进行了比较。结果表明,我们的方法被认为显著更自然、体力消耗更少且更舒适。  
链接: http://arxiv.org/abs/2503.04635v1  

标题: Granular mortality modeling with temperature and epidemic shocks: a three-state regime-switching approach  
作者: Jens Robben, Karim Barigou, Torsten Kleinow  
摘要: 本文开发了一种细粒度的状态切换框架,用于建模由温度和流行病冲击驱动的死亡率与季节性基线趋势的偏差。该框架包含三个状态:(1)捕捉观察到的季节性死亡率模式的基线状态,(2)用于热浪的环境冲击状态,以及(3)用于由流感和COVID-19引起的强呼吸道疾病爆发导致的死亡率偏差的呼吸道冲击状态。状态之间的转移概率通过协变量依赖的多项式逻辑函数建模。这些函数包含滞后的温度和流感发病率等预测因子,允许动态调整以应对不断演变的冲击。基于法国21个地区和六个年龄组的每周死亡率数据校准,该状态切换框架考虑了空间和人口异质性。在各种温度和流感预测情景下,我们通过广泛的引导方法构建预测区间,量化了死亡率预测的不确定性。这些预测可以指导医疗服务提供者和医院管理风险并规划未来潜在冲击的资源。  
链接: http://arxiv.org/abs/2503.04568v2  

标题: Method for recovering data on unreported low-severity crashes  
作者: Alberto Morando  
摘要: 目标:许多低严重性碰撞由于抽样标准未被报告,引入了非随机缺失(MNAR)偏差。如果不加以解决,MNAR偏差可能导致不准确的安全分析。本文展示了一种统计方法来解决此类偏差。方法:我们将观测数据的自定义概率分布定义为指数总体分布和逻辑报告函数的乘积。我们使用了现代贝叶斯概率编程技术。结果:使用模拟数据,我们验证了程序的正确性。将其应用于真实碰撞数据,我们估计了涉及个人仅损坏(PDO)追尾碰撞的乘用车的{\Delta}v分布。我们发现约77%的案例未被报告。结论:该方法保留了原始数据,并很好地考虑了来自建模假设和输入数据的不确定性。它可以改进安全评估,并广泛适用于其他MNAR案例。  
链接: http://arxiv.org/abs/2503.04529v2  

标题: Research on a Driver's Perceived Risk Prediction Model Considering Traffic Scene Interaction  
作者: Chenhao Yang, Siwei Huang, Chuan Hu  
摘要: 在条件自动驾驶技术领域,驾驶员感知风险预测在降低交通风险和确保乘客安全方面起着至关重要的作用。本研究引入了一种创新的感知风险预测模型,用于智能驾驶系统中的人机交互。该模型旨在提高预测准确性,从而确保乘客安全。通过对风险影响机制的综合分析,我们识别了影响感知风险的三个关键类别因素,包括主观和客观因素:驾驶员的个人特征、自车运动特征和周围环境特征。我们随后提出了一种基于深度学习的风险预测网络,该网络使用前两类因素作为输入,捕捉动态驾驶场景中交通参与者之间的交互关系。此外,我们设计了一种个性化建模策略,结合驾驶员特定特征以提高预测准确性。为了确保高质量的训练数据,我们进行了严格的视频评分实验。实验结果表明,所提出的网络在性能上比最先进的方法提高了10.0%。这些发现表明,所提出的网络在提高条件自动驾驶系统的安全性方面具有显著潜力。  
链接: http://arxiv.org/abs/2503.04516v1  

标题: A Spatiotemporal, Quasi-experimental Causal Inference Approach to Characterize the Effects of Global Plastic Waste Export and Burning on Air Quality Using Remotely Sensed Data  
作者: Ellen M. Considine, Rachel C. Nethery  
摘要: 塑料废物的露天焚烧可能通过恶化空气质量对全球健康构成重大威胁,但关于这一问题的定量研究——对政策制定至关重要——之前因缺乏数据而受阻。关键的是,许多露天焚烧问题最为严重的低收入和中等收入国家几乎没有空气质量监测。在此,我们提出了一种方法,结合现代因果推断和环境数据科学,利用遥感数据产品结合时空因果分析技术,评估大规模塑料废物政策对空气质量的影响。在整个过程中,我们以印度尼西亚为例,研究2018年之前和之后的情况,当时中国停止进口塑料废物,导致这一庞大的废物流转移到包括印度尼西亚在内的东亚和太平洋地区其他国家。我们为此场景定制了前沿统计方法,估计了塑料废物进口增加对印度尼西亚废物倾倒点附近细颗粒物的影响,并允许影响随地点与港口(国际塑料废物进入国家的地方)的距离而变化,作为诱导的连续暴露或“剂量”处理。我们观察到,与中国禁令生效后(2018-2019年)相比,在照常情况下(2012-2017年),倾倒点附近的月均细颗粒物浓度显著增加,增幅范围在0.76--1.72$\mu$g/m$^3$(世界卫生组织年度暴露推荐限值的15--34%),具体取决于地点的港口接近程度,在港口接近程度高于20分位数的地点。港口接近程度较低的地点影响较小且不显著。  
链接: http://arxiv.org/abs/2503.04491v1  

标题: Exit the Code: A Model for Understanding Career Abandonment Intention Among Software Developers  
作者: Tiago Massoni, Ricardo Duarte, Ruan Oliveira  
摘要: 背景:职业放弃是指专业人员离开当前活动,转而在其他领域任职的过程。在软件开发人员中,这一过程涉及对失去投资以及情感和财务成本的挫败感,尽管在某些个人背景下,这可能对人类有益。先前的研究已经确定了与工作相关的职业放弃动机,例如技术过时的威胁、不稳定的需求以及低代码质量,尽管这些因素主要在已离职的开发者中进行了研究。这些动机与当前活跃开发者放弃职业的意图之间的关系仍未得到探索。目标。本文探讨了关键工作相关动机与当前活跃软件开发人员放弃职业意图之间的关系。方法。我们采用了定量方法,调查了221名软件开发人员,以验证基于投资模型(Investment Model)调整的职业放弃意图理论模型,该模型结合了对职业技术方面的满意度以及放弃意图。发现。通过结构方程模型(SEM)进行的探索性和验证性因子分析为调整后的投资模型在解释软件开发人员放弃职业意图方面提供了强有力的支持。此外,职业承诺显著影响离开职业的意图,其受到与工作相关的技术因素满意度的正向影响,并受到职业替代选择和职业投资的负向影响。结论。本文为组织领导者及研究提供了宝贵的见解,可能指导保留策略以更好地支持开发者,并采用理论模型来解释职业放弃现象。
链接: http://arxiv.org/abs/2503.04460v1

标题: SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity  
作者: Yijie Xu, Bolun Zheng, Wei Zhu, Hangjia Pan, Yuchen Yao, Ning Xu, Anan Liu, Quan Zhang, Chenggang Yan  
摘要: 社交媒体流行度预测任务旨在预测社交媒体平台上帖子的流行度,这对内容优化、数字营销和在线广告等应用场景具有积极的推动作用。尽管许多研究取得了显著进展,但很少有人关注流行度预测与时间对齐的整合。本文通过探索YouTube的多语言和多模态内容,构建了一个新的社交媒体时间流行度预测基准,即SMTPD,并提出了一个时间流行度预测的基线框架。通过数据分析和实验,我们验证了时间对齐和早期流行度在社交媒体流行度预测中的关键作用,不仅加深了对社交媒体流行度时间动态的理解,还为开发更有效的预测模型提供了建议。代码可在https://github.com/zhuwei321/SMTPD获取。  
链接: http://arxiv.org/abs/2503.04446v1  

标题: Training-Free Graph Filtering via Multimodal Feature Refinement for Extremely Fast Multimodal Recommendation  
作者: Yu-Seung Roh, Joo-Young Kim, Jin-Duk Park, Won-Yong Shin  
摘要: 多模态推荐系统通过利用文本、图像和视频等多种内容类型,提高了无项目特征的标准推荐系统的性能,同时缓解了用户-项目交互的固有稀疏性并加速了用户参与。然而,当前基于神经网络的模型通常由于需要从多模态中学习和整合信息的复杂训练过程而产生显著的计算开销。为了克服这一限制,我们提出了MultiModal-Graph Filtering(MM-GF),一种基于图过滤(GF)概念的无训练方法,用于高效且准确的多模态推荐。具体而言,MM-GF首先通过非平凡的多模态特征精炼(如鲁棒缩放和向量平移)构建多个相似图,以解决跨模态的异质特征。然后,MM-GF使用线性低通滤波器在不同模态之间最优地融合多模态信息。在真实世界基准数据集上的广泛实验表明,MM-GF不仅将推荐准确性提高了13.35%,而且通过实现少于10秒的运行时间,显著降低了计算成本。  
链接: http://arxiv.org/abs/2503.04406v1  

标题: Non-parametric kernel density estimation of magnitude distribution for the analysis of seismic hazard posed by anthropogenic seismicity  
作者: Francis Tong, Stanisław Lasocki, Beata Orlecka-Sikora  
摘要: 人为地震的观测震级分布频繁显著偏离Gutenberg-Richter关系,这需要替代的估计方法来进行概率地震危险性评估。我们评估了五种非参数核密度估计(KDE)方法,在从四种震级分布模型(指数分布、凹凸双指数分布和指数-高斯分布)中抽取的模拟样本上的表现。后三种模型代表了由于地震地壳的有限厚度和特征地震的影响而导致的偏离Gutenberg-Richter关系的情况。假设的偏离指数性的程度不超过实践中遇到的情况。研究的KDE方法包括Silverman和Scott规则与Abramson带宽适应、两种基于扩散的方法(ISJ和diffKDE)以及adaptiveKDE,后者将带宽估计表述为优化问题。我们评估了它们在2到6级震级范围内,样本量为400到5000时的性能,使用均方积分误差(MISE)进行了100,000次模拟。它们的适用性通过样本量为1000时的平均返回周期(MRP)来说明。在测试的方法中,diffKDE为较大震级的累积分布函数估计提供了最准确的结果。即使数据来自指数分布,当样本量至少为1000时,diffKDE的表现与最大似然估计相当。鉴于人为地震经常偏离指数模型,我们建议在样本量足够时使用diffKDE进行概率地震危险性评估。  
链接: http://arxiv.org/abs/2503.04393v1  

标题: A Protocol to Exposure Path Analysis for Multiple Stressors Associated with Cardiovascular Disease Risk: A Novel Approach Using NHANES Data  
作者: Jiangling Liu, Ya Liu, Banyun Zheng, Longjian Liu, Heqing Shen  
摘要: 背景:多种医学和非医学应激源及其暴露途径的复杂性对非传染性疾病(包括心血管疾病,CVD)的流行病学解释提出了重大挑战。目的:开发一种协议,用于解构将各种应激源与不良结果关联的复杂暴露途径,并深入阐明导致CVD风险的顺序决定因素。方法:在本研究中,我们开发了一种基于自适应Lasso回归的Path-Lasso方法,通过使用美国国家健康与营养调查(NHANES)数据构建网络和路径,深入解释CVD的决定因素。首先使用单变量逻辑回归筛选出所有潜在的CVD影响因素。然后,使用Path-Lasso技术对协变量进行分层,并建立因果网络以预测CVD风险。结果:年龄、吸烟和腰围被确定为CVD风险的最显著预测因素。其他因素,如种族、婚姻状况、体力活动、镉暴露和糖尿病,作为中介或近端变量。所有这些应激源(或节点)形成了与CVD关联的网络,其中与结果因果关联的潜在层变量由每层中的应激源线性形成。讨论:Path-Lasso方法揭示了将协变量与CVD风险关联的流行病学途径,这有助于阐明协变量预测结果的相互转换,并为CVD风险评估及更广泛的研究提供了层次网络基础。  
链接: http://arxiv.org/abs/2503.04365v1  

标题: Learning Causal Response Representations through Direct Effect Analysis  
作者: Homer Durand, Gherardo Varando, Gustau Camps-Valls  
摘要: 我们提出了一种学习因果响应表示的新方法。我们的方法旨在提取多维结果中由治疗变量最直接引起的方向。通过将条件独立性测试与因果表示学习相结合,我们构建了一个优化问题,最大化治疗与结果之间条件独立性的证据。该公式采用针对特定应用的灵活回归模型,创建了一个通用框架。该问题通过广义特征值分解来解决。我们表明,在温和假设下,最大特征值的分布可以被已知的$F$分布所限,从而实现可测试的条件独立性。我们还为学习到的表示在信噪比和Fisher信息最大化方面的最优性提供了理论保证。最后,我们在模拟和真实世界实验中展示了该方法的有效性。我们的结果强调了该框架在揭示复杂多变量设置中直接因果效应方面的实用性。  
链接: http://arxiv.org/abs/2503.04358v1

标题: Talking Back -- human input and explanations to interactive AI systems  
作者: Alan Dix, Tommaso Turchi, Ben Wilson, Anna Monreale, Matt Roach  
摘要: 虽然可解释人工智能(XAI)专注于向人类提供AI解释,但反过来——人类向AI解释他们的判断——能否促进更丰富、协同的人机系统?本文探讨了人类对AI的各种输入形式,并研究了人类解释如何指导机器学习模型,使其自动判断和解释更贴近人类概念。  
链接: http://arxiv.org/abs/2503.04343v1  

标题: InFL-UX: A Toolkit for Web-Based Interactive Federated Learning  
作者: Tim Maurer, Abdulrahman Mohamed Selim, Hasan Md Tusfiqur Alam, Matthias Eiletz, Michael Barz, Daniel Sonntag  
摘要: 本文介绍了InFL-UX,一个基于浏览器的交互式联邦学习(FL)概念验证工具包,旨在将用户贡献无缝集成到机器学习(ML)工作流程中。InFL-UX使多个设备的用户能够上传数据集、定义类别,并使用现代Web技术在浏览器中直接协作训练分类模型。与传统的专注于后端模拟的FL工具包不同,InFL-UX提供了一个简单的用户界面,供研究人员探索用户如何在现实世界的交互设置中与FL系统互动并做出贡献。通过优先考虑可用性和去中心化模型训练,InFL-UX弥合了FL与交互式机器学习(IML)之间的差距,使非技术用户能够积极参与ML分类任务。  
链接: http://arxiv.org/abs/2503.04318v1  

标题: Mapping bipartite networks into multidimensional hyperbolic spaces  
作者: Robert Jankowski, Roya Aliakbarisani, M. Ángeles Serrano, Marián Boguñá  
摘要: 二分网络出现在许多现实世界的情境中,连接两个不同集合的实体。它们通常通过单模投影进行分析,但这种投影可能会引入人为相关性和夸大的聚类,掩盖了真实的底层结构。本文提出了一种二分网络的几何模型,利用高水平的二分四环作为聚类度量,将两种节点类型放置在相同的相似性空间中,其中链接概率随距离减少。此外,我们引入了B-Mercator算法,从二分结构中推断节点位置。我们在多样化数据集上评估其性能,展示了所得嵌入如何改进下游任务,如节点分类和基于距离的链接预测。这些双曲嵌入还支持生成节点特征与真实世界相似的合成网络,从而在允许安全数据共享的同时保护敏感信息。此外,我们展示了保留二分结构如何避免基于投影技术的缺陷,产生更准确的描述和更好的性能。我们的方法为揭示复杂二分系统中的隐藏几何提供了一个稳健的框架。  
链接: http://arxiv.org/abs/2503.04316v1  

标题: Applying Smarta to the analysis of tourist networks  
作者: Miguel Lloret-Climent, Josué-Antonio Nescolarde-Selva, Kristian Alonso-Stenberg, Andrés Montoyo, Yoan Gutiérrez-Vázquez  
摘要: 本研究的框架是目的地生命周期模型,这是一个描述旅游目的地发展的经典模型。我们基于西班牙国家统计局提供的2016年1月至2018年10月期间的旅游住宿供需统计数据,分析了贝尼多姆的大众旅游。目标是分析贝尼多姆旅游系统的生命周期和竞争力,解释旅游产品是否可持续,以及贝尼多姆当前处于生命周期的哪个阶段。为此,我们使用了Smarta软件,该软件基于网络分析,能够解释系统的良性循环,并通过观察系统吸引子中的关系模式来分析因果关系,从而补充了基于因果图和社会网络研究的典型处理。通过该应用程序(由我们的研究团队开发)获得的结果显示了6组吸引子,这些吸引子标志着旅游系统的趋势。最后,对这些吸引子的重要变量的分析有助于证明贝尼多姆的旅游系统处于复兴阶段。  
链接: http://arxiv.org/abs/2503.04307v1  

标题: The Role of Robot Competence, Autonomy, and Personality on Trust Formation in Human-Robot Interaction  
作者: Filippo Cantucci, Marco Marini, Rino Falcone  
摘要: 人类对社交机器人的信任是一种基于认知和情感评估的复杂态度,也是一种行为,如任务委托。虽然之前的研究探讨了影响整体信任态度的机器人特征,但这些特征是否影响行为信任仍不清楚。此外,关于哪些机器人特征影响认知和情感态度,以及这些态度如何影响人类委托新任务给机器人的意愿,研究有限。本研究探讨了在任务导向的人机交互中,机器人能力、自主性和人格特征之间的相互作用及其对信任态度(认知和情感信任)和信任行为(任务委托)的影响。我们的研究结果表明,机器人能力是信任的关键决定因素,影响认知、情感和行为信任。相比之下,机器人人格特征仅显著影响情感信任,而不影响认知信任或信任行为。此外,自主性被发现调节能力与认知信任之间以及人格与情感信任之间的关系。最后,认知信任对任务委托有正向影响,而情感信任未显示出显著影响。本文通过为设计能够有效与人类互动并增强其信任的机器人提供新证据,为人机信任文献做出了贡献。  
链接: http://arxiv.org/abs/2503.04296v1  

标题: No Silver Bullet: Towards Demonstrating Secure Software Development for Danish Small and Medium Enterprises in a Business-to-Business Model  
作者: Raha Asadi, Bodil Biering, Vincent van Dijk, Oksana Kulyk, Elda Paja  
摘要: 软件开发的中小企业(SMEs)作为大型企业和公共管理部门的供应商发挥着关键作用。因此,它们需要能够证明其产品符合某些安全标准,既是为了赢得客户的信任,也是为了遵守要求此类证明的标准。在本研究中,我们调查了SMEs在B2B模式下展示其安全性的方法,对丹麦不同SMEs的从业者进行了半结构化访谈(N=16),并在后续研讨会(N=6)中验证了我们的发现。我们的研究结果表明了五种不同的安全性展示方法,即:认证、报告、问卷、互动会议和社交证明。我们讨论了这些方法的挑战、益处和建议,得出结论认为没有一种方法是万能的,需要进一步研究这些方法及其组合的相对优势。  
链接: http://arxiv.org/abs/2503.04293v1  

标题: How Do Hackathons Foster Creativity? Towards AI Collaborative Evaluation of Creativity at Scale  
作者: Jeanette Falk, Yiyi Chen, Janet Rafner, Mike Zhang, Johannes Bjerva, Alexander Nolte  
摘要: 黑客马拉松已成为加速创意想法和原型开发的流行协作活动。多个案例研究展示了在行业、教育和研究等领域的创造性成果。然而,目前还没有大规模的黑客马拉松创造力研究,这可以推动关于黑客马拉松形式如何导致创造性成果的理论发展。我们对193,353个黑客马拉松项目进行了计算分析。通过将创造力操作化为有用性和新颖性,我们筛选了10,363个项目,分析了参与者特征、协作模式和黑客马拉松设置如何影响创造性项目的发展。本文的贡献有两方面:我们为组织者提供了促进黑客马拉松创造力的方法。我们还探索了使用大语言模型(LLMs)来增强创造性成果的评估,并讨论了这样做的挑战和机遇,这对创造力研究具有广泛意义。  
链接: http://arxiv.org/abs/2503.04290v1  

标题: An Egocentric Vision-Language Model based Portable Real-time Smart Assistant  
作者: Yifei Huang, Jilan Xu, Baoqi Pei, Yuping He, Guo Chen, Mingfang Zhang, Lijin Yang, Zheng Nie, Jinyao Liu, Guoshun Fan, Dechen Lin, Fang Fang, Kunpeng Li, Chang Yuan, Xinyuan Chen, Yaohui Wang, Yali Wang, Yu Qiao, Limin Wang  
摘要: 我们推出了Vinci,一个基于视觉语言系统的便携式实时智能助手,旨在提供全面的AI辅助。其核心是EgoVideo-VL,一种将自我中心视觉基础模型与大语言模型(LLM)集成的新模型,支持场景理解、时间定位、视频摘要和未来规划等高级功能。为了增强其实用性,Vinci集成了一个用于实时处理长视频流并保留上下文历史的内存模块、一个生成视觉动作演示的生成模块,以及一个连接自我中心与第三人称视角的检索模块,以提供相关的技能获取视频。与依赖专用硬件的现有系统不同,Vinci是硬件无关的,支持在智能手机和可穿戴相机等多种设备上部署。在我们的实验中,我们首先展示了EgoVideo-VL在多个公共基准测试中的卓越性能,展示了其视觉语言推理和上下文理解能力。然后,我们进行了一系列用户研究,评估了Vinci在现实世界中的有效性,突出了其在多样化场景中的适应性和可用性。我们希望Vinci能够为便携式实时自我中心AI系统建立一个新的框架,为用户提供上下文和可操作的洞察。包括前端、后端和模型在内的所有Vinci代码均可在https://github.com/OpenGVLab/vinci获取。  
链接: http://arxiv.org/abs/2503.04250v1  

标题: Just Roll with It: Exploring the Mitigating Effects of Postural Alignment on Vection-Induced Cybersickness in Virtual Reality Over Time  
作者: Charlotte Croucher, Panagiotis Kourtesis, Georgios Papaioannou  
摘要: 虚拟现实(VR)中的晕动症仍然是一个重大挑战,限制了其在各种应用中的可用性。现有的缓解策略主要集中在优化VR硬件和/或软件以及增强自我运动感知以减少感官冲突。然而,基于文献的舒适导向姿势调整策略在VR中尚未得到系统研究。因此,在本研究中,我们探讨了采用舒适导向的姿势调整是否能缓解晕动症。我们使用累积链接混合模型(CLMM)对来自VR姿势调整实验的二次数据进行了探索性分析。结果表明,躯干滚动与虚拟轨迹之间的错位使报告更高晕动症评分的几率增加了5%。此外,每增加一分钟的VR时间,报告更高晕动症评分(FMS评分)的几率增加了11%,但长时间暴露使报告晕动症症状的几率减少了75%,表明存在适应效应。个体差异也起到了一定作用,更高的晕动症易感性使报告更高症状严重程度的几率增加了8%。这些发现表明,预期姿势调整可以作为晕动症的自然缓解策略。VR应用,特别是在训练和模拟中,可以通过设计鼓励用户调整姿势以适应虚拟运动的提示而受益。未来的研究应探索实时姿势反馈机制,以增强用户舒适度并减少晕动症。  
链接: http://arxiv.org/abs/2503.04217v1  

标题: Personalized Emotion Detection from Floor Vibrations Induced by Footsteps  
作者: Yuyan Wu, Yiwen Dong, Sumer Vaid, Gabriella M. Harari, Hae Young Noh  
摘要: 情感识别对于心理健康障碍的早期检测和基于情感的智能家居系统等应用至关重要。先前的研究使用了多种传感方法进行情感识别,如可穿戴传感器、摄像头和麦克风。然而,这些方法在长期家庭使用中存在局限性,包括侵入性和隐私问题。为了克服这些局限性,本文介绍了一种非侵入性和隐私友好的个性化情感识别系统EmotionVibe,它利用脚步引起的地板振动进行情感识别。EmotionVibe的核心思想是,个体的情绪状态会影响其步态模式,进而影响脚步引起的地板振动。然而,存在两个主要研究挑战:1)人类情绪与脚步引起的地板振动之间的复杂间接关系;2)情绪与步态模式之间关系的个体间差异较大。为了应对这些挑战,我们首先通过实验描述了这种复杂关系,并从脚步引起的地板振动中开发了一组情绪敏感特征,包括步态相关和振动相关特征。此外,我们通过计算目标人物(即我们旨在识别其情绪的人)与训练数据集中的人之间的步态相似性,并为具有相似步态模式的训练人物分配更大的权重,对情感识别系统进行了个性化处理。我们在20名参与者的真实步行实验中评估了该系统,共收集了37,001个脚步样本。EmotionVibe在效价和唤醒度评分估计中的平均绝对误差(MAE)分别为1.11和1.07,与基线方法相比,误差分别减少了19.0%和25.7%。  
链接: http://arxiv.org/abs/2503.04190v1  

标题: Spectral Extremal Connectivity of Two-State Seizure Brain Waves  
作者: Mara Sherlin D. Talento, Jordan Richards, Marco Pinto-Orellana, Raphael Huser, Hernando C. Ombao  
摘要: 相干性分析在功能脑连接研究中起着至关重要的作用。然而,相干性仅捕捉线性频谱关联,因此在忽略分布尾部连接性变化时可能会产生误导性发现。这一局限性在研究以大幅信号为特征的极端神经事件时变得尤为重要。本文的重点是研究分布尾部的连接性,因为这揭示了可能被标准方法忽略的重要信息。我们开发了一种新的谱尾关联概念,用于研究癫痫倾向新生儿脑电图(EEG)信号网络中的连接性。我们进一步开发了一种新的非平稳极值依赖模型,用于多元时间序列,捕捉不同脑阶段(即爆发抑制和非爆发抑制)的极值依赖差异。我们提出的方法的一个优势是能够在关键频段识别尾部连接性,这可能与导致癫痫的能量爆发有关。我们讨论了这些新的科学发现,并比较了癫痫和非癫痫患者脑信号的极值行为。  
链接: http://arxiv.org/abs/2503.04169v1  

标题: Unseen Fake News Detection Through Casual Debiasing  
作者: Shuzhi Gong, Richard Sinnott, Jianzhong Qi, Cecile Paris  
摘要: 社交媒体上假新闻的广泛传播带来了重大风险,需要及时准确的检测。然而,现有方法由于依赖过去事件和领域的训练数据,难以应对新出现的假新闻,使得检测新型假新闻的挑战在很大程度上仍未解决。为了解决这一问题,我们识别了训练数据中与特定领域相关的偏差,并提出了一种去偏解决方案FNDCD。FNDCD源于因果分析,采用基于分类置信度和传播结构正则化的重新加权策略,以减少领域特定偏差的影响,增强对未见假新闻的检测。在具有非重叠新闻领域的真实数据集上的实验证明了FNDCD在提高跨领域泛化能力方面的有效性。  
链接: http://arxiv.org/abs/2503.04160v1  

标题: Fiducial Confidence Intervals for Agreement Measures Among Raters Under a Generalized Linear Mixed Effects Model  
作者: Soumya Sahu, Thomas Mathew, Dulal K. Bhaumik  
摘要: 在三级设计中,我们考虑了经典一致性相关系数(CCC)的推广,其中多个评分者在不同时间点对每个受试者进行评分,每个评分者在每个测量时间点对每个受试者进行多次评分。评分可以是离散的或连续的。我们开发了一种基于模型适当线性化的CCC区间估计方法,并结合了基准推断方法。与基于Fisher Z变换的区间相比,所得置信区间即使在中等样本量下也具有满意的覆盖概率和更短的预期宽度。我们讨论了文献中可用的两个实际应用。第一个应用基于一项临床试验,旨在确定各种治疗方法是否比安慰剂更有效治疗与骨关节炎相关的膝痛。CCC用于评估两名评分者对普通X光片的手动关节间隙宽度测量与数字化X光片的计算机生成测量之间的一致性。第二个例子是关于皮质脊髓束成像的,CCC再次用于评估一名训练有素的技术员和一名神经放射科医生对左右皮质脊髓束纤维数量测量的一致性。我们的通用方法在其他相关领域(包括人工智能)的应用也得到了强调。  
链接: http://arxiv.org/abs/2503.04117v1  

标题: Organize, Then Vote: Exploring Cognitive Load in Quadratic Survey Interfaces  
作者: Ti-Chung Cheng, Yutong Zhang, Yi-Hung Chou, Vinay Koshy, Tiffany Wenting Li, Karrie Karahalios, Hari Sundaram  
摘要: 二次调查(QSs)比传统方法(如Likert量表调查)更能准确获取偏好。然而,QSs的认知负荷阻碍了其在数字调查中的采用,用于集体决策。我们引入了一个两阶段的“组织-投票”QS,以减少认知负荷。由于界面设计显著影响调查结果和准确性,我们的设计在管理QS施加的认知负荷的同时,为调查参与者的决策提供了支持。在一项关于公共资源分配的2x2实验室间受试者研究中,我们将我们的界面与传统的文本界面在6个(短)和24个(长)选项的QS中进行了比较。两阶段界面参与者在每个选项上花费了更多时间,并表现出更短的投票编辑距离。我们定性地观察到认知努力从机械操作转向构建更全面的偏好。我们得出结论,该界面促进了更深入的参与,可能减少了在较长QS中因认知过载导致的满意行为。这项研究阐明了以人为本的设计如何改进集体决策的偏好获取工具。  
链接: http://arxiv.org/abs/2503.04114v1  

标题: InterChat: Enhancing Generative Visual Analytics using Multimodal Interactions  
作者: Juntong Chen, Jiang Wu, Jiajing Guo, Vikram Mohanty, Xueming Li, Jorge Piazentin Ono, Wenbin He, Liu Ren, Dongyu Liu  
摘要: 大语言模型(LLMs)和生成式视觉分析系统的兴起已经改变了数据驱动的洞察力,但在准确解释用户的分析和交互意图方面仍然存在重大挑战。虽然语言输入提供了灵活性,但它们通常缺乏精确性,使得复杂意图的表达效率低下、容易出错且耗时。为了解决这些局限性,我们通过文献综述和头脑风暴会议探讨了多模态交互在生成式视觉分析中的设计空间。基于这些见解,我们引入了一个高度可扩展的工作流程,该流程集成了多个LLM代理用于意图推断和可视化生成。我们开发了InterChat,一个生成式视觉分析系统,结合了视觉元素的直接操作和自然语言输入。这种集成支持精确的意图传达,并支持逐步的、视觉驱动的探索性数据分析。通过有效的提示工程和上下文交互链接,以及直观的可视化和交互设计,InterChat弥合了用户交互与LLM驱动可视化之间的差距,增强了可解释性和可用性。广泛的评估,包括两个使用场景、一项用户研究和专家反馈,证明了InterChat的有效性。结果表明,在处理复杂视觉分析任务的准确性和效率方面有显著提高,突出了多模态交互在重新定义生成式视觉分析中的用户参与和分析深度的潜力。  
链接: http://arxiv.org/abs/2503.04110v1  

标题: Compositional Structures as Substrates for Human-AI Co-creation Environment: A Design Approach and A Case Study  
作者: Yining Cao, Yiyi Huang, Anh Truong, Hijung Valentina Shin, Haijun Xia  
摘要: 人们越来越认识到,有效的人机共创需要的不仅仅是提示和结果,而是一个赋予探索、规划、迭代以及AI生成控制和检查能力的赋能环境。然而,尚未建立这种环境的具体设计方法。我们的文献分析强调,组合结构——将单个元素组织成有意义整体的结构——在赋予创作者对其内容关键方面的控制方面非常有效。然而,有效地聚合和连接这些结构以支持完整的创作过程仍然具有挑战性。因此,我们提出了一种设计方法,利用组合结构作为基础,并在这些结构内部和跨结构注入AI,以实现受控和流畅的创作过程。我们通过使用该方法开发视频共创环境的案例研究评估了这一方法。用户评估表明,这种环境使用户能够在其创作活动中保持方向感,保持对AI生成的意识和控制,并支持灵活的人机协作工作流程。
链接: http://arxiv.org/abs/2503.04103v1

标题: Generative and Malleable User Interfaces with Generative and Evolving Task-Driven Data Model  
作者: Yining Cao, Peiling Jiang, Haijun Xia  
摘要: 与静态和僵化的用户界面不同,生成式和可塑性的用户界面具有响应多样化用户目标和任务的潜力。然而,当前的方法主要依赖于生成代码,这使得最终用户难以根据其不断变化的需求迭代调整生成的界面。我们提出使用任务驱动的数据模型——表示信息任务中的基本信息实体、关系和数据——作为UI生成的基础。我们利用AI解释用户的提示并生成描述用户预期任务的数据模型,并通过将数据模型与UI规范映射,生成用户界面。最终用户可以通过自然语言和直接操作轻松修改和扩展界面,这些交互将被转化为底层模型的更改。我们对该方法的技术评估和开发系统的用户评估证明了所提出的生成式和可塑性UI的可行性和有效性。  
链接: http://arxiv.org/abs/2503.04084v1  

标题: Analyzing the Impact of Augmented Reality Head-Mounted Displays on Workers' Safety and Situational Awareness in Hazardous Industrial Settings  
作者: Graciela Camacho-Fidalgo, Blain Judkins, Kylee Friederichs, Lara Soberanis, Vicente Hernandez, Kevin McSweeney, Freddie Witherden, Edgar Rojas-Muñoz  
摘要: 增强现实头戴式显示器(AR-HMDs)已被证明在辅助工人方面有效。然而,它们可能会降低工人的安全性和情境意识(SSA),尤其是在复杂和危险的工业环境中。本文客观和主观地分析了AR-HMDs对工人在模拟危险工业环境中SSA的影响。我们的评估包括60名参与者在模拟货船舱室中执行各种任务,同时通过三种设备之一接收远程指导:两款现成的AR-HMDs(Trimble XR10 with HoloLens 2, RealWear Navigator 520)和智能手机(Google Pixel 6)。整个房间安装了多个传感器,以获取参与者安全执行任务的定量测量,例如他们撞到房间物体的频率或踩过模拟孔洞或油污的频率。结果显示,与Navigator 520和Pixel 6相比,Trimble XR10导致了统计上最高的头部和膝盖撞击事件。此外,Trimble XR10还导致了显著更高的通过舱门的困难、较低的安全感、舒适度、感知性能和可用性。总体而言,佩戴AR-HMDs的参与者未能感知更多的危险,这意味着在将AR-HMDs引入工业危险环境之前,必须开发安全保护功能。  
链接: http://arxiv.org/abs/2503.04075v1  

标题: A Robust and Distribution-Fitting-Free Estimation Approach of Travel Time Percentile Function based on L-moments  
作者: Ruiya Chen, Xiangdong Xu, Jianqiang Li  
摘要: 旅行时间是智能交通系统监测的关键指标之一,帮助系统获得实时交通状况洞察、预测拥堵并识别网络瓶颈。旅行时间具有可变性,因此需要合适的概率分布来准确捕捉旅行时间可变性的完整信息。考虑到实际观测中样本量不足和异常值干扰的潜在问题,以及旅行时间分布的异质性,我们提出了一种基于L-矩的稳健且无需分布拟合的旅行时间百分位数函数估计方法。我们基于理论概率分布和真实数据从有效性、稳健性和稳定性角度检验了所提出的方法。结果表明,所提出的方法在处理异常值方面表现出高估计有效性、准确性和低波动性,即使在样本量较小的情况下也是如此。  
链接: http://arxiv.org/abs/2503.04062v1  

标题: An Approximate-Master-Equation Formulation of the Watts Threshold Model on Hypergraphs  
作者: Leah A. Keating, Kwang-Il Goh, Mason A. Porter  
摘要: 在传统的行为或意见动态模型中,研究人员假设所有互动都发生在成对个体之间。然而,在现实中,社交互动也发生在三个或更多个体的群体中。将这种多边互动纳入研究的一种常见方法是研究超图上的动态过程。在超图中,互动可以发生在网络中的任意数量的个体之间。Watts阈值模型(WTM)是一个众所周知的简单社会传播过程模型。最近,Chen等人将WTM从二元网络(即图)扩展到多元网络(即超图)。在本文中,我们使用近似主方程(AMEs)将他们的离散时间模型扩展到连续时间。通过使用AMEs,我们能够以极高的精度建模系统。然后,我们将高维AME系统简化为三个耦合微分方程的系统,而没有任何可检测的精度损失。这个低维系统在数值求解时计算效率更高,也更容易解释。我们线性化简化后的AME系统并计算级联条件,使我们能够确定何时发生大规模传播事件。然后,我们将我们的模型应用于法国一所小学的社交接触网络和计算机科学合著超图。我们发现,AME系统在建模这些实证网络上的多元WTM时是准确的;然而,我们期望未来的工作将附近节点和群体之间的结构相关性纳入动态模型,从而为现实世界网络提供更准确的理论。  
链接: http://arxiv.org/abs/2503.04020v1  

标题: Data-Driven Probabilistic Air-Sea Flux Parameterization  
作者: Jiarong Wu, Pavel Perezhogin, David John Gagne, Brandon Reichl, Aneesh C. Subramanian, Elizabeth Thompson, Laure Zanna  
摘要: 准确量化海气通量对于理解海气相互作用和改进耦合天气和气候系统非常重要。本研究引入了一个概率框架来表示海气通量的高度可变性,这是确定性批量算法所缺失的。假设高斯分布以输入变量为条件,我们使用人工神经网络和涡动协方差测量数据通过最小化负对数似然损失来估计均值和方差。训练后的神经网络提供了对现有批量算法的替代平均通量估计,并量化了围绕平均估计的不确定性。通过从预测分布中采样,可以构建海气湍流通量的随机参数化。在单柱强迫上层海洋模型中的测试表明,通量算法的变化会影响海表温度和混合层深度的季节性变化。随机运行的集合分布在春季重新分层期间最为显著。  
链接: http://arxiv.org/abs/2503.03990v1  

标题: ReasonGraph: Visualisation of Reasoning Paths  
作者: Zongqian Li, Ehsan Shareghi, Nigel Collier  
摘要: 大语言模型(LLMs)的推理过程由于其复杂性以及缺乏组织化的可视化工具而难以分析。我们推出了ReasonGraph,一个基于Web的平台,用于可视化和分析LLM的推理过程。它支持顺序和基于树的推理方法,同时与主要的LLM提供商和五十多个最先进的模型集成。ReasonGraph结合了直观的用户界面,具有元推理方法选择、可配置的可视化参数和模块化框架,便于高效扩展。我们的评估显示了高解析可靠性、高效处理和跨各种下游应用的强可用性。通过提供统一的可视化框架,ReasonGraph减少了分析复杂推理路径的认知负荷,改进了逻辑过程中的错误检测,并使得基于LLM的应用开发更加有效。该平台是开源的,促进了LLM推理分析的可访问性和可重复性。  
链接: http://arxiv.org/abs/2503.03979v1  

标题: Enhancing Collective Intelligence in Large Language Models Through Emotional Integration  
作者: Likith Kadiyala, Ramteja Sajja, Yusuf Sermet, Ibrahim Demir  
摘要: 本研究探讨了将情感多样性集成到大语言模型(LLMs)中以增强集体智能。受人类群体智慧现象的启发,群体决策往往优于个体判断,我们使用Google的GoEmotions数据集和低秩适应(LoRA)对DarkIdol-Llama-3.1-8B模型进行了微调,以模拟情感多样化的响应。我们评估了该模型在北达科他州法戈和华盛顿州西雅图之间的距离估计任务中的表现,分析了情感状态和社会属性如何影响决策。我们的研究结果表明,情感集成塑造了响应模式,同时保持了可接受的预测准确性,揭示了其增强人工集体智能的潜力。这项研究为LLMs中情感多样性与决策之间的相互作用提供了有价值的见解,为创建情感感知的AI系统提供了途径,这些系统在情感深度与分析精度之间取得平衡。  
链接: http://arxiv.org/abs/2503.04849v1

标题: Preliminary Report: Enhancing Role Differentiation in Conversational HCI Through Chromostereopsis
作者: Matteo Grella
摘要: 我们提出利用色立体视觉(chromostereopsis),一种通过颜色对比诱导深度感知的感知现象,作为一种新颖的方法,用于在基于文本的AI界面中视觉区分对话角色。该方法旨在隐式传达角色层次结构,并增加一种微妙的物理空间感。
链接: http://arxiv.org/abs/2503.03968v1

标题: Model Behavior Specification by Leveraging LLM Self-Playing and Self-Improving
作者: Soya Park, J. D. Zamfirescu-Pereira, Chinmay Kulkarni
摘要: 训练AI模型具有挑战性,尤其是在制定行为指令时。传统方法依赖于机器(监督学习)或手动模式发现,这导致模型不可解释或耗时。虽然大语言模型(LLMs)通过自然语言简化了指令编写,但表达预期的模型行为仍然困难。我们引入了Visionary Tuning,一种人机交互的自我对弈和自动自我改进方法,以改进行为规范。我们的系统通过自我对弈帮助用户明确期望行为,并通过自我改进生成提示。我们的首次评估涉及在聊天机器人行为背景下对Visionary Tuning系统实现的用户研究。我们的系统通过模拟用户交互来自我对弈,以识别模式并基于模式创建有效提示。在一项受试者内研究(N=12)中,参与者通过自我对弈识别了更多模式,并制定了更好的提示。令人惊讶的是,用户在指定模型行为时的成功感有所不同。后续的众包研究(N=60)证实,聊天机器人在不牺牲质量的情况下遵守了指令。我们的第二次评估是对使用Visionary Tuning的电影评分数据集的真实案例研究,展示了其在建模批评者对低分到高分电影偏好方面的有效性和稳健性。这些结果表明,AI如何改进交互式AI系统的设计过程。此外,它们还表明这些工具的好处对最终用户可能并不明显。我们反思这些发现并提出了未来的研究方向。
链接: http://arxiv.org/abs/2503.03967v1

标题: GeoDEN: A Visual Exploration Tool for Analysing the Geographic Spread of Dengue Serotypes
作者: Aidan Marler, Yannik Roell, Steffen Knoblauch, Jane P. Messina, Thomas Jaenisch, Morteza Karimzadeh
摘要: 静态地图和动画在登革热空间流行病学中仍然很流行,但这限制了可视化的分析深度和范围。全球超过一半的人口生活在登革热流行地区。理解四种密切相关的登革热血清型的时空动态及其免疫相互作用在全球范围内仍然是一个挑战。为了促进这种理解,我们在用户中心设计框架下与登革热流行病学家合作,创建了GeoDEN,一个探索性可视化工具,使专家能够调查登革热血清型报告的时空模式。该工具具有多个链接的可视化和过滤机制,支持在多个空间和时间尺度上进行分析。为了识别成功和失败,我们提出了基于洞察力和价值驱动的评估。我们的领域专家发现GeoDEN很有价值,验证了现有假设并揭示了值得流行病学界进一步研究的新见解。所开发的可视化探索方法可以适应其他流行病学和疾病事件数据集。
链接: http://arxiv.org/abs/2503.03953v1

标题: Escalation dynamics and the severity of wars
作者: Aaron Clauset, Barbara F. Walter, Lars-Erik Cederman, Kristian Skrede Gleditsch
摘要: 尽管大规模战争仍然是全球政治中的持久威胁,但我们对于某些战争为何变得大规模和代价高昂,而大多数战争却没有,缺乏清晰的理解。有三种可能性:大规模冲突开始并保持激烈的战斗,它们持续很长时间,或者它们随着时间的推移逐渐升级。使用1946年至2008年详细的内战和国与国战争数据,我们展示了升级动态——武装冲突中战斗强度的变化——在产生大规模冲突中起着根本作用,并且是内战和国与国战争的共同特征。然而,内战在变得非常大规模时往往会降级,限制了其总体严重性,而国与国战争则表现出持续升级的风险。非参数模型表明,这种升级动态的区别可以解释历史上内战与国与国战争规模的差异,并解释理查森定律,该定律管理了过去200年国与国冲突的频率和严重性。升级动态还导致了对假设和正在进行的国内战最终规模的预测的巨大不确定性,表明需要更好地理解冲突中升级和降级的原因。武装冲突的规模与其升级潜力之间的密切关系对冲突发生或终止的理论以及国际关系中的风险评估具有广泛影响。
链接: http://arxiv.org/abs/2503.03945v1

标题: "Impressively Scary:" Exploring User Perceptions and Reactions to Unraveling Machine Learning Models in Social Media Applications
作者: Jack West, Bengisu Cagiltay, Shirley Zhang, Jingjie Li, Kassem Fawaz, Suman Banerjee
摘要: 在社交媒体应用中本地部署的机器学习模型用于诸如实时读取面部的面部滤镜等功能,并将敏感属性暴露给应用。然而,机器学习模型的部署(例如,何时、何地以及如何使用)对用户来说是不透明的。我们旨在解决这种不一致性,并调查社交媒体用户一旦暴露于这些模型,其感知和行为如何变化。我们进行了用户研究(N=21),发现参与者对Instagram和TikTok这两个主要社交媒体平台中模型的输出内容以及模型的使用时间均不了解。在暴露于模型功能后,我们观察到8名参与者出现了长期行为变化。我们的分析揭示了在提供与本地用户数据交互的机器学习模型透明度方面的挑战和机遇。
链接: http://arxiv.org/abs/2503.03927v1

标题: De-skilling, Cognitive Offloading, and Misplaced Responsibilities: Potential Ironies of AI-Assisted Design
作者: Prakash Shukla, Phuong Bui, Sean S Levy, Max Kowalski, Ali Baigelenov, Paul Parsons
摘要: 生成式AI(GenAI)在设计中的迅速采用引发了关于其好处和意外后果的讨论。虽然AI通常被框定为通过自动化常规任务来提高生产力的工具,但历史上关于自动化的研究警告了诸如技能退化和责任错位等矛盾效应。为了评估用户体验(UX)从业者对AI的看法,我们分析了来自UX主题子论坛的120多篇文章和讨论。我们的研究结果表明,尽管从业者对AI减少重复性工作和增强创造力表示乐观,但他们也表达了对过度依赖、认知卸载和关键设计技能侵蚀的担忧。借鉴人机自动化交互文献,我们讨论了这些观点如何与众所周知的自动化矛盾功能和分配挑战相一致。我们认为,UX专业人员应批判性地评估AI在即时生产力增益之外的作用,并考虑其对创意自主性和专业知识的长期影响。本研究为从业者的观点提供了实证见解,并将其与设计自动化中的更广泛辩论联系起来。
链接: http://arxiv.org/abs/2503.03924v1

标题: Joint modeling of longitudinal HRQoL data accounting for the risk of competing dropouts
作者: Hortense Doms, Philippe Lambert, Catherine Legrand
摘要: 在癌症临床试验中,健康相关生活质量(HRQoL)是一个重要的终点,提供了患者福祉和日常功能的信息。然而,由于提前退出导致的缺失数据可能导致偏差估计,尤其是当退出是信息性的时候。本文介绍了extJMIRT方法,一种高效分析多个纵向有序分类数据并解决信息性退出的新工具。在联合建模框架内,该方法将来自HRQoL数据的潜在变量与退出的特定原因风险联系起来。与将纵向数据视为生存子模型中协变量的传统联合模型不同,我们的方法优先考虑纵向数据,并将对数基线退出风险作为潜在过程中的协变量。这导致了对纵向数据的更准确分析,考虑了退出风险的潜在影响。通过广泛的模拟研究,我们证明了extJMIRT提供了稳健且无偏的参数估计,并强调了考虑信息性退出的重要性。我们还将该方法应用于进行性胶质母细胞瘤患者的HRQoL数据,展示了其实际效用。
链接: http://arxiv.org/abs/2503.03919v1

标题: A Bayesian hierarchical framework for fusion of remote sensing data: An example with solar-induced fluorescence
作者: Manju Johny, Jonathan Hobbs, Vineet Yadav, Margaret Johnson, Nicholas Parazoo, Hai Nguyen, Amy Braverman
摘要: 太阳诱导的叶绿素荧光(SIF)已成为植被生产力和植物健康的有效指标。全球SIF及其相关不确定性的量化为许多重要能力提供了支持,包括改进碳通量估计、改进碳源和碳汇的识别、监测多种生态系统以及评估碳封存工作。随着多个地球观测卫星的SIF估计数据的可用性,长期、区域到全球尺度的监测现在成为可能。这些努力可以通过对卫星SIF数据产品中不确定性来源的严格解释得到帮助。在本文中,我们引入了一种贝叶斯分层模型(BHM),用于从轨道碳观测站-2(OCO-2)卫星观测中估计SIF及其相关不确定性,分辨率为1度,覆盖全球。我们建模框架的层次结构允许方便地指定模型、量化各种变异来源,并通过回归模型中的傅里叶项纳入季节性SIF信息。该建模框架利用了大多数温带陆地地区SIF的可预测季节性。所得数据产品补充了相同时空分辨率的大气二氧化碳估计。
链接: http://arxiv.org/abs/2503.03901v1

标题: Are Cognitive Biases as Important as they Seem for Data Visualization?
作者: Ali Baigelenov, Prakash Shukla, Zixu Zhang, Paul Parsons
摘要: 近年来,认知偏差和启发式的研究在可视化文献中变得越来越流行。研究人员研究了偏差对可视化解释和后续决策的影响。虽然这项工作很重要,但我们认为,关于偏差的观点以一种不平衡的方式呈现了人类的认知能力,过分强调了人类决策的缺陷和局限性,并可能暗示不应信任人类决策。几位决策研究人员认为,偏差的另一面——即心理捷径或启发式——展示了人类的智慧,并作为适应性专业知识的核心标志。在本文中,我们回顾了可视化社区对偏差的观点和情感,并描述了主张更平衡看待偏差和启发式的文献。我们希望本文能鼓励可视化研究人员考虑人类认知局限性的更全面图景,以及在复杂环境中做出决策的策略。
链接: http://arxiv.org/abs/2503.03852v1

标题: Finite-sample valid prediction of future insurance claims in the regression problem
作者: Liang Hong
摘要: 在当前的保险文献中,回归问题中的保险索赔预测通常通过统计模型进行。这种基于模型的方法可能受到几个缺点的困扰:(i)模型误设,(ii)选择效应,以及(iii)缺乏有限样本有效性。本文通过采用保形预测(conformal prediction)——一种用于有效预测的通用机器学习策略——同时解决了这三个问题。所提出的方法既无模型也无调参,并且保证了在预先指定的覆盖概率水平下的有限样本有效性。
链接: http://arxiv.org/abs/2503.03659v1

标题: Optimal Policy Design for Repeated Decision-Making under Social Influence
作者: Chiara Ravazzi, Valentina Breschi, Paolo Frasca, Fabrizio Dabbene, Mara Tanelli
摘要: 在本文中,我们提出了一个新颖的模型来表征重复决策场景中的个体倾向,旨在设计基于模型的控制策略,以在社会和外部影响下促进良性选择。我们的方法建立在经典的Friedkin和Johnsen社会影响模型的基础上,扩展了包括随机因素(例如,个体需求的固有可变性)和可控的外部输入。我们明确考虑了塑造意见动态的两个过程之间的时间分离:个体决策和社会模仿。个体决策以规律、频繁的间隔发生,而社会模仿的影响则在一段较长的时间内展开。随机因素的纳入自然导致了不收敛于经典意义的动态。然而,在特定条件下,我们证明了意见表现出遍历行为。基于这一结果,我们提出了一个约束的渐近最优控制问题,旨在在网络中平均促进目标行为的社会接受度。为了解决意见的瞬态动态,我们在模型预测控制(MPC)框架内重新表述了这一问题。模拟结果强调了在引导个体做出良性选择的同时管理政策成本时,考虑这些瞬态效应的重要性。
链接: http://arxiv.org/abs/2503.03657v1

标题: Facilitating Asynchronous Idea Generation and Selection with Chatbots
作者: Joongi Shin, Ankit Khatri, Michael A. Hedderich, Andrés Lucero, Antti Oulasvirta
摘要: 人们可以通过相互构建想法来生成高质量的想法。通过允许个人在自己舒适的时间和方法(即异步创意)中贡献他们的想法,他们可以深入参与创意并提高想法质量。然而,运行异步创意面临一个实际约束。虽然需要训练有素的人类引导者来指导有效的想法交流,但他们无法持续可用以与在不同时间加入的个体互动。在本文中,我们探讨了如何设计聊天机器人以促进异步创意。为此,我们采用了文献中关于人类引导者的指南,并设计了两个聊天机器人:一个提供结构化的创意过程,另一个根据个体的创意表现调整创意过程。我们邀请了48名参与者通过与我们的一个聊天机器人互动来生成和选择想法,并邀请了一位专家引导者审查我们的聊天机器人。我们发现,两个聊天机器人都能引导用户相互构建想法,并将其收敛为几个令人满意的想法。然而,我们也发现了聊天机器人在与协作者的社会互动方面的局限性,这只有人类引导者才能提供。因此,我们得出结论,聊天机器人可以成为异步创意的有前途的引导者,但需要与人类引导者进行混合引导以解决协作创意的社会方面。
链接: http://arxiv.org/abs/2503.03617v1

标题: Decoupled Recommender Systems: Exploring Alternative Recommender Ecosystem Designs
作者: Anas Buhayh, Elizabeth McKinnie, Robin Burke
摘要: 推荐系统生态系统是一个新兴的研究主题。此类研究探讨了算法、推荐消费者和项目提供者的特征如何影响系统动态和长期结果。一个尚未在这一研究领域中广泛探索的架构可能性是推荐算法与其服务的平台解耦的配置。这有时被称为“友好邻居算法商店”或“中间件”模型。我们特别感兴趣的是这种架构如何提供跨消费者、提供者和推荐平台的不同效用分布。在本文中,我们创建了一个包含算法选择的推荐生态系统模型,并研究了这种设计的结果。
链接: http://arxiv.org/abs/2503.03606v2

标题: "You don't need a university degree to comprehend data protection this way": LLM-Powered Interactive Privacy Policy Assessment
作者: Vincent Freiberger, Arthur Fleig, Erik Buchmann
摘要: 保护在线隐私需要用户参与并理解网站的隐私政策,但许多政策难以阅读且乏味。我们提出了首个关于大语言模型(LLM)驱动的隐私政策评估的定性用户研究。为此,我们构建并评估了一个基于LLM的隐私政策评估浏览器扩展,该扩展帮助用户在浏览时理解冗长复杂的隐私政策的要点。该工具集成了仪表板和LLM聊天功能。在我们的定性用户研究(N=22)中,我们评估了可用性、工具提供信息的可理解性及其对意识的影响。虽然提供易于理解的快速概览和用于深入讨论的聊天功能提高了隐私意识,但用户指出了在建立对工具的信任方面的问题。根据我们的洞察,我们得出了重要的设计启示,以指导未来的政策分析工具。
链接: http://arxiv.org/abs/2503.03587v1

标题: Towards an Emotion-Aware Metaverse: A Human-Centric Shipboard Fire Drill Simulator
作者: Musaab H. Hamed-Ahmed, Diego Ramil-López, Paula Fraga-Lamas, Tiago M. Fernández-Caramés
摘要: 传统的XR和元宇宙应用优先考虑用户体验(UX)以促进采用和成功,但往往忽略了用户互动的一个关键方面:情感。本文通过提出一个情感感知的元宇宙应用来解决这一差距:一个虚拟现实(VR)消防演习模拟器,旨在为船员准备船舶紧急情况。该模拟器实时检测情感,评估受训者在压力下的反应,以提高学习效果。其架构通过Meta Quest Pro头显集成了眼动追踪和面部表情分析。该系统具有四个难度逐渐增加的级别,以评估用户的决策能力和情感韧性。该系统在两个实验阶段进行了评估。第一阶段识别了挑战,例如导航问题和缺乏视觉引导。这些洞察促使了第二个改进版本,具有更好的用户界面、视觉提示和实时任务跟踪器。分析了完成时间、任务效率和情感反应等性能指标。获得的结果表明,具有VR或游戏经验的受训者在场景中导航更高效。此外,任务跟踪视觉和导航指导的添加显著提高了用户表现,将任务完成时间减少了14.18%至32.72%。捕捉了情感反应,揭示了某些参与者参与其中,而另一些则表现得漠不关心,表明需要更具沉浸感的元素。总体而言,本文为创建下一代情感感知元宇宙应用提供了有用的指导。
链接: http://arxiv.org/abs/2503.03570v1

标题: Causal language jumps in clinical practice guidelines for diabetes management
作者: Keling Wang, Chang Wei, Jeremy A. Labrecque
摘要: 临床实践指南旨在指导临床实践,并涉及因果语言。有时,指南会做出或要求比其依赖的参考文献更强的因果声明,这种现象我们称之为“因果语言跳跃”。我们评估了糖尿病指南中表达的因果强度及其参考的证据,以评估跳跃的模式。我们从四个糖尿病指南中随机抽取了300条指南声明。我们使用现有量表对声明中的因果强度和支持这些声明的建议中的因果依赖进行了评分。在因果声明中,引用的原始研究同样进行了评估。我们还评估了它们报告目标试验模拟(TTE)组件的程度,作为可靠性的代理。在抽样的声明中,114条(38.0%)是因果的,其中76条(66.7%)表达了强因果。27.2%(31/114)的因果指南声明展示了“因果语言跳跃”,34.9%(29/83)的指南建议无法有效支持。在53项符合TTE评分条件的研究中,大多数未详细报告治疗分配和因果对比。我们的研究结果表明,因果语言跳跃在糖尿病指南中很常见。虽然这些跳跃有时不可避免,但它们应始终得到良好的因果推断实践的支持。
链接: http://arxiv.org/abs/2503.03557v1

标题: A Criterion for Extending Continuous-Mixture Identifiability Results
作者: Michael R. Powers, Jiaxin Xu
摘要: 对于连续混合的随机变量,我们提供了一个简单的标准——生成函数可访问性——以将先前已知的基于核的可识别性(或不可识别性)结果扩展到新的核分布。该标准基于相关核的矩生成函数或拉普拉斯变换之间的函数关系,可应用于离散和连续随机变量的连续混合。为了说明所提出的方法,我们展示了几种特定核的结果。
链接: http://arxiv.org/abs/2503.03536v1

标题: AI-Enabled Conversational Journaling for Advancing Parkinson's Disease Symptom Tracking  
作者: Mashrur Rashik, Shilpa Sweth, Nishtha Agrawal, Saiyyam Kochar, Kara M Smith, Fateme Rajabiyazdi, Vidya Setlur, Narges Mahyar, Ali Sarvghad  
摘要: 日志记录在管理慢性病中起着至关重要的作用,它允许患者记录症状和药物摄入情况,为长期护理提供重要数据。尽管有价值,传统的日志记录方法通常依赖于静态、自我指导的条目,缺乏互动反馈和实时指导。这种差距可能导致信息不完整或不精确,限制了其在有效治疗中的实用性。为了解决这一问题,我们引入了PATRIKA,一个专为帕金森病患者(PwPD)设计的AI支持的原型系统。该系统结合了协作对话原则、临床访谈模拟和个性化功能,以创建更有效和用户友好的日志记录体验。通过对PwPD的两项用户研究和PATRIKA的迭代改进,我们展示了对话式日志记录在患者参与和收集临床有价值信息方面的显著潜力。我们的结果表明,生成探测问题的PATRIKA将日志记录转变为双向互动。此外,我们为医疗保健日志记录系统的设计提供了见解,并为促进持续日志记录的未来方向提供了建议。  
链接: http://arxiv.org/abs/2503.03532v1  

标题: Higher Stakes, Healthier Trust? An Application-Grounded Approach to Assessing Healthy Trust in High-Stakes Human-AI Collaboration  
作者: David S. Johnson  
摘要: 人机协作在提高高风险决策方面越来越受到推崇,但其益处尚未完全实现。应用驱动的评估可以更好地评估改进协作的方法,但通常需要领域专家,这使得研究成本高昂且限制了其普适性。当前的评估方法受限于有限的公共数据集和对代理任务的依赖。为了解决这些挑战,我们提出了一个应用驱动的框架,用于大规模在线评估基于视觉的决策任务。该框架引入了Blockies,一种生成模拟诊断任务数据集的参数化方法,提供了对训练现实世界模型数据中特征和偏差的控制。这些任务设计为易于学习但难以掌握,使非专家也能参与。该框架还结合了故事叙述和货币激励,以操纵感知任务的风险。一项初步实证研究表明,高风险条件显著减少了健康的AI不信任,尽管决策时间更长。这些发现强调了感知风险在促进健康不信任中的重要性,并展示了该框架在可扩展评估高风险人机协作方面的潜力。  
链接: http://arxiv.org/abs/2503.03529v1  

标题: Topo Goes Political: TDA-Based Controversy Detection in Imbalanced Reddit Political Data  
作者: Arvindh Arun, Karuna K Chandra, Akshit Sinha, Balakumar Velayutham, Jashn Arora, Manish Jain, Ponnurangam Kumaraguru  
摘要: 在互联网政治讨论中检测争议内容对于维护健康的数字话语至关重要。与许多依赖合成平衡数据的现有文献不同,我们的工作保留了争议和非争议帖子的自然分布。这种现实世界的不平衡突出了实际部署中需要解决的核心挑战。我们的研究重新评估了检测争议内容的成熟方法。我们整理了自己的数据集,重点关注印度政治背景,并保留了争议内容的自然分布,其中只有12.9%的帖子是争议性的。这种不平衡反映了现实世界政治讨论中的真实情况,并突出了现有评估方法的关键局限性。在建模数据不平衡的数据集上进行基准测试对于确保现实世界的适用性至关重要。因此,在这项工作中,(i)我们发布了我们的数据集,强调类别不平衡,并聚焦于印度政治背景,(ii)我们评估了该领域中现有方法在该数据集上的表现,并展示了它们在不平衡设置中的局限性,(iii)我们引入了一个直观的指标来衡量模型对类别不平衡的鲁棒性,(iv)我们还结合了拓扑数据分析(TDA)领域的思想,特别是持久同调,以提取提供更丰富数据表示的特征。此外,我们使用拓扑特征训练的模型与现有基线进行了基准测试。  
链接: http://arxiv.org/abs/2503.03500v1  

标题: Open-Source Large Language Models as Multilingual Crowdworkers: Synthesizing Open-Domain Dialogues in Several Languages With No Examples in Targets and No Machine Translation  
作者: Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefèvre  
摘要: 开放领域对话代理的主导范式主要集中在英语上,涵盖了模型和数据集。此外,为微调此类数据集而进行的众包所需的财务和时间投入是巨大的,尤其是在涉及多种语言时。幸运的是,大语言模型(LLMs)的进步为各种任务带来了许多可能性。具体来说,指令微调使LLMs能够基于自然语言指令执行任务,有时甚至超越了人类众包工作者的表现。此外,这些模型能够在单一线程中处理多种语言。因此,为了生成不同语言的新样本,我们建议利用这些能力来复制数据收集过程。我们引入了一种使用LLMs生成多种目标语言开放领域对话数据的管道,并在一种独特的源语言中提供了演示。通过避免显式的机器翻译,我们增强了对语言特定细微差别的遵循。我们将此方法应用于PersonaChat数据集。为了增强生成对话的开放性并模拟现实生活场景,我们添加了与对话类型对应的言语事件概念以及代表对话前提的共同点概念。  
链接: http://arxiv.org/abs/2503.03462v1  

标题: Privacy is All You Need: Revolutionizing Wearable Health Data with Advanced PETs  
作者: Karthik Barma, Seshu Babu Barma  
摘要: 在数据成为新货币的世界中,可穿戴健康设备提供了对日常生活的前所未有的洞察,持续监测生命体征和指标。然而,这种便利性引发了隐私问题,因为这些设备收集的敏感数据可能被滥用或泄露。传统措施由于实时数据处理需求和设备功率有限而常常失效。用户也缺乏对数据共享和使用的意识和控制。我们提出了一个隐私增强技术(PET)框架,用于可穿戴设备,结合了联邦学习、轻量级加密方法和选择性部署的区块链技术。区块链作为安全账本,仅在数据传输请求时触发,为用户提供实时通知和控制。通过打破数据垄断,这种方法将数据主权归还给个人。通过安全医疗数据共享、隐私保护健身追踪和持续健康监测等实际应用,我们的框架在保留数据实用性和性能的同时,将隐私风险降低了高达70%。这一创新为可穿戴隐私设立了新标准,并可扩展到更广泛的物联网生态系统,包括智能家居和工业。随着数据继续塑造我们的数字景观,我们的研究强调了在技术进步中保持隐私和用户控制的关键需求。  
链接: http://arxiv.org/abs/2503.03428v1  

标题: Exploring Visual Prompts: Refining Images with Scribbles and Annotations in Generative AI Image Tools  
作者: Hyerim Park, Malin Eiband, Andre Luckow, Michael Sedlmair  
摘要: 生成式AI(GenAI)工具越来越多地集成到设计工作流程中。虽然文本提示仍然是GenAI图像工具的主要输入方法,但设计师通常难以制定有效的提示。此外,研究主要集中在创意输入方法上,而对细化任务的关注有限。本研究通过一项初步的数字化纸基研究,探索了设计师对三种输入方法——文本提示、注释和涂鸦——的偏好。设计师更喜欢注释用于空间调整和引用图像中的元素,而涂鸦则用于指定形状、大小和位置等属性,通常与其他方法结合使用。文本提示在提供详细描述或设计师寻求更大GenAI创造力时表现出色。然而,设计师对AI误解注释和涂鸦以及创建有效文本提示所需的工作量表示担忧。这些见解为GenAI界面设计提供了信息,以更好地支持细化任务,与工作流程保持一致,并增强与AI系统的沟通。  
链接: http://arxiv.org/abs/2503.03398v2

标题: "Till I can get my satisfaction": Open Questions in the Public Desire to Punish AI  
作者: Eddie L. Ungless, Zachary Horne, Björn Ross  
摘要: 人工智能(AI)可能造成伤害的例子数不胜数,越来越多的证据表明,公众愿意将责任归咎于AI本身,无论这看起来多么“不合逻辑”。这引发了一个问题:公众是否以及如何期望AI因这些伤害而受到惩罚。然而,公众对AI惩罚的期望尚未得到充分探讨。理解这些期望至关重要,因为除非公众对惩罚的渴望得到满足,否则他们可能会感受到伤害的持续影响。我们综合了心理学、人机交互与机器人交互、哲学与AI伦理以及法律领域的研究,强调我们对这一问题的理解仍然不足。我们呼吁开展一项跨学科研究计划,以确定如何最好地满足AI伤害的受害者,以免在AI的法律惩罚(或不惩罚)未能满足公众期望时产生“满意度差距”。  
链接: http://arxiv.org/abs/2503.03383v1  

标题: From Coverage to Prestige: A Comprehensive Assessment of Large-Scale Scientometric Data  
作者: Guoyang Rong, Ying Chen, Thorsten Koch, Keisuke Honda  
摘要: 随着科学计量学研究的深入,数据质量对研究结果的影响日益受到关注。本研究基于Web of Science(WoS)和Crossref数据集,通过匹配、比较和整合,系统评估了数据源之间的差异以及数据合并的效果。采用了两个核心指标:参考文献覆盖率(RCR)和文章科学声望(ASP),分别衡量引用的完整性(数量)和学术影响力(质量)。结果表明,WoS数据集在高影响力文献的覆盖率和ASP得分上优于Crossref,而Crossref数据集则通过更广泛的文献覆盖提供了补充价值。数据合并显著提高了引用网络的完整性,在教育、艺术等较小学科集群中效果尤为明显。然而,数据合并也引入了一些低质量引用,导致整体数据质量的两极分化。此外,数据合并的影响因学科而异;科学、生物学和医学等高影响力集群受益最大,而社会科学和艺术等集群更容易受到负面影响。本研究强调了数据源在科学计量研究中的关键作用,并为评估和提高数据质量提供了一个框架。  
链接: http://arxiv.org/abs/2503.03251v1  

标题: GenColor: Generative Color-Concept Association in Visual Design  
作者: Yihan Hou, Xingchen Zeng, Yusong Wang, Manling Yang, Xiaojiao Chen, Wei Zeng  
摘要: 现有的颜色-概念关联方法通常依赖于基于查询的图像引用和从图像引用中提取颜色。然而,这些方法仅对常见概念有效,并且容易受到不稳定的图像引用和不同图像条件的影响。我们与设计师的初步研究强调了设计中主色-强调色组合和上下文相关颜色(例如“晴朗”与“污染”的天空)的需求。为此,我们引入了一种生成式方法,利用文本到图像模型生成的图像挖掘语义共鸣的颜色。我们的见解是,当代文本到图像模型可以模仿大规模真实世界数据中的视觉模式。该框架包括三个阶段:概念实例化使用扩散模型生成样本,文本引导的图像分割识别图像中与概念相关的区域,颜色关联提取主要颜色和伴随的强调色。与专家设计的定量比较验证了我们方法的有效性,并通过各种设计场景中的案例和画廊展示了其适用性。  
链接: http://arxiv.org/abs/2503.03236v1  

标题: SpiritSight Agent: Advanced GUI Agent with One Look  
作者: Zhiyuan Huang, Ziming Cheng, Junting Pan, Zhaohui Hou, Mingjie Zhan  
摘要: 图形用户界面(GUI)代理在辅助人机交互和自动化用户在数字设备上的导航方面展示了惊人的能力。理想的GUI代理应实现高精度、低延迟和跨不同GUI平台的兼容性。最近的基于视觉的方法通过利用先进的视觉语言模型(VLMs)展示了潜力。虽然它们通常满足兼容性和低延迟的要求,但这些基于视觉的GUI代理由于在元素定位方面的限制,往往精度较低。为了解决这一问题,我们提出了SpiritSight,一种基于视觉的端到端GUI代理,在跨各种GUI平台的导航任务中表现出色。首先,我们使用可扩展方法创建了一个多层次、大规模、高质量的GUI数据集GUI-Lasagne,赋予SpiritSight强大的GUI理解和定位能力。其次,我们引入了通用块解析(UBP)方法,以解决动态高分辨率视觉输入中的歧义问题,进一步增强SpiritSight对GUI对象的定位能力。通过这些努力,SpiritSight代理在多样化的GUI基准测试中优于其他先进方法,展示了其在GUI导航任务中的卓越能力和兼容性。模型可在[此链接](https://huggingface.co/SenseLLM/SpiritSight-Agent-8B)获取。  
链接: http://arxiv.org/abs/2503.03196v1  

标题: Sensing Movement: Contemporary Dance Workshops with People who are Blind or have Low Vision and Dance Teachers  
作者: Madhuka Thisuri De Silva, Jim Smiley, Sarah Goodwin, Leona M Holloway, Matthew Butler  
摘要: 舞蹈教师主要依靠口头指导和视觉演示来传达关键的舞蹈概念和动作。然而,这些技术在支持盲人或低视力(BLV)学生方面存在局限性。本工作探讨了技术在支持BLV学生教学以及与其教师即兴创作中的作用。通过与舞蹈教师和BLV学生的一系列设计研讨会,通过物理接触多种模态的探针(包括触觉对象、身体追踪的声音和音乐探针,以及具有振动反馈的身体追踪控制器)生成了设计理念。我们发现了支持四个当代舞蹈学习目标的技术设计意义:学习短语、即兴创作、通过动作协作以及身体和动作质量的意识。我们讨论了多种多感官方法和工件的潜力,并提出了支持有意义舞蹈教学和参与的技术设计考虑。  
链接: http://arxiv.org/abs/2503.03166v1  

标题: Dango: A Mixed-Initiative Data Wrangling System using Large Language Model  
作者: Wei-Hao Chen, Weixi Tong, Amanda Case, Tianyi Zhang  
摘要: 数据整理是数据科学流程中耗时且具有挑战性的任务。虽然已经提出了许多工具来自动化或简化数据整理,但它们常常误解用户意图,尤其是在复杂任务中。我们提出了Dango,一种混合主动的多代理数据整理系统。与现有工具相比,Dango通过允许用户在多个表格上演示并在对话界面中使用自然语言提示来增强用户意图的传达,使用户能够通过回答LLM提出的多项选择澄清问题来澄清其意图,并提供多种形式的反馈(如逐步的自然语言解释和数据溯源)以帮助用户评估数据整理脚本。我们进行了一项受试者内用户研究,涉及38名参与者,结果表明Dango的功能可以显著提高数据整理中的意图澄清、准确性和效率。此外,我们通过将其应用于更广泛的数据整理任务展示了Dango的通用性。  
链接: http://arxiv.org/abs/2503.03154v2  

标题: Making AI-Enhanced Videos: Analyzing Generative AI Use Cases in YouTube Content Creation  
作者: Torin Anderson, Shuo Niu  
摘要: 生成式AI(GenAI)工具通过简化脚本编写、视觉和音频生成以及编辑等任务,增强了社交媒体视频的创作。这些工具能够创建包括文本、图像、音频和视频在内的新内容,ChatGPT和MidJourney等平台在YouTube创作者中越来越受欢迎。尽管它们的采用率不断增长,但对其在视频制作过程中的具体用例的了解仍然有限。本研究分析了274个YouTube教程视频,探讨了GenAI在规划、制作、编辑和上传中的作用。研究结果表明,YouTubers使用GenAI来识别主题、生成脚本、创建提示并生成视觉和音频材料。此外,GenAI支持编辑任务,如提升视觉效果和重新格式化内容,同时建议标题和字幕。基于这些发现,我们讨论了未来将GenAI融入支持各种视频创作任务的方向。  
链接: http://arxiv.org/abs/2503.03134v1  

标题: A Multimodal Framework for Topic Propagation Classification in Social Networks  
作者: Yuchuan Jiang, Chaolong Jia, Yunyi Qin, Wei Cai, Yongsen Qian  
摘要: 互联网的快速发展和社交网络的广泛采用显著加速了信息传播。然而,这种转变增加了信息捕获和处理的复杂性,给研究人员和从业者带来了巨大挑战。因此,预测社交网络中与主题相关的信息传播已成为一个关键的研究焦点。本文提出了一种通过整合关键传播特征的多维特征来预测社交网络中主题传播的模型。具体而言,我们在PageRank算法中引入了两个新指标——用户关系广度和用户权威性,以更有效地量化用户影响力。此外,我们使用Text-CNN模型进行情感分类,从文本内容中提取情感特征。节点的时序嵌入使用Bi-LSTM模型编码,以捕捉时间动态。此外,我们改进了用户与主题交互痕迹的测量,用更精确的传播特征测量取代了传统的主题浏览量指标。最后,我们使用Transformer模型整合提取的多维特征,显著提升了预测性能。实验结果表明,我们提出的模型在FI-Score、AUC和Recall方面优于传统的机器学习和单模态深度学习模型,验证了其在预测社交网络中主题传播的有效性。  
链接: http://arxiv.org/abs/2503.03112v1  

标题: HEPHA: A Mixed-Initiative Image Labeling Tool for Specialized Domains  
作者: Shiyuan Zhou, Bingxuan Li, Xiyuan Chen, Zhi Tu, Yifeng Wang, Yiwen Xiang, Tianyi Zhang  
摘要: 图像标注是训练计算机视觉模型的重要任务。在医疗等专业领域,招募专家进行图像标注既昂贵又具有挑战性。我们提出了HEPHA,一种混合主动的图像标注工具,通过归纳逻辑学习来推断和优化标注规则,从而获取人类专业知识。每条规则包含描述图像的视觉谓词。HEPHA使用户能够通过视觉编程界面直接操作或标注更多图像来迭代优化规则。为了促进规则优化,HEPHA建议编辑哪条规则以及更新哪个谓词。对于不熟悉视觉编程的用户,HEPHA会向用户推荐多样且信息丰富的图像以进行进一步标注。我们进行了一项受试者内用户研究,涉及16名参与者,并将HEPHA与HEPHA的变体和基于深度学习的方法进行了比较。我们发现HEPHA在专业领域和通用领域的图像标注任务中均优于两种基线方法。我们的代码可在[此链接](https://github.com/Neural-Symbolic-Image-Labeling/NSILWeb)获取。  
链接: http://arxiv.org/abs/2503.03094v2  

标题: "Watch My Health, Not My Data": Understanding Perceptions, Barriers, Emotional Impact, & Coping Strategies Pertaining to IoT Privacy and Security in Health Monitoring for Older Adults  
作者: Suleiman Saka, Sanchari Das  
摘要: “物联网(IoT)”的普及为老年人提供了“健康监测”和独立生活的关键支持,但对安全和隐私的担忧依然存在。在本文中,我们通过两阶段用户研究(包括一项调查(N = 22)和半结构化访谈(n = 9))报告了这些问题。我们发现,虽然81.82%的参与者了解“双因素认证(2FA)”和加密等安全功能,但63.64%的参与者对敏感健康数据的未经授权访问表示严重担忧。只有13.64%的参与者对现有保护措施有信心,他们表示对“数据共享政策”感到困惑,并对“复杂的安全设置”感到沮丧,这导致了不信任和焦虑。为了应对,我们的参与者采取了各种策略,如依赖家庭或专业支持以及限制功能使用,从而导致脱离。因此,我们建议在IoT健康系统中采用“自适应安全机制”、简化界面和实时透明通知,以促进信任并确保“隐私和安全设计”为老年人服务。  
链接: http://arxiv.org/abs/2503.03087v1  

标题: The Real Her? Exploring Whether Young Adults Accept Human-AI Love  
作者: Shuning Zhang, Shixuan Li  
摘要: 本文探讨了年轻人对人类与AI爱情的接受程度,特别关注与AI伴侣建立浪漫或亲密关系的中国女性。通过定性研究,包括14次半结构化访谈,该研究调查了这些个体如何建立和维持与AI的关系,他们对这些实体的看法和态度,以及其他利益相关者的观点。主要发现表明,用户与AI伴侣互动是为了获得情感安慰、缓解压力并避免社会压力。我们识别了用户赋予AI伴侣的各种角色,如朋友、导师或浪漫伴侣,并强调了定制化和情感支持在这些互动中的重要性。虽然AI伴侣提供了情感稳定性和持续可用性等优势,但它们在情感深度和理解方面也存在局限性。该研究强调了在AI关系中需要伦理考量和监管框架,以解决隐私问题并防止过度沉浸。未来的工作应探索随着技术进步,人类与AI关系的长期心理影响和动态演变。  
链接: http://arxiv.org/abs/2503.03067v1

 

版权所有©北京大学文科智数化公共平台