第一期(20250208-20250310)
标题: Enhancing User Performance and Human Factors through Visual Guidance in AR Assembly Tasks
作者: Leon Pietschmann, Michel Schimpf, Zhu-Tian Chen, Hanspeter Pfister, Thomas Bohné
摘要: 本研究通过一项被试间实验,探讨了视觉引导(VG)对增强现实(AR)中用户表现和人类因素的影响。VG是AR应用中的关键组成部分,作为数字信息与现实世界交互之间的桥梁。与以往研究(通常产生不一致结果)不同,我们的研究重点在于不同类型的支持性可视化,而非交互方法。我们的研究结果表明,任务完成时间减少了31%,但错误率显著上升,突显了速度与准确性之间的权衡。此外,我们在实验设计中评估了遮挡的负面影响。除了考察认知负荷、动机和可用性等其他变量外,我们还为未来研究确定了具体方向并提供了可行的见解。总体而言,我们的结果强调了VG在提升AR用户表现方面的潜力,同时强调了进一步研究潜在人类因素的重要性。
链接: http://arxiv.org/abs/2503.05649v1
标题: Superintelligence Strategy: Expert Version
作者: Dan Hendrycks, Eric Schmidt, Alexandr Wang
摘要: AI的快速发展正在重塑国家安全。不稳定的AI发展可能打破力量平衡,增加大国冲突的可能性,而具备强大能力的AI黑客和病毒学家的广泛扩散将降低不良行为者造成灾难的门槛。超级智能——在几乎所有认知任务上远超人类的AI——如今已被AI研究者预见。正如各国曾制定核战略以确保生存一样,我们现在需要一种连贯的超级智能战略来应对这一变革时期。我们引入了“相互保证AI故障”(MAIM)的概念:一种类似于核相互保证毁灭(MAD)的威慑机制,任何国家单方面谋求AI主导地位的激进行为都将遭到竞争对手的预防性破坏。鉴于破坏不稳定的AI项目相对容易——通过从隐蔽的网络攻击到对数据中心的潜在物理打击等手段——MAIM已经描述了AI超级大国所处的战略局面。与此同时,各国可以通过AI增强经济和军事实力来提高竞争力,并可以对不良行为者进行不扩散努力,以防止武器化AI能力落入其手中。综合来看,威慑、不扩散和竞争力的三部分框架为未来几年的超级智能战略提供了坚实的基础。
链接: http://arxiv.org/abs/2503.05628v1
标题: Nuanced Safety for Generative AI: How Demographics Shape Responsiveness to Severity
作者: Pushkar Mishra, Charvi Rastogi, Stephen R. Pfohl, Alicia Parrish, Roma Patel, Mark Diaz, Ding Wang, Michela Paganini, Vinodkumar Prabhakaran, Lora Aroyo, Verena Rieser
摘要: 确保生成式AI的安全性需要对多元观点有细致入微的理解。本文提出了一种新颖的数据驱动方法,用于校准多元数据集中的细粒度评分。具体而言,我们解决了如何解释不同人群对通过序数量表(如Likert量表)表达的安全性的响应问题。我们提炼了非参数响应指标,用于量化评分者在评估安全违规严重性时的一致性。以AI生成内容的安全性评估为案例研究,我们调查了来自不同人口群体(年龄、性别、种族)的评分者如何使用序数量表来表达他们对多元安全数据集中违规严重性的感知。我们将这些指标应用于不同类型的违规行为,展示了它们在提取关键见解方面的实用性,这些见解对于在多文化背景下开发可靠的AI系统至关重要。我们表明,我们的方法通过捕捉不同人口群体的细微观点,提供了改进的能力来优先处理安全问题,从而提高了多元数据收集的可靠性,并最终为更稳健的AI评估做出了贡献。
链接: http://arxiv.org/abs/2503.05609v1
标题: Compliance of AI Systems
作者: Julius Schöning, Niklas Kruse
摘要: 人工智能(AI)系统在各个领域的日益整合需要可靠的概念来确保其符合即将出台的法规。本文系统地研究了AI系统与相关法规的合规性,重点关注欧盟的《AI法案》和数据集的合规性。分析突显了边缘设备带来的许多挑战,这些设备越来越多地用于将AI应用部署在更接近数据源的地方。由于其去中心化的性质和有限的计算资源,这些设备在实施复杂的合规机制时往往面临独特的问题。通过分析AI实现,本文识别了挑战,并提出了在开发、部署和运行AI时确保法律合规性的最佳实践。数据集合规性作为确保AI系统可信性、透明性和可解释性的基石,必须与《AI法案》等监管框架中规定的道德标准保持一致。本文的见解应有助于推动关于嵌入式AI系统负责任开发和部署的持续讨论。
链接: http://arxiv.org/abs/2503.05571v1
标题: Evaluating open-source Large Language Models for automated fact-checking
作者: Nicolo' Fontana, Francesco Corso, Enrico Zuccolotto, Francesco Pierri
摘要: 在线错误信息的日益流行增加了对自动化事实核查解决方案的需求。大型语言模型(LLMs)已成为协助完成这一任务的潜在工具,但其有效性仍不确定。本研究评估了各种开源LLMs的事实核查能力,重点关注它们在不同上下文信息水平下评估声明的能力。我们进行了三项关键实验:(1)评估LLMs是否能识别声明与事实核查文章之间的语义关系,(2)评估模型在提供相关事实核查文章时验证声明的准确性,以及(3)测试LLMs在利用外部知识源(如Google和Wikipedia)数据时的事实核查能力。我们的结果表明,LLMs在识别声明与文章关联和验证事实核查故事方面表现良好,但在确认事实新闻时表现不佳,其表现不如传统的微调模型(如RoBERTa)。此外,引入外部知识并未显著提升LLMs的表现,这表明需要更定制化的方法。我们的研究结果突显了LLMs在自动化事实核查中的潜力和局限性,强调了在它们能够可靠地替代人类事实核查员之前需要进一步改进。
链接: http://arxiv.org/abs/2503.05565v1
标题: Synchronization between media followers and political supporters during an election process: towards a real time study
作者: Rémi Perrier, Laura Hernández, J. Ignacio Alvarez-Hamelin, Mariano G. Beiró Dimitris Kotzinos
摘要: 我们分析了2022年法国总统选举期间,Twitter(在更名为X之前)上不同候选人支持者与不同类型媒体追随者之间讨论的动态。我们的研究表明,我们可以自动检测不同群体在特定时间围绕特定话题的兴趣同步。我们引入了两种互补的方法来构建动态语义网络,每种方法都有其优势。增长聚合网络有助于识别过去话题的重新激活,而滚动窗口网络对新兴讨论更为敏感,尽管这些讨论可能突然出现且寿命较短。这两种方法为讨论景观提供了不同的视角。我们主张同时使用这两种方法,因为它们的比较可以以较低的计算和存储成本提供有价值的见解。我们的研究结果以更大规模和自动化的方式确认并量化了之前通过更定性方法得出的观察结果。我们相信这项工作代表了在开发评估信息处理公平性方法方面迈出的一步,这是某些国家使用广播频谱频率的广播机构的法律义务。
链接: http://arxiv.org/abs/2503.05552v1
标题: PoSSUM: A Protocol for Surveying Social-media Users with Multimodal LLMs
作者: Roberto Cerina
摘要: 本文介绍了PoSSUM,一种通过多模态大型语言模型(LLMs)对社交媒体用户进行非侵入式调查的开源协议。PoSSUM利用用户的实时帖子、图像和其他数字痕迹创建硅样本,捕捉LLM训练数据中不存在的信息。为了获得代表性估计,PoSSUM采用多级回归和后分层(MrP)方法,结合结构化先验来抵消社交媒体平台的可观察选择偏差。该协议在2024年美国总统选举期间得到验证,期间进行了五次PoSSUM调查,并发布在GitHub和X上。在10月17日至26日进行的最后一次调查中,PoSSUM使用1,054名X用户的合成样本,准确预测了51个州中的50个州的结果,并为共和党候选人分配了0.65的获胜概率。值得注意的是,它在州级偏差方面也低于大多数知名民调机构。这些结果证明了PoSSUM作为完全自动化、非侵入式替代传统调查方法的潜力。
链接: http://arxiv.org/abs/2503.05529v1
标题: Cognitive Bias Detection Using Advanced Prompt Engineering
作者: Frederic Lemieux, Aisha Behr, Clara Kellermann-Bryant, Zaki Mohammed
摘要: 认知偏差是判断中偏离理性的系统性偏差,对生成客观内容构成了重大挑战。本文提出了一种新颖的方法,利用大型语言模型(LLMs)和高级提示工程技术实时检测用户生成文本中的认知偏差。该系统通过分析文本数据来识别常见的认知偏差,如确认偏差、循环推理和隐藏假设。通过设计定制的提示,该系统有效利用LLMs的能力来识别和缓解这些偏差,从而提高人类生成内容(如新闻、媒体、报告)的质量。实验结果表明,我们的方法在识别认知偏差方面具有高准确性,为增强内容客观性和减少偏差决策的风险提供了有价值的工具。
链接: http://arxiv.org/abs/2503.05516v1
标题: A systemic and cybernetic perspective on causality, big data and social networks in tourism
作者: Miguel Lloret-Climent, Andrés Montoyo-Guijarro, Yoan Gutierrez-Vázquez, Rafael Muñoz-Guillena, Kristian Alonso-Stenberg
摘要: 目的——本文旨在提出一种数学模型,用于确定旅游变量集合中的不变集、集合覆盖、轨道和吸引子。分析基于一种算法,并在广义系统理论和大数据背景下应用混沌理论的解释进行。设计/方法论/方法——旅游是经济中最数字化的领域之一,社交网络是信息收集的重要数据来源。然而,网络上冗余信息的高水平和矛盾意见与事实的出现产生了不良影响,必须与真实数据进行交叉验证。本文阐述了与旅游流量相关的因果关系,以便制定适当的策略。发现——研究结果可应用于众多案例,例如在分析旅游流量时,这些发现可用于确定某些群体的行为是否影响其他群体的行为,以及分析旅游行为中最相关的变量。原创性/价值——本文提出的技术打破了旅游主题的传统处理方法。与仅提供当前数据信息的统计分析不同,作者使用轨道分析来预测,如果发现吸引子,旅游变量在不久的将来的行为。
链接: http://arxiv.org/abs/2503.05502v1
标题: A Bot-based Approach to Manage Codes of Conduct in Open-Source Projects
作者: Sergio Cobos, Javier Luis Cánovas Izquierdo
摘要: 开源软件(OSS)项目的开发依赖于全球范围内分散的贡献者的协作工作。为了实现这种协作,OSS项目托管在GitHub等社交编码平台上,这些平台提供了托管代码的基础设施以及支持社区参与的功能。OSS项目中潜在丰富且多样化的贡献者使其管理不仅是一个技术挑战(通常部署自动化工具和机器人),也是一个社会挑战。为此,OSS项目越来越多地部署其行为准则声明,以定义规则,确保社区中的尊重和包容性参与环境,其中贡献者契约是主要模型。然而,OSS项目中行为准则的广泛采用和执行仍然有限。特别是,行为准则的定义、部署和执行是一项非常具有挑战性的任务。在本文中,我们提出了一种基于贡献者契约提案的有效管理OSS项目中行为准则的方法。我们的解决方案已实现为基于机器人的解决方案,其中机器人帮助定义行为准则、监控OSS项目并执行道德规则。
链接: http://arxiv.org/abs/2503.05479v1
标题: The Software Diversity Card: A Framework for Reporting Diversity in Software Projects
作者: Joan Giner-Miguelez, Sergio Morales, Sergio Cobos, Javier Luis Canovas Izquierdo, Robert Clariso, Jordi Cabot
摘要: 近年来,对软件开发中多样性的兴趣和关注度激增。报告软件项目的多样性相关方面可以增加用户信任,并帮助监管机构评估潜在的采用。此外,围绕AI的最新指令开始要求在AI产品开发中提供多样性信息,这表明公共监管机构对此的兴趣日益增长。尽管具有重要性,但当前软件开发过程中的文档资产经常忽视多样性,而更关注技术特性,部分原因是缺乏描述和注释多样性的工具。本工作引入了软件多样性卡,一个用于报告软件项目多样性相关方面的综合框架。该卡旨在描述参与开发和治理软件项目的不同类型的团队(包括参与测试的最终用户群体)以及为特定社会群体量身定制的软件适配。为了鼓励其采用,我们提供了一种多样性建模语言、一个使用该语言生成卡片的工具包,以及来自活跃软件项目的真实示例集合。我们的提案可以通过开源项目(如CONTRIBUTING.md文件)增强软件开发中的多样性实践,支持公共管理部门进行软件评估,并帮助企业将多样性作为关键资产进行推广。
链接: http://arxiv.org/abs/2503.05470v1
标题: Automatic Teaching Platform on Vision Language Retrieval Augmented Generation
作者: Ruslan Gokhman, Jialu Li, Youshan Zhang
摘要: 自动化教学面临独特的挑战,因为复制人类互动和适应性是复杂的。自动化系统通常无法提供与学生学习节奏或理解水平相一致的细致、实时反馈,这可能会阻碍对不同需求的有效支持。这在抽象概念需要适应性解释的领域中尤为具有挑战性。在本文中,我们提出了一种视觉语言检索增强生成(VL-RAG)系统,该系统有潜力通过提供上下文相关、视觉丰富的响应来弥合这一差距,从而增强理解。通过利用定制答案和图像的数据库,VL-RAG系统可以动态检索与特定问题一致的信息,创造更具互动性和吸引力的体验,促进更深层次的理解和学生的积极参与。它允许学生通过视觉和语言探索概念,促进更深层次的理解,并减少对持续人类监督的需求,同时保持跨不同学科和课程材料的扩展灵活性。
链接: http://arxiv.org/abs/2503.05464v1
标题: PinchCatcher: Enabling Multi-selection for Gaze+Pinch
作者: Jinwook Kim, Sangmin Park. Qiushi Zhou, Mar Gonzalez-Franco, Jeongmi Lee, Ken Pfeuffer
摘要: 本文研究了基于眼和手交互的XR界面中的多选功能。我们提出使用不同的技术变体来启用多选,这些技术结合了凝视与半捏手势,允许用户选择多个对象,同时接近完全捏合。虽然我们的探索基于半捏模式以激活准模式,但我们探索了四种确认多选模式下子选择的方法,这些方法在努力和复杂性上有所不同:停留时间(SemiDwell)、滑动(SemiSwipe)、倾斜(SemiTilt)和非主导手输入(SemiNDH),并将它们与基线技术进行比较。在用户研究中,我们评估了它们在减少任务完成时间、错误和努力方面的有效性。结果表明了每种技术的优缺点,其中SemiSwipe和SemiDwell是参与者最青睐的方法。我们还展示了它们在文件管理和RTS游戏应用场景中的实用性。本研究为推进XR中的3D输入系统提供了宝贵的见解。
链接: http://arxiv.org/abs/2503.05456v1
标题: Controllable Complementarity: Subjective Preferences in Human-AI Collaboration
作者: Chase McDonald, Cleotilde Gonzalez
摘要: 关于人机协作的研究通常优先考虑客观表现。然而,理解人类主观偏好对于改善人机互补性和人类体验至关重要。我们研究了人类在共享工作空间任务中对可控性的偏好,使用行为塑造(BS)算法,该算法允许人类显式控制AI行为。在一项实验中,我们验证了BS在隐藏控制时生成有效AI策略的鲁棒性,与自玩策略相比。在另一项实验中,我们启用了人类控制,表明当参与者可以直接指定AI行为时,他们感知到AI伙伴更有效且更愉快。我们的研究结果强调了设计AI时需优先考虑任务表现和人类主观偏好的必要性。通过将AI行为与人类偏好对齐,我们展示了人机互补性如何超越客观结果,包括主观偏好。
链接: http://arxiv.org/abs/2503.05455v1
标题: Cybersafety Card Game: Empowering Digital Educators to Teach Cybersafety to Older Adults
作者: Jacob Camilleri, Ashley Sheil, Michelle O'Keeffe, Moya Cronin, Melanie Gruben, Hazel Murray
摘要: 数字不平等仍然是许多老年人的重大障碍,限制了他们在网络空间中安全、自信地导航的能力,同时增加了他们遭受网络威胁的脆弱性。为此,我们提出了一种新颖的消牌类游戏,供老年人在教育环境中概念化学习和强化网络卫生实践。我们邀请数字教育者作为玩家与老年人(n = 16)一起参与,脱离他们通常作为教师的角色,他们协作并分享了独特的学习体验。网络安全游戏涉及四个关键主题:处理诈骗、密码管理、应对网络攻击和保持隐私。我们采用了混合方法的思维出声测试、半结构化访谈和调查,以评估游戏的接受度和影响。参与者报告了非常积极的游戏体验,并认为网络安全建议很有用。玩家反馈为游戏的修改提供了依据,本文详细描述了这些修改,以进一步增强游戏的可用性和教育价值。
链接: http://arxiv.org/abs/2503.05430v1
标题: Continual Human-in-the-Loop Optimization
作者: Yi-Chi Liao, Paul Streli, Zhipeng Li, Christoph Gebhardt, Christian Holz
摘要: 最佳输入设置因用户的运动能力和个人偏好而异,通常通过手动调整或校准来解决。尽管人机循环优化有潜力在使用过程中识别最佳设置,但由于其较长的优化过程,很少被应用。一种更高效的方法是持续利用先前用户的数据来加速优化,利用共享特征同时适应个体特性。我们引入了持续人机循环优化的概念,并提出了一种基于贝叶斯优化的方法,该方法利用贝叶斯神经网络代理模型捕捉群体特征,同时适应新用户。我们提出了一种生成重放策略来缓解灾难性遗忘。我们通过优化虚拟现实键盘参数进行文本输入展示了我们的方法,展示了随着用户群体的增长,适应时间的减少。我们的方法为下一代个性化输入系统打开了大门,这些系统随着积累的经验而改进。
链接: http://arxiv.org/abs/2503.05405v1
标题: Improving Hate Speech Classification with Cross-Taxonomy Dataset Integration
作者: Jan Fillies, Adrian Paschke
摘要: 由于研究和实践中使用的多样定义和数据集,算法仇恨言论检测面临重大挑战。社交媒体平台、法律框架和机构各自应用不同但重叠的定义,使分类工作复杂化。本研究通过展示现有数据集和分类法可以整合到统一模型中,从而增强预测性能并减少对多个专用分类器的依赖,来解决这些挑战。该工作引入了一种通用分类法和一个能够检测广泛定义范围内的仇恨言论分类器。我们的方法通过结合两个广泛使用但标注不同的数据集进行了验证,结果显示在独立测试集上的分类性能有所提升。这项工作突显了数据集和分类法整合在推进仇恨言论检测、提高效率和确保跨上下文广泛应用方面的潜力。
链接: http://arxiv.org/abs/2503.05357v1
标题: Spatial Distillation based Distribution Alignment (SDDA) for Cross-Headset EEG Classification
作者: Dingkun Liu, Siyang Li, Ziwei Wang, Wei Li, Dongrui Wu
摘要: 非侵入性脑机接口(BCI)使用户能够通过脑电图(EEG)信号直接与外部设备交互。然而,由于不同头戴设备电极数量和位置的差异,跨头戴设备的EEG信号解码仍然是一个重大挑战。为了解决这一挑战,我们提出了一种基于空间蒸馏的分布对齐(SDDA)方法,用于非侵入性BCI中的异构跨头戴设备迁移。SDDA首先通过空间蒸馏利用完整的电极集,然后通过输入/特征/输出空间分布对齐来应对源域和目标域之间的显著差异。据我们所知,这是首次在跨头戴设备迁移中使用知识蒸馏的工作。在两个BCI范式下的六个EEG数据集上的广泛实验表明,SDDA在离线和在线监督域适应场景中均表现出色,始终优于10种经典和最先进的迁移学习算法。
链接: http://arxiv.org/abs/2503.05349v1
标题: A Comparative Study of How People With and Without ADHD Recognise and Avoid Dark Patterns on Social Media
作者: Thomas Mildner, Daniel Fidel, Evropi Stefanidi, Pawel W. Wozniak, Rainer Malaka, Jasmin Niess
摘要: 黑暗模式是欺骗性策略,近年来在人机交互(HCI)领域的研究中已在数字领域中被广泛捕捉,包括社交网站(SNSs)。尽管研究已发现人们有效识别黑暗模式的困难,但很少有研究考虑弱势群体(包括注意力缺陷多动障碍(ADHD)患者)在这一方面的体验,他们可能特别容易受到吸引注意力的技巧的影响。基于一项涉及135名参与者的互动网络研究,我们调查了SNS用户识别和避免黑暗模式的能力,比较了有和没有ADHD的参与者的结果。与先前的研究一致,我们注意到整体上对黑暗模式的识别率较低,两组之间没有显著差异。然而,ADHD个体在某些黑暗模式上能够更频繁地避免。我们的研究结果通过理解现实环境中的黑暗模式推进了先前的工作,并提供了关于其对弱势群体影响的见解。
链接: http://arxiv.org/abs/2503.05263v1
标题: ARbiter: Generating Dialogue Options and Communication Support in Augmented Reality
作者: Julián Méndez, Marc Satkowski
摘要: 在这篇立场论文中,我们建议研究增强现实(AR)与人工智能(AI)的结合,以支持对话,灵感来自视频游戏中常见的对话系统界面。AR设备正变得更强大且外观更常规,如Snapchat Spectacles、XREAL眼镜或最近发布的Meta Orion等头戴式显示器(HMDs)。这一发展减少了可能的符合人体工程学、外观和运行时间问题,从而允许AR在我们的日常生活中更直接地集成和扩展使用,无论是在私人生活还是工作中。与此同时,我们可以观察到AI开发的巨大浪潮(在CHI也是如此)。最近著名的如OpenAI的o3-mini或DeepSeek-R1等大型语言模型(LLMs)在维持对话、提供建议和处理复杂话题方面(几乎实时)超越了其前辈。结合自然语言识别系统(如今已成为智能手机和类似设备(包括现代AR-HMDs)的标准组件),很容易想象一个结合的系统,该系统集成到日常对话中并提供各种类型的支持。这样的系统将为AR+AI领域的研究提供许多机会,正如Hirzle等人所指出,这一领域的研究仍然稀缺。在下文中,我们描述了如何从视频游戏对话系统中学习设计AR+AI对话系统,并提出了可以借助这种AR+AI组合进行研究的使用案例和研究问题。
链接: http://arxiv.org/abs/2503.05220v1
标题: Deep Muscle EMG construction using A Physics-Integrated Deep Learning approach
作者: Rajnish Kumar, Tapas Tripura, Souvik Chakraborty, Sitikantha Roy
摘要: 基于肌电图(EMG)的计算肌肉骨骼建模是一种研究肌肉肌腱功能、人类运动和神经肌肉控制的非侵入性方法,提供了肌肉力和关节扭矩等内部变量的估计。然而,通过表面EMG电极测量深层肌肉的EMG信号通常具有挑战性,并且通过侵入性方法直接测量不可行。限制获取深层肌肉EMG数据对EMG驱动建模技术的广泛采用构成了重大障碍。一个战略性的替代方案是使用估计算法来近似缺失的深层肌肉EMG信号。类似的策略用于物理信息深度学习,其中物理系统的特征在没有标记数据的情况下被学习。在这项工作中,我们提出了一种混合深度学习算法,即神经肌肉骨骼模型(NMM),该算法集成了物理信息和数据驱动的深度学习,以近似深层肌肉的EMG信号。虽然数据驱动建模用于预测缺失的EMG信号,但基于物理的建模将特定于主体的信息嵌入预测中。在五个测试对象上进行了实验验证,以研究所提出的混合框架的性能。所提出的NMM与“OpenSim”软件计算的关节扭矩进行了验证。预测的深层EMG信号还与最先进的肌肉协同外推(MSE)方法进行了比较,其中所提出的NMM完全以显著优势超越了现有的MSE框架。
链接: http://arxiv.org/abs/2503.05201v1
标题: Can Large Language Models Grasp Concepts in Visual Content? A Case Study on YouTube Shorts about Depression
作者: Jiaying "Lizzy" Liu, Yiheng Su, Praneel Seth
摘要: 大型语言模型(LLMs)越来越多地用于辅助计算社会科学研究。尽管先前的努力主要集中在文本上,但利用多模态LLMs(MLLMs)进行在线视频研究的潜力仍未得到充分探索。我们进行了首批MLLM辅助视频内容分析的案例研究之一,比较了AI对抽象概念的解释与人类的理解。我们利用LLaVA-1.6 Mistral 7B来解释四个关于视频介导的自我披露的抽象概念,分析了142个与抑郁症相关的YouTube短视频中的725个关键帧。我们对MLLM自生成的解释进行了定性分析,发现操作化的程度会影响MLLM的解释。有趣的是,更多的细节并不一定会增加人类与AI的一致性。我们还识别了影响AI与人类理解一致性的其他因素,如概念的复杂性和视频类型的多样性。我们的探索性研究强调了为特定概念定制提示的必要性,并呼吁研究人员在多模态背景下使用AI系统时纳入更多以人为中心的评估。
链接: http://arxiv.org/abs/2503.05109v1
标题: Towards democratic data agency: Attitudes and concerns about online data practices
作者: Niels J. Gommesen
摘要: 最近的研究揭示了人们对个人数据如何在未经同意的情况下被收集、共享和使用的广泛担忧和日益增加的不理解。这一问题由于数字公民在跨平台上理解、控制和管理数据流动的有限选项而加剧,强调了探索这种缺乏信任和透明度如何影响公民数据实践(包括他们在现代知识社会中的行动能力)的必要性。尽管该领域的研究前景广阔,但重要的人口群体经常被忽视,特别是来自边缘化社会群体的人,如老年人、社会经济弱势社区和年轻参与者。本文通过特别关注这些未被充分代表的群体,强调需要探索他们对在线数据实践的理解和感知。通过三项半结构化焦点小组访谈,本文提出:公众对互联网上数据共享的态度和关注如何为增强数字信任和民主数据机构(特别是在丹麦的边缘化群体中)所需的潜在策略和框架提供信息?该研究探讨了人们在其日常在线数据实践中希望获得的信息类型、透明度和机构水平。此外,它还探讨了这些见解如何为未来开发公平数据策略和技术方法以增强数字信任和民主数据机构提供信息。关键发现指出需要透明、可访问的隐私政策和管理工具,强调仅透明度不足以解决信任问题并促进更具包容性的数字环境。
关键词:公众理解、个人数据、数字信任、数据实践、数据机构
链接: http://arxiv.org/abs/2503.05058v1
标题: Enhancing Autonomous Vehicle-Pedestrian Interaction in Shared Spaces: The Impact of Intended Path-Projection
作者: Le Yue, Tram Thi Minh Tran, Xinyan Yu, Marius Hoggenmueller
摘要: 外部人机界面(eHMIs)对于自动驾驶车辆(AVs)与行人在共享空间中的无缝交互至关重要。然而,它们往往难以适应这些环境,因为行人移动是流动的,而路权是模糊的。为了解决这些挑战,我们提出了PaveFlow,一种实时将AV的预期路径投影到地面上的eHMI,提供连续的空间信息,而不是二进制的停止/通行信号。通过一项VR研究(N=18),我们在两种AV密度条件(单AV与多AV)和无PaveFlow的基线条件下评估了PaveFlow的有效性。结果表明,PaveFlow显著提高了行人对安全性、信任和用户体验的感知,同时减少了认知负荷。尽管在优先级协商中存在持续的紧张关系,但在单AV和多AV条件下,这种表现保持一致。这些发现表明,路径投影通过提供更丰富的移动线索增强了eHMI的透明度,可能更好地支持共享空间中的AV与行人交互。
链接: http://arxiv.org/abs/2503.05041v1
标题: Bridging the AI Adoption Gap: Designing an Interactive Pedagogical Agent for Higher Education Instructors
作者: Si Chen, Reid Metoyer, Khiem Le, Adam Acunin, Izzy Molnar, Alex Ambrose, James Lang, Nitesh Chawla, Ronald Metoyer
摘要: 教师在将AI融入教育中扮演着关键角色,然而他们对AI驱动工具的采用仍然不一致。尽管如此,关于如何设计支持更广泛教师采用的AI工具的研究仍然有限。本研究采用以人为本的设计方法,结合定性方法,探讨了交互式教学代理的设计,该代理能够根据教师的问题提供教学建议。我们进行了一项形成性研究,采访了五位教学法专家,以探讨支持教师教学需求的现有策略。基于这些见解,我们与十位教学法专家进行了参与式设计会议,参与者审查了一个故事板,该故事板描绘了一个为具有不同AI素养和对AI态度不同的教师设计的聊天机器人。专家们还评估了基于常见教学挑战的LLM生成建议的质量。我们的研究结果强调了培养信任的聊天机器人交互的必要性,特别是对于AI保守的教师。专家们强调了社会透明度(例如,展示同行如何使用该工具)和允许教师灵活控制与系统交互程度的重要性。我们还提出了设计建议,以提高AI生成教学建议的质量,例如根据教师先前的教学经验进行调整。这项工作强调了支持AI保守教师的迫切需求,因为AI素养和态度密切相关。如果没有深思熟虑的设计,存在扩大教学鸿沟和减少学生学习机会的风险。
链接: http://arxiv.org/abs/2503.05039v1
标题: Value of Information in Social Learning
作者: Hiroto Sato, Konan Shimizu
摘要: 本研究将Blackwell(1953)的信息比较扩展到顺序社会学习模型中,在该模型中,代理基于私人信号和观察到的他人行为依次做出决策。在此背景下,我们引入了一种新的信息结构二元关系:如果一个信息结构在所有代理的偏好下都能产生更高的预期收益,则它比另一个信息结构更具社会价值。首先,我们证明了这种二元关系严格强于Blackwell顺序。然后,我们为我们的二元关系提供了一个必要且充分的条件,并提出了一个更简单的充分条件,该条件更容易验证。
链接: http://arxiv.org/abs/2503.05015v1
标题: LLMs' Reshaping of People, Processes, Products, and Society in Software Development: A Comprehensive Exploration with Early Adopters
作者: Benyamin Tabarsi, Heidi Reichert, Ally Limke, Sandeep Kuttal, Tiffany Barnes
摘要: 像OpenAI ChatGPT、Google Gemini和GitHub Copilot这样的大型语言模型(LLMs)在软件行业中迅速获得关注,但它们对软件工程的整体影响仍未得到充分探索。尽管它们的采用率在增长,但关于LLMs在现实世界软件开发环境中如何应用的正式定性评估仍然缺乏。为了填补这一空白,我们对十六位早期采用的专业开发者进行了半结构化访谈,探讨了他们在软件开发生命周期各个阶段使用LLMs的情况。我们的研究从四个维度展开:人员——LLMs如何影响个体开发者和团队;过程——LLMs如何改变软件工程工作流程;产品——LLMs对软件质量和创新的影响;以及社会——LLMs采用的更广泛社会经济和伦理影响。我们的数据主题分析表明,虽然LLMs尚未从根本上改变开发过程,但它们显著增强了日常编码任务,包括代码生成、重构和调试。开发者报告称,当向LLMs提供清晰、明确的问题陈述时,效果最佳,表明LLMs在处理分解问题和特定需求时表现出色。此外,这些早期采用者发现,LLMs在个人和职业发展方面提供了重要价值,帮助学习新语言和概念。早期采用者,作为在软件工程和LLMs工作原理方面高度熟练的群体,识别了软件工程中的早期和持续挑战,例如生成内容的不准确性和在将LLM输出集成到生产环境之前需要仔细的人工审查。我们的研究提供了关于LLMs如何塑造软件开发格局的细致理解,包括其优势、局限性和持续影响。
链接: http://arxiv.org/abs/2503.05012v1
标题: Prevalence and Impacts of Image-Based Sexual Abuse Victimization: A Multinational Study
作者: Rebecca Umbach, Nicola Henry, Gemma Beard
摘要: 基于图像的性虐待(IBSA)是指未经同意创建、拍摄或分享私密图像,包括威胁分享私密图像。尽管IBSA的危害巨大,但关于其流行率及其对不同身份或人口群体影响的数据仍然有限。本研究通过对10个国家的16,000多名成年人进行调查,探讨了IBSA的流行率、影响和应对措施。超过五分之一(22.6%)的受访者报告了IBSA的经历。LGBTQ+和年轻受访者的受害率更高。尽管受害率相似,但女性报告的IBSA危害和负面影响比男性更大。近三分之一(30.9%)的受害幸存者没有向任何人报告或披露他们的经历。我们提供了大规模、细粒度的基线数据,以帮助制定有效的干预措施,解决受害幸存者的经历和交叉身份问题。
链接: http://arxiv.org/abs/2503.04988v1
标题: Eggly: Designing Mobile Augmented Reality Neurofeedback Training Games for Children with Autism Spectrum Disorder
作者: Yue Lyu, Pengcheng An, Yage Xiao, Zibo Selena Zhang, Huan Zhang, Keiko Katsuragawa, Jian Zhao
摘要: 自闭症谱系障碍(ASD)是一种神经发育障碍,影响儿童与他人和周围世界的沟通和互动方式。新兴研究表明,神经反馈训练(NFT)游戏是一种有效且有趣的干预措施,可以增强自闭症儿童的社交和注意力能力。然而,NFT主要在临床环境中可用,难以扩展。此外,干预需要精心设计的游戏化反馈,以提供乐趣和享受,而HCI社区在这方面获得的知识很少。通过与四位领域专家进行为期十个月的迭代设计过程,我们开发了Eggly,一款基于消费级EEG头带和平板电脑的移动NFT游戏。Eggly利用新颖的增强现实(AR)技术提供参与性和个性化,增强他们的训练体验。我们在一个特殊教育中心进行了两项实地研究(单次研究和为期三周的多项研究),共有五名自闭症儿童参与,以评估Eggly的实际效果。定量和定性结果均表明该方法的有效性,并为创建移动AR NFT游戏的设计知识做出了贡献。
链接: http://arxiv.org/abs/2503.04984v1
标题: Quantifying the Relevance of Youth Research Cited in the US Policy Documents
作者: Miftahul Jannat Mokarrama, Hamed Alhoori
摘要: 近年来,人们越来越关注在学术或科学研究社区之外进行研究,以造福整个社会。衡量研究对社会影响的一种众所周知的方法是枚举其政策引用。尽管研究在政策制定中的重要性不言而喻,但没有具体证据表明研究在引用的政策文件中的相关性。这令人担忧,因为它可能增加证据在政策中被个人、社会或政治偏见操纵的可能性,从而导致政策中使用不适当、碎片化或过时的研究证据。因此,确定研究文章与引用政策文件之间的上下文相关性程度至关重要。在本文中,我们使用自然语言处理技术、最先进的预训练大型语言模型(LLMs)和统计分析,研究了以青年为重点的研究在引用的美国政策文件中的上下文相关性规模。我们的实验和分析得出结论,获得美国政策引用的青年相关研究文章大多与引用的政策文件相关。
链接: http://arxiv.org/abs/2503.04977v1
标题: Collaborative Evaluation of Deepfake Text with Deliberation-Enhancing Dialogue Systems
作者: Jooyoung Lee, Xiaochen Zhu, Georgi Karadzhov, Tom Stafford, Andreas Vlachos, Dongwon Lee
摘要: 生成模型的泛滥在区分真实的人类创作内容与深度伪造内容方面提出了重大挑战。协作的人类努力,辅以AI工具,提供了一种有前景的解决方案。在本研究中,我们探讨了DeepFakeDeLiBot(一种增强讨论的聊天机器人)在支持群体检测深度伪造文本方面的潜力。我们的研究结果表明,基于群体的问题解决显著提高了识别机器生成段落的准确性,与个体努力相比。尽管与DeepFakeDeLiBot的互动并未带来整体性能的显著提升,但它通过促进更大的参与者参与、共识建立以及基于推理的陈述的频率和多样性,增强了群体动态。此外,那些认为群体协作有效性较高的参与者从DeepFakeDeLiBot中获得了性能提升。这些发现强调了讨论增强型聊天机器人在促进互动和富有成效的群体动态方面的潜力,同时确保协作深度伪造文本检测的准确性。\textit{本研究中使用的数据集和源代码将在论文被接受后公开。
链接: http://arxiv.org/abs/2503.04945v1
标题: Iris Style Transfer: Enhancing Iris Recognition with Style Features and Privacy Preservation through Neural Style Transfer
作者: Mengdi Wang, Efe Bozkir, Enkelejda Kasneci
摘要: 虹膜纹理被广泛认为是认证和识别的黄金标准生物特征。近年来,对稳健的虹膜识别方法的需求不断增长,同时关于虹膜攻击的安全和隐私问题也在增加。受神经风格迁移的启发,这是一种利用神经网络分离内容和风格特征的先进技术,我们假设虹膜纹理的风格特征为识别提供了可靠的基础,并且比传统方法更能抵抗旋转和视角变化等变化。我们的实验结果支持这一假设,显示出比传统特征显著更高的分类准确性。此外,我们提出使用神经风格迁移来掩盖可识别的虹膜风格特征,确保敏感生物特征信息的保护,同时保持眼图像在眼部分割和视线估计等任务中的实用性。这项工作为面向虹膜的安全和隐私感知生物特征系统开辟了新的途径。
链接: http://arxiv.org/abs/2503.04707v1
标题: Assessing Student Adoption of Generative Artificial Intelligence across Engineering Education from 2023 to 2024
作者: Jesan Ahammed Ovi, Gabe Fierro, C. Estelle Smith
摘要: 生成式人工智能(GenAI)工具和模型有潜力重塑所有工程教育部门的教育需求、规范、实践和政策。关于工程学生如何采用GenAI的实证数据,而不是轶事和假设,对于在学术培训期间理解学生的GenAI相关行为和需求至关重要。这些数据还将帮助学术机构和工业雇主制定有效的GenAI应对措施。我们在美国科罗拉多矿业学院(一所小型工程类R-1大学)收集了2023年5月(n1=601)和2024年9月(n2=862)的两个代表性调查样本,以解决与(RQ1)GenAI如何被工程学生采用,包括促成GenAI使用的动机和人口因素,(RQ2)学生对GenAI的伦理担忧,以及(RQ3)学生对自己、科学和社会的感知益处与危害相关的研究问题。分析显示,从2023年到2024年,GenAI采用率显著上升。学生主要利用GenAI工具来加深理解、提高工作质量并了解新兴技术。尽管大多数学生认为自己的GenAI使用是道德和有益的,但他们仍然对GenAI及其对社会的影响表达了重大担忧。我们收集了学生对“P(doom)”的估计,并发现了双峰分布。因此,我们表明,尽管随着时间的推移,学生群体越来越愿意探索GenAI,但在工程劳动力和社会未来影响方面,学生群体仍然存在两极分化。我们讨论了这些发现对未来研究以及将GenAI整合到工程教育中的影响。
链接: http://arxiv.org/abs/2503.04696v1
标题: The Influence of Prior Discourse on Conversational Agent-Driven Decision-Making
作者: Stephen Pilli, Vivek Nallur
摘要: 通过对话进行说服一直是许多研究的焦点。轻推是一种在物理和数字环境中影响决策的流行策略。然而,采用“轻推”的对话代理尚未受到显著关注。我们探讨了认知偏差的表现——轻推的潜在心理机制——并研究了先前对话任务的复杂性如何影响由对话代理促进的决策。我们的研究采用了组间实验设计,涉及756名参与者,随机分配到简单或复杂任务,然后在遇到决策场景之前。我们改编了Samuelson关于现状偏差的经典实验中的三个场景,现状偏差是默认轻推的潜在机制。我们的结果与先前的研究在两个简单任务场景中一致。增加任务复杂性一致地将效应量推向我们的假设,尽管在仅一个案例中偏差显著。这些发现为对话轻推策略提供了信息,并突出了行为经济学中固有的偏见。
链接: http://arxiv.org/abs/2503.04692v1
标题: 3HANDS Dataset: Learning from Humans for Generating Naturalistic Handovers with Supernumerary Robotic Limbs
作者: Artin Saberpour Abadian, Yi-Chi Liao, Ata Otaran, Rishabh Dabral, Marie Muehlhaus, Christian Theobalt, Martin Schmitz, Jürgen Steimle
摘要: 超数机器人肢体(SRLs)是与用户身体紧密集成的机器人结构,增强了人类的物理能力,并需要无缝、自然的人机交互。为了在物理任务中提供有效协助,使SRLs能够将物体移交给人类至关重要。然而,为机器人设计基于启发式的策略既耗时,又难以跨任务泛化,并且产生的运动不如人类自然。当使用适当的数据集进行训练时,生成模型是创建自然移交运动的有力替代方案。我们引入了3HANDS,一个新颖的物体移交交互数据集,其中一名参与者执行日常活动,另一名参与者以自然方式扮演安装在髋部的SRL。3HANDS捕捉了SRL交互的独特特征:在亲密的个人空间中操作,具有不对称的物体起源、隐式的运动同步以及用户在移交过程中参与主要任务。为了展示我们数据集的有效性,我们提出了三种模型:一种生成自然移交轨迹,另一种确定适当的移交端点,第三种预测启动移交的时刻。在一项用户研究(N=10)中,我们比较了使用我们的方法与基线进行的移交交互。研究结果表明,我们的方法被认为显著更自然、体力消耗更少、更舒适。
链接: http://arxiv.org/abs/2503.04635v1
标题: Inducing Efficient and Equitable Professional Networks through Link Recommendations
作者: Cynthia Dwork, Chris Hays, Lunjia Hu, Nicole Immorlica, Juan Perdomo
摘要: 专业网络是个人劳动力市场结果的关键决定因素。它们也可能在加剧或缓解跨人口群体的机会不平等方面发挥作用。在一个专业网络形成的理论模型中,我们表明即使没有外生的群体内偏好,不平等也可能增加,这证实并补充了现有的理论文献。不平等的增加源于特权和非特权个体在形成连接时由于不对称的事前前景而具有的不同杠杆作用。这是劳动力市场中不平等来源的形式化,这一来源之前尚未被探索。接下来,我们展示了如何通过链接推荐(通过减少成本的链接推荐)在特权和非特权个体之间补贴连接,从而减少不平等。事实上,混合特权连接在所有可能的均衡中比不推荐链接或推荐较小比例的跨群体链接更能提高福利。综合来看,这两个发现揭示了一个严峻的现实:未能促进连接形成过程中整合的专业网络平台可能会降低平台对其用户的效用,并加剧现有的劳动力市场不平等。
链接: http://arxiv.org/abs/2503.04542v1
标题: Research on a Driver's Perceived Risk Prediction Model Considering Traffic Scene Interaction
作者: Chenhao Yang, Siwei Huang, Chuan Hu
摘要: 在条件自动驾驶技术领域,驾驶员感知风险预测在降低交通风险和确保乘客安全方面起着至关重要的作用。本研究引入了一种创新的感知风险预测模型,用于智能驾驶系统中的人机交互。该模型旨在提高预测准确性,从而确保乘客安全。通过对风险影响机制的综合分析,我们识别了影响感知风险的三个关键类别因素,包括主观和客观因素:驾驶员的个人特征、自车运动和周围环境特征。然后,我们提出了一种基于深度学习的风险预测网络,该网络使用前两类因素作为输入。该网络捕捉了动态驾驶场景中交通参与者之间的交互关系。此外,我们设计了一种个性化建模策略,结合驾驶员特定特征以提高预测准确性。为了确保高质量的训练数据,我们进行了一项严格的视频评分实验。实验结果表明,所提出的网络在性能上比最先进的方法提高了10.0%。这些发现表明,所提出的网络在增强条件自动驾驶系统安全性方面具有显著潜力。
链接: http://arxiv.org/abs/2503.04516v1
标题: Exit the Code: A Model for Understanding Career Abandonment Intention Among Software Developers
作者: Tiago Massoni, Ricardo Duarte, Ruan Oliveira
摘要: 背景。职业放弃是专业人员离开该领域并担任其他领域职位的过程,在软件开发人员中,涉及对失去投资的挫败感和情感及财务成本,尽管根据个人背景,这对人类有益。先前的研究确定了与工作相关的职业放弃动机,如过时的威胁、不稳定的需求和低代码质量,尽管这些因素主要在前开发者中进行了研究。这些动机与当前活跃开发者的放弃意图之间的关系尚未被探索。目标。本文探讨了关键工作相关动机与当前活跃软件开发人员职业放弃意图之间的关系。方法。我们采用了定量方法,调查了221名软件开发人员,以验证基于投资模型调整的职业放弃意图理论模型,该模型结合了对职业技术方面的满意度以及放弃意图。发现。通过探索性和验证性因子分析,以及结构方程模型(SEM),我们为解释软件开发人员职业放弃意图的调整投资模型提供了强有力的支持。此外,职业承诺显著影响离开职业的意图,受到对技术工作相关因素的满意度的正向影响,以及职业替代和职业投资的负向影响。结论。本文为组织领导者提供了有价值的见解,可能指导保留策略以更好地支持开发人员,并采用理论模型来解释职业放弃。
链接: http://arxiv.org/abs/2503.04460v1
标题: SMTPD: A New Benchmark for Temporal Prediction of Social Media Popularity
作者: Yijie Xu, Bolun Zheng, Wei Zhu, Hangjia Pan, Yuchen Yao, Ning Xu, Anan Liu, Quan Zhang, Chenggang Yan
摘要: 社交媒体流行度预测任务旨在预测社交媒体平台上帖子的流行度,这对内容优化、数字营销和在线广告等应用场景具有积极的推动作用。尽管许多研究取得了显著进展,但很少有研究关注流行度预测与时间对齐的整合。在本文中,通过探索YouTube的多语言和多模态内容,我们构建了一个新的社交媒体时间流行度预测基准,即SMTPD,并提出了一个时间流行度预测的基线框架。通过数据分析和实验,我们验证了时间对齐和早期流行度在社交媒体流行度预测中的关键作用,不仅加深了对社交媒体流行度时间动态的理解,还为开发更有效的预测模型提供了建议。代码可在https://github.com/zhuwei321/SMTPD获取。
链接: http://arxiv.org/abs/2503.04446v1
标题: Training-Free Graph Filtering via Multimodal Feature Refinement for Extremely Fast Multimodal Recommendation
作者: Yu-Seung Roh, Joo-Young Kim, Jin-Duk Park, Won-Yong Shin
摘要: 多模态推荐系统通过利用文本、图像和视频等多种内容类型,提高了无项目特征的经典推荐系统的性能,同时缓解了用户-项目交互的固有稀疏性并加速了用户参与。然而,当前的神经网络模型由于需要从多个模态中学习和整合信息的复杂训练过程,往往带来显著的计算开销。为了克服这一限制,我们提出了多模态图过滤(MM-GF),这是一种基于图过滤(GF)概念的无训练方法,用于高效且准确的多模态推荐。具体而言,MM-GF首先通过非平凡的多模态特征精炼(如鲁棒缩放和向量平移)构建多个相似性图,以解决跨模态的异质特征。然后,MM-GF使用线性低通滤波器在不同模态之间优化融合多模态信息。在真实世界基准数据集上的广泛实验表明,MM-GF不仅将推荐准确性提高了13.35%,而且通过实现不到10秒的运行时间,显著降低了计算成本。
链接: http://arxiv.org/abs/2503.04406v1
标题: Talking Back -- human input and explanations to interactive AI systems
作者: Alan Dix, Tommaso Turchi, Ben Wilson, Anna Monreale, Matt Roach
摘要: 虽然XAI专注于向人类提供AI解释,但反过来——人类向AI解释他们的判断——能否促进更丰富、协同的人机系统?本文探讨了各种形式的人类输入AI,并研究了人类解释如何指导机器学习模型生成更符合人类概念的自动化判断和解释。
链接: http://arxiv.org/abs/2503.04343v1
标题: InFL-UX: A Toolkit for Web-Based Interactive Federated Learning
作者: Tim Maurer, Abdulrahman Mohamed Selim, Hasan Md Tusfiqur Alam, Matthias Eiletz, Michael Barz, Daniel Sonntag
摘要: 本文介绍了InFL-UX,一个交互式的、基于浏览器的联邦学习(FL)工具包,旨在将用户贡献无缝整合到机器学习(ML)工作流程中。InFL-UX使多个设备的用户能够上传数据集、定义类别,并直接在浏览器中使用现代Web技术协作训练分类模型。与传统的FL工具包不同,后者通常专注于后端模拟,InFL-UX为研究人员提供了一个简单的用户界面,以探索用户在实际交互设置中如何与FL系统交互并为其做出贡献。通过优先考虑可用性和去中心化模型训练,InFL-UX弥合了FL与交互式机器学习(IML)之间的鸿沟,使非技术用户能够积极参与ML分类任务。
链接: http://arxiv.org/abs/2503.04318v1
标题: Mapping bipartite networks into multidimensional hyperbolic spaces
作者: Robert Jankowski, Roya Aliakbarisani, M. Ángeles Serrano, Marián Boguñá
摘要: 二分网络出现在许多现实世界的上下文中,连接两个不同集合中的实体。它们通常通过单模投影进行分析,但此类投影可能会引入人为的相关性和夸大的聚类,掩盖了真实的基础结构。在本文中,我们提出了一种二分网络的几何模型,利用高水平的二分四环作为聚类度量,将两种节点类型放置在相同的相似性空间中,其中链接概率随距离减小。此外,我们引入了B-Mercator,一种从二分结构中推断节点位置的算法。我们评估了其在多样化数据集上的性能,展示了生成的嵌入如何改进下游任务,如机器学习中的节点分类和基于距离的链接预测。这些双曲嵌入还使得生成的合成网络具有与真实世界节点特征相似的节点特征,从而在保护敏感信息的同时实现安全的数据共享。此外,我们展示了保留二分结构如何避免基于投影技术的陷阱,从而提供更准确的描述和更好的性能。我们的方法为揭示复杂二分系统中的隐藏几何提供了一个强大的框架。
链接: http://arxiv.org/abs/2503.04316v1
标题: Applying Smarta to the analysis of tourist networks
作者: Miguel Lloret-Climent, Josué-Antonio Nescolarde-Selva, Kristian Alonso-Stenberg, Andrés Montoyo, Yoan Gutiérrez-Vázquez
摘要: 本研究的框架是目的地生命周期模型,这是一个描述旅游目的地发展的经典模型。我们基于西班牙国家统计局提供的2016年1月至2018年10月期间的旅游住宿供需统计数据,研究了贝尼多姆的大众旅游。目标是分析贝尼多姆旅游系统的生命周期和竞争力,解释旅游产品是否可持续,以及贝尼多姆目前处于生命周期的哪个阶段。为此,我们使用了Smarta软件,该软件基于网络分析,能够解释系统的良性循环,并通过观察系统吸引子中的关系模式来分析因果关系,从而补充了基于因果地图和社交网络研究的典型处理。通过该应用程序(由我们的研究团队开发)获得的结果显示了6组吸引子,这些吸引子标志着旅游系统的趋势。最后,对这些吸引子的重要变量的分析帮助证明了贝尼多姆的旅游系统正处于复苏阶段。
链接: http://arxiv.org/abs/2503.04307v1
标题: The Role of Robot Competence, Autonomy, and Personality on Trust Formation in Human-Robot Interaction
作者: Filippo Cantucci, Marco Marini, Rino Falcone
摘要: 人类对社交机器人的信任是一种基于认知和情感评估的复杂态度,也是一种行为,如任务委托。尽管先前的研究探讨了影响整体信任态度的机器人特征,但这些特征是否影响行为信任仍不清楚。此外,关于哪些机器人特征影响认知和情感态度,以及这些态度如何影响人类委托新任务给机器人的意愿的研究也有限。本研究探讨了机器人能力、自主性和个性特征之间的相互作用及其对信任态度(认知和情感信任)和信任行为(任务委托)的影响,研究背景是任务导向的人机交互。我们的研究结果表明,机器人能力是信任的关键决定因素,影响认知、情感和行为信任。相比之下,机器人个性特征仅显著影响情感信任,而不影响认知信任或信任行为。此外,自主性调节了能力与认知信任之间的关系,以及个性与情感信任之间的关系。最后,认知信任对任务委托有正向影响,而情感信任则没有显著影响。本文通过为设计能够有效与人类交互并增强其信任的机器人提供了新的证据,为人机信任文献做出了贡献。
链接: http://arxiv.org/abs/2503.04296v1
标题: No Silver Bullet: Towards Demonstrating Secure Software Development for Danish Small and Medium Enterprises in a Business-to-Business Model
作者: Raha Asadi, Bodil Biering, Vincent van Dijk, Oksana Kulyk, Elda Paja
摘要: 软件开发的中小企业(SMEs)作为大型企业和公共管理机构的供应商发挥着关键作用。因此,它们需要能够证明其产品符合某些安全标准,既是为了赢得客户的信任,也是为了遵守要求此类演示的标准。在本研究中,我们探讨了SMEs在B2B模式中展示其安全性的方法,通过对丹麦不同SMEs的从业者进行半结构化访谈(N=16),并在后续研讨会(N=6)中验证了我们的发现。我们的研究结果表明了五种独特的安全展示方法,即:认证、报告、问卷、互动会议和社交证明。我们讨论了这些方法的挑战、益处和建议,得出结论认为没有一种方法是万能的,需要进一步研究这些方法及其组合的相对优势。
链接: http://arxiv.org/abs/2503.04293v1
标题: How Do Hackathons Foster Creativity? Towards AI Collaborative Evaluation of Creativity at Scale
作者: Jeanette Falk, Yiyi Chen, Janet Rafner, Mike Zhang, Johannes Bjerva, Alexander Nolte
摘要: 黑客马拉松已成为加速创意和原型开发的流行协作活动。有几个案例研究展示了在工业、教育和研究等领域的创造性成果。然而,目前还没有关于黑客马拉松中创造力的大规模研究,以推进关于黑客马拉松形式如何导致创造性成果的理论。我们对193,353个黑客马拉松项目进行了计算分析。通过将创造力操作化为有用性和新颖性,我们将数据集精炼为10,363个项目,使我们能够分析参与者特征、协作模式和黑客马拉松设置如何影响创造性项目的发展。本文的贡献有两方面:我们确定了组织者促进黑客马拉松创造力的方法。我们还探讨了使用大型语言模型(LLMs)来增强创造性成果评估的挑战和机遇,这对创造力研究具有重要意义。
链接: http://arxiv.org/abs/2503.04290v1
标题: On Fact and Frequency: LLM Responses to Misinformation Expressed with Uncertainty
作者: Yana van de Sande, Gunes Açar, Thabo van Woudenberg, Martha Larson
摘要: 我们研究了LLMs对带有不确定性的错误信息的判断。我们的实验研究了三种广泛使用的LLMs(GPT-4o、LlaMA3、DeepSeek-v2)对已验证为假的错误信息命题的响应,这些命题根据不确定性类型学被转化为不确定的陈述。我们的结果表明,在转化后,LLMs在25%的情况下将其事实核查分类从假改为非假。分析表明,这种变化无法用人类预期敏感的预测因子(即模态、语言线索或论证策略)来解释。例外是信念转化,它使用诸如“据信...”之类的语言线索短语。为了进一步深入了解,我们提示LLMs对转化后的错误信息陈述做出与真值无关的另一个判断。具体来说,我们研究了LLMs对人们做出不确定陈述的频率的估计。我们发现事实判断与频率估计之间存在微小但显著的相关性。
链接: http://arxiv.org/abs/2503.04271v1
标题: Prompt Programming: A Platform for Dialogue-based Computational Problem Solving with Generative AI Models
作者: Victor-Alexandru Pădurean, Paul Denny, Alkis Gotovos, Adish Singla
摘要: 计算学生越来越依赖生成式AI工具来获得编程帮助,通常没有正式的指导或指导。这凸显了需要教会学生如何通过自然语言提示与AI模型有效互动,以生成和批判性评估代码来解决计算任务。为了解决这个问题,我们开发了一个新颖的提示编程平台,支持基于对话的真实互动,支持涉及多个相互依赖函数的问题,并提供按需执行生成的代码。对900多名编程入门课程学生的数据分析显示,参与度很高,大多数提示发生在多轮对话中。具有多个相互依赖函数的问题鼓励了迭代改进,进展图突出了几种常见策略。学生对选择测试的代码非常挑剔,这表明按需执行生成的代码促进了批判性思维。鉴于学习基于对话的AI编程的重要性日益增加,我们将此工具作为公开资源提供,并附有用于教育用途的编程问题语料库。
链接: http://arxiv.org/abs/2503.04267v1
标题: An Egocentric Vision-Language Model based Portable Real-time Smart Assistant
作者: Yifei Huang, Jilan Xu, Baoqi Pei, Yuping He, Guo Chen, Mingfang Zhang, Lijin Yang, Zheng Nie, Jinyao Liu, Guoshun Fan, Dechen Lin, Fang Fang, Kunpeng Li, Chang Yuan, Xinyuan Chen, Yaohui Wang, Yali Wang, Yu Qiao, Limin Wang
摘要: 我们介绍了Vinci,一种基于视觉语言系统的便携式实时智能助手。Vinci的核心是EgoVideo-VL,这是一种将自我中心视觉基础模型与大型语言模型(LLM)集成的新模型,实现了场景理解、时间定位、视频摘要和未来规划等高级功能。为了增强其实用性,Vinci集成了一个用于实时处理长视频流并保留上下文历史的内存模块,一个生成视觉动作演示的生成模块,以及一个桥接自我中心和第三人称视角以提供相关技能获取视频的检索模块。与依赖专用硬件的现有系统不同,Vinci是硬件无关的,支持在智能手机和可穿戴相机等多种设备上部署。在我们的实验中,我们首先展示了EgoVideo-VL在多个公共基准测试中的卓越性能,展示了其视觉语言推理和上下文理解能力。然后,我们进行了一系列用户研究,评估Vinci在现实世界中的有效性,突出了其在多样化场景中的适应性和可用性。我们希望Vinci能够为便携式实时自我中心AI系统建立一个新的框架,为用户提供上下文和可操作的见解。包括前端、后端和模型在内的所有Vinci代码均可在https://github.com/OpenGVLab/vinci获取。
链接: http://arxiv.org/abs/2503.04250v1
标题: Just Roll with It: Exploring the Mitigating Effects of Postural Alignment on Vection-Induced Cybersickness in Virtual Reality Over Time
作者: Charlotte Croucher, Panagiotis Kourtesis, Georgios Papaioannou
摘要: 虚拟现实(VR)中的晕动症仍然是一个重大挑战,限制了其在不同应用中的可用性。现有的缓解策略主要集中在优化VR硬件和/或软件以及增强自我运动感知,以最小化感官冲突。然而,预期姿势适应,这一在驾驶时广泛研究的晕动症缓解策略,尚未在VR中得到系统研究。因此,在本研究中,我们探讨了基于文献的舒适导向姿势运动是否能够缓解晕动症。我们使用累积链接混合模型(CLMM)对来自VR姿势对齐实验的二手数据进行了探索性分析。结果表明,躯干滚动与虚拟轨迹之间的不对齐使报告更高晕动症评分的几率增加了5%。此外,每增加一分钟的VR使用时间,报告更高晕动症评分(FMS评分)的几率增加了11%,但长时间暴露导致报告晕动症症状的几率减少了75%,表明存在适应效应。个体差异也起到了一定作用,较高的晕动症易感性使报告更高症状严重程度的几率增加了8%。这些发现表明,预期姿势适应可以作为晕动症的自然缓解策略。VR应用,特别是在培训和模拟中,可能受益于设计鼓励用户姿势与虚拟运动对齐的适应性提示。未来的研究应探索实时姿势反馈机制,以增强用户舒适度并减少晕动症。
链接: http://arxiv.org/abs/2503.04217v1
标题: Codebook Reduction and Saturation: Novel observations on Inductive Thematic Saturation for Large Language Models and initial coding in Thematic Analysis
作者: Stefano De Paoli, Walter Stan Mathis
摘要: 本文反思了使用大型语言模型(LLMs)进行主题分析的过程。具体来说,本文讨论了LLMs生成的初始代码的分析饱和问题。主题分析是一种由相互关联的阶段组成的成熟的定性分析方法。一个关键阶段是初始编码,分析人员为数据集的离散部分分配标签。饱和是衡量定性分析有效性的一种方式,与初始代码的重复和再现有关。在本文中,我们反思了LLMs在实现分析饱和方面的表现,并提出了一种使用DSPy编程框架测量归纳主题饱和(ITS)的新技术。这种新方法允许精确测量ITS。
链接: http://arxiv.org/abs/2503.04859v1
标题: Personalized Emotion Detection from Floor Vibrations Induced by Footsteps
作者: Yuyan Wu, Yiwen Dong, Sumer Vaid, Gabriella M. Harari, Hae Young Noh
摘要: 情绪识别对于早期发现心理健康障碍和基于情绪的智能家居系统等各种应用至关重要。先前的研究使用了多种传感方法进行情绪识别,如可穿戴传感器、摄像头和麦克风。然而,这些方法在长期家庭使用中存在侵入性和隐私问题等限制。为了克服这些限制,本文介绍了一种非侵入性和隐私友好的个性化情绪识别系统EmotionVibe,它利用脚步声引起的地板振动进行情绪识别。EmotionVibe的主要思想是,个体的情绪状态会影响其步态模式,进而影响其脚步声引起的地板振动。然而,存在两个主要研究挑战:1)人类情绪与脚步声引起的地板振动之间复杂且间接的关系;2)情绪与步态模式之间关系的个体间差异较大。为了解决这些挑战,我们首先通过实验表征了这种复杂关系,并从脚步声引起的地板振动中开发了一组情绪敏感特征,包括步态相关和振动相关特征。此外,我们通过计算目标人(即我们旨在识别其情绪的人)与训练数据集中人的步态相似性,并为具有相似步态模式的训练人在损失函数中分配更大的权重,从而个性化情绪识别系统。我们在20名参与者的真实步行实验中评估了我们的系统,共收集了37,001个脚步声样本。EmotionVibe在效价和唤醒分数估计中的平均绝对误差(MAE)分别为1.11和1.07,与基线方法相比,误差分别减少了19.0%和25.7%。
链接: http://arxiv.org/abs/2503.04190v1
标题: Unseen Fake News Detection Through Casual Debiasing
作者: Shuzhi Gong, Richard Sinnott, Jianzhong Qi, Cecile Paris
摘要: 社交媒体上虚假新闻的广泛传播带来了重大风险,需要及时准确的检测。然而,现有方法在处理未见过的新闻时表现不佳,因为它们依赖于过去事件和领域的训练数据,使得检测新型虚假新闻的挑战基本未解决。为了解决这个问题,我们识别了与特定领域相关的训练数据中的偏见,并提出了一种去偏见解决方案FNDCD。源自因果分析,FNDCD采用基于分类置信度和传播结构正则化的重新加权策略,以减少领域特定偏见的影响,增强对未见过的虚假新闻的检测。在具有非重叠新闻领域的真实世界数据集上的实验证明了FNDCD在跨领域泛化方面的有效性。
链接: http://arxiv.org/abs/2503.04160v1
标题: Organize, Then Vote: Exploring Cognitive Load in Quadratic Survey Interfaces
作者: Ti-Chung Cheng, Yutong Zhang, Yi-Hung Chou, Vinay Koshy, Tiffany Wenting Li, Karrie Karahalios, Hari Sundaram
摘要: 二次调查(QSs)比传统的Likert量表调查等方法更能准确获取偏好。然而,QSs的认知负荷阻碍了其在数字调查中的采用,用于集体决策。我们引入了一种两阶段的“组织-然后投票”QS,以减少认知负荷。由于界面设计显著影响调查结果和准确性,我们的设计在管理QS带来的认知负荷的同时,为调查参与者的决策提供了支架。在一项关于公共资源分配的2x2被试间实验室研究中,我们将我们的界面与传统的文本界面进行了比较,分别在6个(短)和24个(长)选项的QS中进行。两阶段界面的参与者在每个选项上花费了更多时间,并表现出更短的投票编辑距离。我们定性地观察到认知努力从机械操作转向构建更全面的偏好。我们得出结论,该界面促进了更深入的参与,可能减少了在较长QS中由于认知超载导致的满意行为。这项研究阐明了以人为本的设计如何改进偏好获取工具,用于集体决策。
链接: http://arxiv.org/abs/2503.04114v1
标题: InterChat: Enhancing Generative Visual Analytics using Multimodal Interactions
作者: Juntong Chen, Jiang Wu, Jiajing Guo, Vikram Mohanty, Xueming Li, Jorge Piazentin Ono, Wenbin He, Liu Ren, Dongyu Liu
摘要: 大型语言模型(LLMs)和生成式视觉分析系统的兴起改变了数据驱动的洞察力,但在准确解释用户的分析和交互意图方面仍存在重大挑战。虽然语言输入提供了灵活性,但它们通常缺乏精确性,使得复杂意图的表达效率低下、容易出错且耗时。为了解决这些限制,我们通过文献综述和试点头脑风暴会议,探讨了生成式视觉分析中多模态交互的设计空间。基于这些见解,我们引入了一个高度可扩展的工作流程,该流程集成了多个LLM代理用于意图推理和可视化生成。我们开发了InterChat,一个生成式视觉分析系统,结合了视觉元素的直接操作和自然语言输入。这种集成实现了精确的意图传达,并支持逐步的、视觉驱动的探索性数据分析。通过有效的提示工程和上下文交互链接,以及直观的可视化和交互设计,InterChat弥合了用户交互与LLM驱动的可视化之间的差距,增强了可解释性和可用性。广泛的评估,包括两个使用场景、一项用户研究和专家反馈,证明了InterChat的有效性。结果显示,在处理复杂的视觉分析任务时,准确性和效率显著提高,突显了多模态交互在重新定义生成式视觉分析中用户参与和分析深度的潜力。
链接: http://arxiv.org/abs/2503.04110v1
标题: Compositional Structures as Substrates for Human-AI Co-creation Environment: A Design Approach and A Case Study
作者: Yining Cao, Yiyi Huang, Anh Truong, Hijung Valentina Shin, Haijun Xia
摘要: 人们越来越认识到,有效的人机共创不仅需要提示和结果,还需要一个赋予探索、规划、迭代以及AI生成控制和检查能力的结构化环境。然而,尚未建立一种具体的设计方法来实现这种环境。我们的文献分析强调,组合结构——将单个元素组织和可视化为有意义的整体——在赋予创作者对其内容关键方面的控制方面非常有效。然而,有效地聚合和连接这些结构以支持整个创作过程仍然具有挑战性。因此,我们提出了一种设计方法,即利用组合结构作为基础,并在这些结构内和跨结构注入AI,以实现受控和流畅的创作过程。我们通过一个使用该方法的视频共创环境开发案例研究来评估这一方法。用户评估表明,这种环境使用户能够在创作活动中保持方向感,保持对AI生成的意识和控制,并实现灵活的人机协作工作流程。
链接: http://arxiv.org/abs/2503.04103v1
标题: Generative and Malleable User Interfaces with Generative and Evolving Task-Driven Data Model
作者: Yining Cao, Peiling Jiang, Haijun Xia
摘要: 与静态和僵化的用户界面不同,生成式和可塑性的用户界面提供了响应用户多样目标和任务的潜力。然而,当前的方法主要依赖于生成代码,这使得最终用户难以根据其不断变化的需求迭代调整生成的界面。我们提出使用任务驱动的数据模型——表示信息任务中的关键信息实体、关系和数据——作为UI生成的基础。我们利用AI解释用户的提示并生成描述用户预期任务的数据模型,并通过将数据模型与UI规范映射,创建生成式用户界面。最终用户可以通过自然语言和直接操作轻松修改和扩展界面,这些交互被转化为底层模型的更改。我们对该方法的技术评估和开发系统的用户评估证明了所提出的生成式和可塑性UI的可行性和有效性。
链接: http://arxiv.org/abs/2503.04084v1
标题: Analyzing the Impact of Augmented Reality Head-Mounted Displays on Workers' Safety and Situational Awareness in Hazardous Industrial Settings
作者: Graciela Camacho-Fidalgo, Blain Judkins, Kylee Friederichs, Lara Soberanis, Vicente Hernandez, Kevin McSweeney, Freddie Witherden, Edgar Rojas-Muñoz
摘要: 增强现实头戴显示器(AR-HMDs)已被证明在协助工人方面有效。然而,它们可能会降低工人的安全性和情境意识(SSA),特别是在复杂和危险的工业环境中。本文客观和主观地分析了AR-HMDs在模拟危险工业环境中对工人SSA的影响。我们的评估包括60名参与者在模拟货船房间中执行各种任务,同时通过三种设备之一接收远程指导:两种现成的AR-HMDs(Trimble XR10 with HoloLens 2、RealWear Navigator 520)和智能手机(Google Pixel 6)。房间内安装了多个传感器,以获取参与者安全执行任务的定量测量,例如他们击中房间内物体的频率或踩踏模拟孔洞或油污的频率。结果显示,与Navigator 520和Pixel 6相比,Trimble XR10导致的头部和膝盖撞击事件显著更多。此外,Trimble XR10在穿过舱门时的困难显著更高,感知安全性、舒适性、感知性能和可用性显著更低。总体而言,佩戴AR-HMDs的参与者未能感知更多危险,这意味着在将AR-HMDs引入危险工业环境之前,必须开发安全保护功能。
链接: http://arxiv.org/abs/2503.04075v1
标题: Uncovering inequalities in new knowledge learning by large language models across different languages
作者: Chenglong Wang, Haoyu Tang, Xiyuan Yang, Yueqi Xie, Jina Suh, Sunayana Sitaram, Junming Huang, Yu Xie, Zhaoya Gong, Xing Xie, Fangzhao Wu
摘要: 随着大型语言模型(LLMs)逐渐成为全球日常生活中解决问题的不可或缺的工具,理解语言不平等变得越来越重要。现有研究主要集中在静态分析上,评估LLMs在不同语言中现有知识和能力的差异。然而,LLMs正在不断发展,获取新知识以生成最新的、特定领域的响应。因此,研究这一动态过程中的语言不平等也至关重要。在本文中,我们探讨了LLMs在不同语言中新知识学习的不平等性,并从四个关键维度进行分析:有效性、可迁移性、优先级和鲁棒性。通过在一系列实验中使用上下文学习和微调两种设置,并结合专有和开源模型,我们证明了低资源语言在四个维度上始终处于劣势。通过揭示这些不平等现象,我们旨在提高对LLMs新知识学习中语言不平等的认识,促进未来开发更具包容性和公平性的LLMs。
链接: http://arxiv.org/abs/2503.04064v1
标题: An Approximate-Master-Equation Formulation of the Watts Threshold Model on Hypergraphs
作者: Leah A. Keating, Kwang-Il Goh, Mason A. Porter
摘要: 在传统的行为或意见动态模型中,研究人员假设所有互动都发生在个体之间。然而,在现实中,社交互动也发生在三个或更多个体的群体中。引入这种多元互动的一种常见方法是研究超图上的动态过程。在超图中,互动可以发生在网络中的任意数量的个体之间。Watts阈值模型(WTM)是一个著名的简化社会传播模型。最近,Chen等人将WTM从二元网络(即图)扩展到多元网络(即超图)。在本文中,我们使用近似主方程(AMEs)将他们的离散时间模型扩展到连续时间。通过使用AMEs,我们能够以极高的精度建模系统。然后,我们将高维AME系统简化为三个耦合的微分方程,而没有任何可检测的精度损失。这个低维系统在数值求解上更高效,也更容易解释。我们线性化了简化的AME系统,并计算了级联条件,使我们能够确定何时发生大规模传播事件。然后,我们将我们的模型应用于法国一所小学的社交接触网络和一个计算机科学合著者超图。我们发现,AME系统在建模这些实证网络上的多元WTM时是准确的;然而,我们预计未来的工作将把附近节点和群体之间的结构相关性纳入动态模型,从而为现实世界网络提供更准确的理论。
链接: http://arxiv.org/abs/2503.04020v1
标题: ReasonGraph: Visualisation of Reasoning Paths
作者: Zongqian Li, Ehsan Shareghi, Nigel Collier
摘要: 大型语言模型(LLMs)的推理过程由于其复杂性以及缺乏组织化的可视化工具而难以分析。我们提出了ReasonGraph,一个基于Web的平台,用于可视化和分析LLM的推理过程。它支持顺序和树状推理方法,同时与主要的LLM提供商和五十多个最先进的模型集成。ReasonGraph结合了直观的用户界面,包括元推理方法选择、可配置的可视化参数和一个模块化框架,便于高效扩展。我们的评估显示了高解析可靠性、高效处理和在不同下游应用中的强大可用性。通过提供统一的可视化框架,ReasonGraph减少了分析复杂推理路径的认知负荷,改进了逻辑过程中的错误检测,并使得基于LLM的应用开发更加有效。该平台是开源的,促进了LLM推理分析的可访问性和可重复性。
链接: http://arxiv.org/abs/2503.03979v1
标题: Enhancing Collective Intelligence in Large Language Models Through Emotional Integration
作者: Likith Kadiyala, Ramteja Sajja, Yusuf Sermet, Ibrahim Demir
摘要: 本研究探讨了将情感多样性融入大型语言模型(LLMs)以增强集体智能的可能性。受人类群体智慧现象的启发,即群体决策通常优于个人判断,我们使用Google的GoEmotions数据集和低秩适应(LoRA)对DarkIdol-Llama-3.1-8B模型进行微调,以模拟情感多样性的响应。我们在15,064个独特人物配置下评估了模型在Fargo, ND和Seattle, WA之间距离估计任务中的表现,分析了情感状态和社会属性如何影响决策。我们的研究结果表明,情感融入塑造了响应模式,同时保持了可接受的预测准确性,揭示了其在增强人工集体智能方面的潜力。这项研究为LLMs中情感多样性与决策之间的相互作用提供了有价值的见解,为创建情感感知的AI系统提供了路径,这些系统在情感深度与分析精度之间取得平衡。
链接: http://arxiv.org/abs/2503.04849v1
标题: Preliminary Report: Enhancing Role Differentiation in Conversational HCI Through Chromostereopsis
作者: Matteo Grella
摘要: 我们提出利用色立体视效应(一种通过颜色对比诱导深度感知的感知现象)作为在基于文本的AI界面中视觉区分对话角色的新方法。该方法旨在隐式传达角色层次结构,并增加物理空间的微妙感。
链接: http://arxiv.org/abs/2503.03968v1
标题: Model Behavior Specification by Leveraging LLM Self-Playing and Self-Improving
作者: Soya Park, J. D. Zamfirescu-Pereira, Chinmay Kulkarni
摘要: 训练AI模型具有挑战性,尤其是在制定行为指令时。传统方法依赖于机器(监督学习)或手动模式发现,这导致模型不可解释或耗时。虽然大型语言模型(LLMs)通过自然语言简化了指令编写,但表达预期的模型行为仍然困难。我们引入了Visionary Tuning,一种人机交互的自我游戏和自我改进方法,以改进行为规范。我们的系统通过自我游戏帮助用户澄清期望行为,并通过自我改进生成提示。我们的首次评估是在聊天机器人行为背景下进行的用户研究。我们的系统通过模拟用户互动进行自我游戏,以识别模式并基于模式创建有效提示。在一项被试内研究(N=12)中,参与者通过自我游戏识别了更多模式,并生成了更好的提示。出乎意料的是,用户在指定模型行为时的成功感并未显著提高。后续的众包研究(N=60)证实,聊天机器人遵守指令而不会牺牲质量。我们的第二次评估是对电影评分数据集的案例研究,展示了Visionary Tuning在建模评论家偏好方面的有效性和鲁棒性。这些结果表明,AI如何改进交互式AI系统的设计过程。此外,这些工具的好处对最终用户来说可能并不明显。我们反思了这些发现,并提出了未来的研究方向。
链接: http://arxiv.org/abs/2503.03967v1
标题: Dyads: Artist-Centric, AI-Generated Dance Duets
作者: Zixuan Wang, Luis Zerkowski, Ilya Vidrin, Mariel Pettee
摘要: 现有的AI生成舞蹈方法主要基于单人舞蹈表演的运动捕捉数据进行训练,但几乎所有舞蹈类型的一个关键特征是两个或更多身体在空间中的互动。此外,许多AI与舞蹈交叉领域的工作未能将艺术家的想法和需求纳入开发过程,导致生成的模型对AI社区比舞蹈社区更有用。这项工作通过提出一种AI方法来模拟舞者之间的复杂互动,并详细说明技术方法如何通过与策划运动数据的艺术利益相关者的持续共创来塑造,解决了这两个需求。我们的模型是一个基于概率和注意力的变分自编码器,生成一个基于输入舞蹈序列的编舞伙伴。我们构建了一个自定义损失函数,以增强生成编舞的平滑性和连贯性。我们的代码是开源的,我们还记录了其他跨学科研究团队促进艺术家和技术人员之间合作和强沟通的策略。
链接: http://arxiv.org/abs/2503.03954v1
标题: GeoDEN: A Visual Exploration Tool for Analysing the Geographic Spread of Dengue Serotypes
作者: Aidan Marler, Yannik Roell, Steffen Knoblauch, Jane P. Messina, Thomas Jaenisch, Morteza Karimzadeh
摘要: 静态地图和动画在登革热的空间流行病学中仍然很流行,限制了可视化的分析深度和范围。全球超过一半的人口生活在登革热流行地区。理解四种密切相关的登革热血清型的时空动态及其免疫相互作用,在全球化尺度上仍然是一个挑战。为了促进这一理解,我们与登革热流行病学家在用户中心设计框架下合作,创建了GeoDEN,一个探索性可视化工具,使专家能够调查登革热血清型报告的时空模式。该工具具有多个链接的可视化和过滤机制,支持在空间和时间尺度上的分析。为了识别成功和失败,我们进行了基于洞察力和价值的评估。我们的领域专家发现GeoDEN很有价值,验证了现有假设,并揭示了流行病学社区值得进一步研究的新见解。开发的视觉探索方法可以适用于探索其他流行病学和疾病事件数据集。
链接: http://arxiv.org/abs/2503.03953v1
标题: Reflecting on Potentials for Post-Growth Social Media Platform Design
作者: Joseph S. Schafer
摘要: 社交媒体上的突然关注以及用户如何应对这些情境变化,一直是社交媒体研究的重点。即使这种关注并非骚扰,一些用户也会感受到这种突然增长的压力。在本研讨会论文中,我概述了增长如何渗透到现代社交媒体平台的设计中,并探讨了将后增长视角应用于平台设计的潜在价值。
链接: http://arxiv.org/abs/2503.03939v1
标题: "Impressively Scary:" Exploring User Perceptions and Reactions to Unraveling Machine Learning Models in Social Media Applications
作者: Jack West, Bengisu Cagiltay, Shirley Zhang, Jingjie Li, Kassem Fawaz, Suman Banerjee
摘要: 部署在社交媒体应用本地的机器学习模型用于诸如实时读取人脸的面部滤镜等功能,这些功能会向应用暴露敏感属性。然而,社交媒体应用中机器学习模型的部署(例如,何时、何地以及如何使用)对用户来说是不透明的。我们旨在解决这种不一致性,并研究用户在了解这些模型后,其感知和行为如何变化。我们进行了用户研究(N=21),发现参与者对Instagram和TikTok这两个主要社交媒体平台中模型输出内容以及模型何时使用均不了解。在暴露于模型功能后,我们观察到8名参与者出现了长期行为变化。我们的分析揭示了为与本地用户数据交互的机器学习模型提供透明性的挑战和机遇。
链接: http://arxiv.org/abs/2503.03927v1
标题: De-skilling, Cognitive Offloading, and Misplaced Responsibilities: Potential Ironies of AI-Assisted Design
作者: Prakash Shukla, Phuong Bui, Sean S Levy, Max Kowalski, Ali Baigelenov, Paul Parsons
摘要: 生成式AI(GenAI)在设计中的快速采用引发了关于其益处和意外后果的讨论。虽然AI通常被视为通过自动化常规任务来提升生产力的工具,但历史研究表明自动化可能带来诸如技能退化和责任错位等矛盾效应。为了评估用户体验(UX)从业者对AI的看法,我们分析了来自UX相关子论坛的120多篇文章和讨论。我们的研究结果表明,尽管从业者对AI减少重复性工作和增强创造力表示乐观,但他们也表达了对过度依赖、认知卸载以及关键设计技能退化的担忧。借鉴人机交互文献,我们讨论了这些观点如何与已记录的自动化矛盾效应和功能分配挑战相一致。我们主张,UX从业者应批判性地评估AI的作用,超越即时生产力提升,考虑其对创造自主性和专业技能的长期影响。本研究为从业者的观点提供了实证见解,并将其与设计领域自动化的广泛辩论联系起来。
链接: http://arxiv.org/abs/2503.03924v1
标题: Are Cognitive Biases as Important as they Seem for Data Visualization?
作者: Ali Baigelenov, Prakash Shukla, Zixu Zhang, Paul Parsons
摘要: 近年来,认知偏差和启发式方法在可视化文献中的研究日益流行。研究人员研究了偏差对可视化解释和后续决策的影响。尽管这项工作很重要,但我们认为关于偏差的观点以不平衡的方式呈现了人类的认知能力,过于强调人类决策的缺陷和局限性,并可能暗示其不应被信任。一些决策研究人员认为,偏差的另一面——即心理捷径或启发式方法——展示了人类的智慧,并作为适应性专业知识的核心标志。在本文中,我们回顾了可视化社区对偏差的观点和情感,并描述了主张更平衡看待偏差和启发式方法的文献。我们希望本文能鼓励可视化研究人员在复杂环境中考虑人类认知局限性和决策策略的更全面图景。
链接: http://arxiv.org/abs/2503.03852v1
标题: A Bridge to Nowhere: A Healthcare Case Study for Non-Reformist Design
作者: Linda Huber
摘要: 面对公共部门行业中数据化和自动化的加剧,设计正义和拒绝的女权主义实践等框架有助于识别和减轻结构性伤害,并挑战数字化基础设施中再现的不平等。本文将这些框架应用于美国医疗保健行业中自动化预先授权的新兴努力——这一过程是保险公司在同意支付之前确定治疗或服务是否“医疗必要”的过程。联邦监管干预转向数据化和自动化,以减少这一广不受欢迎的过程带来的伤害,该过程已被证明会延迟关键治疗,并为医疗提供者和患者带来巨大的行政负担。本文以新兴的预先授权改革为案例研究,应用设计正义和拒绝的框架,强调以改善提取系统用户体验为导向的干预措施的固有保守性。我们进一步探讨了非改革主义改革的废除主义框架如何帮助澄清替代干预措施,这些措施将以不复制或扩展保险公司权力的方式减轻预先授权的伤害。我们提出了非改革主义设计的四项原则,以减轻结构性伤害,并在广泛领域中推进设计正义。
链接: http://arxiv.org/abs/2503.03849v1
标题: The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems
作者: Richard Ren, Arunim Agarwal, Mantas Mazeika, Cristina Menghini, Robert Vacareanu, Brad Kenstler, Mick Yang, Isabelle Barrass, Alice Gatti, Xuwang Yin, Eduardo Trevino, Matias Geralnik, Adam Khoja, Dean Lee, Summer Yue, Dan Hendrycks
摘要: 随着大型语言模型(LLMs)变得更有能力和自主性,对其输出可信度的要求显著增加,但与此同时,人们越来越担心模型可能为了追求目标而学会撒谎。为了解决这些问题,围绕LLMs“诚实性”的研究已经出现,并提出了旨在减少欺骗行为的干预措施。然而,目前的诚实性评估非常有限,缺乏大规模且适用于所有模型的基准。此外,许多声称衡量诚实性的基准实际上只是以准确性(模型信念的正确性)为伪装。在这项工作中,我们引入了一个大规模人类收集的数据集,用于直接衡量诚实性,首次将准确性与诚实性区分开来。在一组多样化的LLMs中,我们发现,尽管更大的模型在我们的基准上获得了更高的准确性,但它们并没有变得更诚实。令人惊讶的是,尽管大多数前沿LLMs在真实性基准上得分较高,但我们发现前沿LLMs在被施压时有明显的撒谎倾向,导致在我们的基准上诚实性得分较低。我们发现,简单的方法(如表示工程干预)可以提高诚实性。这些结果强调了迫切需要稳健的评估和有效的干预措施,以确保LLMs保持可信性。
链接: http://arxiv.org/abs/2503.03750v1
标题: Optimal Policy Design for Repeated Decision-Making under Social Influence
作者: Chiara Ravazzi, Valentina Breschi, Paolo Frasca, Fabrizio Dabbene, Mara Tanelli
摘要: 在本文中,我们提出了一种新模型来描述重复决策场景中的个体倾向,目标是设计基于模型的控制策略,以在社会和外部影响下促进良性选择。我们的方法建立在经典的Friedkin和Johnsen社会影响模型基础上,扩展了随机因素(例如个体需求的固有变异性)和可控的外部输入。我们明确考虑了塑造意见动态的两个过程之间的时间分离:个体决策和社会模仿。虽然个体决策以规律且频繁的间隔发生,但社会模仿的影响在较长时间内展开。随机因素的引入自然导致了动态行为在经典意义上不收敛。然而,在特定条件下,我们证明了意见表现出遍历行为。基于这一结果,我们提出了一个约束的渐近最优控制问题,旨在在网络中平均促进目标行为的社会接受度。为了应对意见的瞬态动态,我们将此问题重新表述为模型预测控制(MPC)框架。模拟结果强调了在引导个体做出良性选择的同时管理政策成本时,考虑这些瞬态效应的重要性。
链接: http://arxiv.org/abs/2503.03657v1
标题: Facilitating Asynchronous Idea Generation and Selection with Chatbots
作者: Joongi Shin, Ankit Khatri, Michael A. Hedderich, Andrés Lucero, Antti Oulasvirta
摘要: 人们可以通过相互借鉴想法来生成高质量的想法。通过让个人在自己舒适的时间和方法中贡献想法(即异步创意生成),他们可以深入参与创意生成并提高想法质量。然而,运行异步创意生成面临一个实际限制。虽然需要训练有素的人类引导者来指导有效的想法交流,但他们无法持续与不同时间加入的个体互动。在本文中,我们探讨了如何设计聊天机器人来促进异步创意生成。为此,我们采用了文献中关于人类引导者的指导方针,并设计了两种聊天机器人:一种提供结构化的创意生成过程,另一种根据个人的创意表现调整创意生成过程。我们邀请了48名参与者与其中一种聊天机器人互动生成和选择想法,并邀请了一位专家引导者审查我们的聊天机器人。我们发现,两种聊天机器人都能引导用户相互借鉴想法,并将其收敛为少数令人满意的想法。然而,我们也发现了聊天机器人在与协作者社交互动方面的局限性,这是只有人类引导者才能提供的。因此,我们得出结论,聊天机器人可以成为异步创意生成的有前景的引导者,但需要与人类引导者进行混合引导,以解决协作创意生成中的社交方面问题。
链接: http://arxiv.org/abs/2503.03617v1
标题: Decoupled Recommender Systems: Exploring Alternative Recommender Ecosystem Designs
作者: Anas Buhayh, Elizabeth McKinnie, Robin Burke
摘要: 推荐系统生态系统是一个新兴的研究主题。此类研究探讨了算法、推荐消费者和项目提供者的特征如何影响系统动态和长期结果。在这一研究领域中,尚未广泛探索的一种架构可能性是推荐算法与它们所服务的平台解耦的配置。这有时被称为“友好邻居算法商店”或“中间件”模型。我们特别感兴趣的是,这种架构如何在消费者、提供者和推荐平台之间提供不同的效用分配。在本文中,我们创建了一个包含算法选择的推荐生态系统模型,并研究了这种设计的结果。
链接: http://arxiv.org/abs/2503.03606v2
标题: "You don't need a university degree to comprehend data protection this way": LLM-Powered Interactive Privacy Policy Assessment
作者: Vincent Freiberger, Arthur Fleig, Erik Buchmann
摘要: 保护在线隐私要求用户参与并理解网站隐私政策,但许多政策难以阅读且枯燥乏味。我们提出了首个关于大型语言模型(LLM)驱动的隐私政策评估的定性用户研究。为此,我们构建并评估了一个基于LLM的隐私政策评估浏览器扩展,该扩展帮助用户在浏览时理解冗长复杂的隐私政策的要点。该工具集成了仪表板和LLM聊天功能。在我们的定性用户研究(N=22)中,我们评估了工具的可用性、提供信息的可理解性及其对隐私意识的影响。虽然提供可理解的快速概览和深入讨论的聊天功能提高了隐私意识,但用户指出在建立对工具的信任方面存在问题。根据我们的见解,我们得出了重要的设计启示,以指导未来的政策分析工具。
链接: http://arxiv.org/abs/2503.03587v1
标题: Towards an Emotion-Aware Metaverse: A Human-Centric Shipboard Fire Drill Simulator
作者: Musaab H. Hamed-Ahmed, Diego Ramil-López, Paula Fraga-Lamas, Tiago M. Fernández-Caramés
摘要: 传统的XR和元宇宙应用优先考虑用户体验(UX)以实现采用和成功,但往往忽略了用户互动的一个关键方面:情感。本文通过提出一种情感感知的元宇宙应用来填补这一空白:一种虚拟现实(VR)消防演习模拟器,旨在为船员准备船舶紧急情况。该模拟器实时检测情感,评估学员在压力下的反应,以提高学习效果。其架构结合了通过Meta Quest Pro头显进行的眼动追踪和面部表情分析。该系统分为四个难度级别,逐步增加难度以评估用户决策和情感韧性。该系统在两个实验阶段进行了评估。第一阶段识别了挑战,例如导航问题和缺乏视觉引导。这些见解促使我们改进了第二个版本,提供了更好的用户界面、视觉提示和实时任务跟踪器。分析了完成时间、任务效率和情感反应等性能指标。获得的结果显示,具有VR或游戏经验的学员在场景中导航更高效。此外,任务跟踪视觉和导航引导的加入显著提高了用户性能,任务完成时间减少了14.18%至32.72%。情感反应被捕捉到,揭示了一些参与者表现出投入,而其他人则表现得漠不关心,这表明需要更多沉浸式元素。总体而言,本文为创建下一代情感感知元宇宙应用提供了有用的指导。
链接: http://arxiv.org/abs/2503.03570v1
标题: AI-Enabled Conversational Journaling for Advancing Parkinson's Disease Symptom Tracking
作者: Mashrur Rashik, Shilpa Sweth, Nishtha Agrawal, Saiyyam Kochar, Kara M Smith, Fateme Rajabiyazdi, Vidya Setlur, Narges Mahyar, Ali Sarvghad
摘要: 日志记录在管理慢性病中起着至关重要的作用,它允许患者记录症状和药物摄入,为长期护理提供必要的数据。虽然有价值,但传统的日志记录方法通常依赖于静态的、自我导向的记录,缺乏互动反馈和实时指导。这一差距可能导致信息不完整或不精确,限制了其在有效治疗中的实用性。为了解决这一差距,我们引入了PATRIKA,一个专门为帕金森病患者(PwPD)设计的AI支持的原型。该系统结合了协作对话原则、临床访谈模拟和个性化,以创建更有效和用户友好的日志记录体验。通过两项与PwPD的用户研究和PATRIKA的迭代改进,我们展示了对话式日志记录在患者参与和收集临床有价值信息方面的显著潜力。我们的结果表明,生成探针问题的PATRIKA将日志记录转变为双向互动。此外,我们为设计医疗保健日志记录系统提供了见解,并为促进持续日志记录提供了未来方向。
链接: http://arxiv.org/abs/2503.03532v1
标题: Higher Stakes, Healthier Trust? An Application-Grounded Approach to Assessing Healthy Trust in High-Stakes Human-AI Collaboration
作者: David S. Johnson
摘要: 人机协作日益被推广以改善高风险的决策,但其益处尚未完全实现。需要基于应用的评估来更好地评估改进协作的方法,但这些评估通常需要领域专家,使得研究成本高昂且限制了其普遍性。当前的评估方法受限于有限的公共数据集和对代理任务的依赖。为了解决这些挑战,我们提出了一个基于应用的框架,用于大规模在线评估基于视觉的决策任务。该框架引入了Blockies,一种生成模拟诊断任务数据集的参数化方法,提供了对用于训练现实世界模型的数据特征和偏见的控制。这些任务设计为易于学习但难以掌握,使得非专家也能参与。该框架还结合了故事叙述和货币激励来操纵感知任务的风险。一项初步实证研究表明,高风险条件显著减少了健康的AI不信任,尽管决策时间更长。这些发现强调了感知风险在培养健康不信任中的重要性,并展示了该框架在可扩展评估高风险人机协作中的潜力。
链接: http://arxiv.org/abs/2503.03529v1
标题: Topo Goes Political: TDA-Based Controversy Detection in Imbalanced Reddit Political Data
作者: Arvindh Arun, Karuna K Chandra, Akshit Sinha, Balakumar Velayutham, Jashn Arora, Manish Jain, Ponnurangam Kumaraguru
摘要: 在互联网上检测政治讨论中的争议内容对于维护健康的数字话语至关重要。与许多依赖合成平衡数据的现有文献不同,我们的工作保留了争议和非争议帖子的自然分布。这种现实世界的不平衡突显了在实际部署中需要解决的核心挑战。我们的研究重新评估了检测争议内容的成熟方法。我们策划了一个专注于印度政治背景的数据集,该数据集保留了争议内容的自然分布,其中只有12.9%的帖子是争议性的。这种差异反映了现实世界政治讨论中的真实不平衡,并突显了现有评估方法的关键局限性。在对数据不平衡建模的数据集上进行基准测试对于确保现实世界的适用性至关重要。因此,在这项工作中,(i)我们发布了我们的数据集,强调类不平衡,专注于印度政治背景,(ii)我们评估了该领域现有方法在该数据集上的表现,并展示了它们在不平衡设置中的局限性,(iii)我们引入了一种直观的指标来衡量模型对类不平衡的鲁棒性,(iv)我们还结合了拓扑数据分析(TDA)领域的思想,特别是持久同调,以策划提供数据更丰富表示的特征。此外,我们使用拓扑特征训练的模型对现有基线进行了基准测试。
链接: http://arxiv.org/abs/2503.03500v1
标题: Open-Source Large Language Models as Multilingual Crowdworkers: Synthesizing Open-Domain Dialogues in Several Languages With No Examples in Targets and No Machine Translation
作者: Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefèvre
摘要: 开放领域对话代理的现有范式主要集中在英语上,涵盖了模型和数据集。此外,为微调此类数据集进行众包所需的财务和时间投入是巨大的,特别是在涉及多种语言时。幸运的是,大型语言模型(LLMs)的进展揭示了跨多种任务的可能性。具体来说,指令微调使LLMs能够根据自然语言指令执行任务,有时甚至超越了人类众包工作者的表现。此外,这些模型能够在单一线程中处理多种语言。因此,为了生成不同语言的新样本,我们建议利用这些能力来复制数据收集过程。我们引入了一个管道,用于使用LLMs生成多种目标语言的开放领域对话数据,并在独特的源语言中提供演示。通过在这种方法中避免显式的机器翻译,我们增强了对语言特定细微差别的遵循。我们将此方法应用于PersonaChat数据集。为了增强生成对话的开放性并模仿现实生活场景,我们添加了与对话类型对应的言语事件概念,以及代表对话前提的共同点概念。
链接: http://arxiv.org/abs/2503.03462v1
标题: Biased Heritage: How Datasets Shape Models in Facial Expression Recognition
作者: Iris Dominguez-Catena, Daniel Paternain, Mikel Galar, MaryBeth Defrance, Maarten Buyl, Tijl De Bie
摘要: 近年来,人工智能(AI)系统的快速发展引发了关于我们能否确保其公平性的担忧,即如何避免基于受保护特征(如性别、种族或年龄)的歧视。虽然算法公平性在简单二元分类任务和表格数据上得到了充分研究,但其在复杂现实世界场景(如面部表情识别(FER))中的应用仍未被充分探索。FER提出了独特的挑战:它本质上是多类别的,并且偏见在交叉人口变量中出现,每个变量可能包含多个受保护群体。我们提出了一个全面的框架来分析从数据集到训练模型的偏见传播,同时引入了专门为多类别问题和多人口群体设计的新偏见指标。我们的方法通过(1)在FER数据集中诱导受
控的偏见,(2)在这些偏见数据集上训练模型,以及(3)分析数据集偏见指标与模型公平性概念之间的相关性,来研究偏见的传播。我们的研究结果表明,刻板印象偏见比代表性偏见更强烈地传播到模型预测中,这表明在FER数据集中,防止特定情绪的人口模式应优先于一般人口平衡。此外,我们观察到,偏见数据集会导致模型准确性下降,挑战了公平性与准确性之间的假设权衡。
链接: http://arxiv.org/abs/2503.03446v1
标题: Privacy is All You Need: Revolutionizing Wearable Health Data with Advanced PETs
作者: Karthik Barma, Seshu Babu Barma
摘要: 在一个数据成为新货币的世界中,可穿戴健康设备提供了对日常生活的前所未有的洞察,持续监测生命体征和指标。然而,这种便利性引发了隐私问题,因为这些设备收集的敏感数据可能被滥用或泄露。传统措施通常因实时数据处理需求和设备功率有限而失败。用户也缺乏对数据共享和使用的意识和控制。我们提出了一个隐私增强技术(PET)框架,用于可穿戴设备,结合了联邦学习、轻量级加密方法和选择性部署的区块链技术。区块链作为安全账本,仅在数据传输请求时触发,为用户提供实时通知和控制。通过打破数据垄断,这种方法将数据主权归还给个人。通过实际应用,如安全医疗数据共享、隐私保护的健康追踪和持续健康监测,我们的框架将隐私风险降低了高达70%,同时保持了数据效用和性能。这一创新为可穿戴设备隐私设定了新标准,并可扩展到更广泛的物联网生态系统,包括智能家居和工业。随着数据继续塑造我们的数字景观,我们的研究强调了在技术进步的最前沿保持隐私和用户控制的关键需求。
链接: http://arxiv.org/abs/2503.03428v1
标题: Synthetic Data Augmentation for Enhancing Harmful Algal Bloom Detection with Machine Learning
作者: Tianyi Huang
摘要: 有害藻类水华(HABs)对水生生态系统和公共健康构成严重威胁,导致全球范围内巨大的经济损失。早期检测至关重要,但通常受到高质量数据集稀缺的限制,这些数据集是训练可靠机器学习(ML)模型所必需的。本研究探讨了使用高斯Copula生成合成数据进行数据增强,以改进基于ML的HAB检测系统。生成了不同大小(100-1,000个样本)的合成数据集,使用相关环境特征(如水温、盐度和UVB辐射)以及校正的叶绿素a浓度作为目标变量。实验结果表明,适度的合成数据增强显著提高了模型性能(RMSE从0.4706降至0.1850;p < 0.001)。然而,过多的合成数据会引入噪声并降低预测准确性,强调了数据增强需要平衡的重要性。这些发现突显了合成数据在增强HAB监测系统中的潜力,为早期检测和减轻生态与公共健康风险提供了一种可扩展且经济高效的方法。
链接: http://arxiv.org/abs/2503.03794v1
标题: Evolutionary Prediction Games
作者: Eden Saig, Nir Rosenfeld
摘要: 当用户根据他们收到的预测质量决定是否使用一个系统时,学习有能力塑造它服务的用户群体——无论是好是坏。本研究旨在通过进化博弈论的视角研究这一过程的长期影响。我们引入并研究了进化预测博弈,旨在捕捉学习作为用户群体之间自然选择的驱动因素,从而决定进化结果的作用。我们的主要理论结果表明:(i)在数据和计算资源无限的情况下,学习倾向于强化适者生存,以及(ii)在更现实的设置中,共存的机会出现。我们分析了这些机会的稳定性和可行性,提出了几种可以维持其存在的机制,并通过真实和合成数据实证展示了我们的发现。
链接: http://arxiv.org/abs/2503.03401v1
标题: Exploring Visual Prompts: Refining Images with Scribbles and Annotations in Generative AI Image Tools
作者: Hyerim Park, Malin Eiband, Andre Luckow, Michael Sedlmair
摘要: 生成式AI(GenAI)工具越来越多地融入设计工作流程。虽然文本提示仍然是GenAI图像工具的主要输入方法,但设计师常常难以制作有效的提示。此外,研究主要集中在构思的输入方法上,而对细化任务的关注有限。本研究通过一项初步的数字化纸质研究,探索了设计师对三种输入方法(文本提示、注释和涂鸦)的偏好,共有七位专业设计师参与。设计师更倾向于使用注释进行空间调整和引用图像元素,而涂鸦则用于指定形状、大小和位置等属性,通常与其他方法结合使用。文本提示在提供详细描述或设计师寻求更高GenAI创造力时表现出色。然而,设计师对AI误解注释和涂鸦以及制作有效文本提示所需的工作量表示担忧。这些见解为GenAI界面设计提供了指导,以更好地支持细化任务,与工作流程保持一致,并增强与AI系统的沟通。
链接: http://arxiv.org/abs/2503.03398v2
标题: "Till I can get my satisfaction": Open Questions in the Public Desire to Punish AI
作者: Eddie L. Ungless, Zachary Horne, Björn Ross
摘要: 有无数例子表明AI可能造成伤害,并且越来越多的证据表明公众愿意将责任归咎于AI本身,无论这看起来多么“不合逻辑”。这引发了一个问题,即公众是否以及如何期望AI受到惩罚。然而,公众对AI惩罚的期望尚未得到充分探索。理解这些期望至关重要,因为除非公众对惩罚的渴望得到满足,否则他们可能会感受到伤害的持续影响。我们综合了心理学、人机交互与机器人交互、哲学和AI伦理学以及法律的研究,强调我们对这一问题的理解仍然不足。我们呼吁开展跨学科研究计划,以确定我们如何最好地满足AI伤害的受害者,以免在AI的法律惩罚(或不惩罚)未能满足公众期望时造成“满意度差距”。
链接: http://arxiv.org/abs/2503.03383v1
标题: iNews: A Multimodal Dataset for Modeling Personalized Affective Responses to News
作者: Tiancheng Hu, Nigel Collier
摘要: 当前的情感检测方法通常忽略了情感体验的固有主观性,而是依赖于掩盖个体情感反应的聚合标签。我们引入了iNews,一个新颖的大规模数据集,明确捕捉了对新闻标题的主观情感反应。我们的数据集包含来自291名英国多样化参与者的注释,涵盖来自英国主要媒体的2,899个多模态Facebook新闻帖子,每个样本平均有5.18个注释者。对于每个帖子,注释者提供了多方面的标签,包括情感效价、唤醒度、支配感、离散情感、内容相关性判断、分享可能性以及模态重要性评分(文本、图像或两者)。此外,我们收集了全面的注释者个人信息,涵盖人口统计、个性、媒体信任和消费模式,这些信息解释了15.2%的注释方差——高于现有的NLP数据集。结合这些信息,在零样本预测中获得了7%的准确性提升,即使在32-shot情况下仍然有益。iNews将增强LLM个性化、主观性、情感计算和个体级行为模拟的研究。
链接: http://arxiv.org/abs/2503.03335v1
标题: IoT Integration Protocol for Enhanced Hospital Care
作者: Ellie Zontou, Antonia Kyprioti
摘要: 本文介绍了“增强医院护理的物联网集成协议”,这是一个全面的框架,旨在利用物联网(IoT)技术来提升患者护理、提高运营效率并确保医院环境中的数据安全。随着在医疗保健中利用先进技术的日益重视,该协议旨在利用物联网设备的潜力,优化患者监测、实现远程护理并支持临床决策。通过将物联网无缝集成到护理工作流程和患者护理计划中,医院可以实现更高水平的以患者为中心的护理和实时数据洞察,从而改善治疗结果和资源分配。本文概述了协议的目标、关键组成部分和预期效益,同时强调了伦理考量和持续评估的重要性,以确保成功实施。
链接: http://arxiv.org/abs/2503.03334v1
标题: GenColor: Generative Color-Concept Association in Visual Design
作者: Yihan Hou, Xingchen Zeng, Yusong Wang, Manling Yang, Xiaojiao Chen, Wei Zeng
摘要: 现有的颜色概念关联方法通常依赖于基于查询的图像引用和从图像引用中提取颜色。然而,这些方法仅对常见概念有效,并且容易受到不稳定图像引用和不同图像条件的影响。我们与设计师的初步研究强调了设计中主色调与强调色组合以及上下文相关颜色(如“晴朗”与“污染”的天空)的需求。为此,我们引入了一种生成式方法,利用文本到图像模型生成的图像挖掘语义共鸣的颜色。我们的洞察是,当代文本到图像模型可以模仿大规模现实世界数据中的视觉模式。该框架包括三个阶段:概念实例化使用扩散模型生成样本,文本引导的图像分割识别图像中与概念相关的区域,以及颜色关联提取主要伴随的强调色。与专家设计的定量比较验证了我们方法的有效性,并通过各种设计场景和画廊展示了其适用性。
链接: http://arxiv.org/abs/2503.03236v1
标题: Preserving Cultural Identity with Context-Aware Translation Through Multi-Agent AI Systems
作者: Mahfuz Ahmed Anik, Abdur Rahman, Azmine Toushik Wasi, Md Manjurul Ahsan
摘要: 语言是文化认同的基石,然而全球化和主要语言的支配地位已使近3,000种语言面临灭绝的风险。现有的AI驱动翻译模型优先考虑效率,但往往无法捕捉文化细微差别、习语表达和历史意义,导致翻译边缘化语言多样性。为了解决这些挑战,我们提出了一种多代理AI框架,旨在为服务不足的语言社区提供文化适应性翻译。我们的方法利用专门的代理进行翻译、解释、内容合成和偏见评估,确保语言准确性和文化相关性得以保留。通过使用CrewAI和LangChain,我们的系统增强了上下文保真度,并通过外部验证减轻了偏见。对比分析表明,我们的框架优于GPT-4o,生成了上下文丰富且文化嵌入的翻译,这是对土著、区域和低资源语言的关键进步。这项研究强调了多代理AI在促进公平、可持续和文化敏感的NLP技术中的潜力,符合“服务不足社区语言模型”的AI治理、文化NLP和可持续NLP支柱。我们的完整实验代码库公开在:https://github.com/ciol-researchlab/Context-Aware_Translation_MAS。
链接: http://arxiv.org/abs/2503.04827v1
标题: SpiritSight Agent: Advanced GUI Agent with One Look
作者: Zhiyuan Huang, Ziming Cheng, Junting Pan, Zhaohui Hou, Mingjie Zhan
摘要: 图形用户界面(GUI)代理在辅助人机交互和自动化用户在数字设备上的导航方面展示了惊人的能力。理想的GUI代理应实现高准确性、低延迟以及对不同GUI平台的兼容性。最近的基于视觉的方法通过利用先进的视觉语言模型(VLMs)显示出前景。虽然它们通常满足兼容性和低延迟的要求,但这些基于视觉的GUI代理由于在元素定位方面的限制,往往准确性较低。为了解决这个问题,我们提出了SpiritSight,一种基于视觉的端到端GUI代理,在各种GUI平台的导航任务中表现出色。首先,我们使用可扩展的方法创建了一个多层级、大规模、高质量的GUI数据集GUI-Lasagne,赋予SpiritSight强大的GUI理解和定位能力。其次,我们引入了Universal Block Parsing (UBP)方法,解决了动态高分辨率视觉输入中的歧义问题,进一步增强了SpiritSight定位GUI对象的能力。通过这些努力,SpiritSight代理在多样化的GUI基准测试中优于其他先进方法,展示了其在GUI导航任务中的卓越能力和兼容性。模型可在\href获取。
链接: http://arxiv.org/abs/2503.03196v1
标题: Sensing Movement: Contemporary Dance Workshops with People who are Blind or have Low Vision and Dance Teachers
作者: Madhuka Thisuri De Silva, Jim Smiley, Sarah Goodwin, Leona M Holloway, Matthew Butler
摘要: 舞蹈教师主要依靠口头指导和视觉示范来传达关键的舞蹈概念和动作。然而,这些技术在支持盲人或低视力(BLV)学生方面存在局限性。这项工作探讨了技术在支持BLV学生教学以及与他们导师即兴创作中的作用。通过一系列与舞蹈教师和BLV学生的设计研讨会,通过与包括触觉对象、身体追踪声音和音乐探针以及带有振动反馈的身体追踪控制器等多种模态的探针进行物理互动,生成了设计理念。发现了支持技术设计的四个当代舞蹈学习目标的启示:学习一个短语;即兴创作;通过动作协作;以及对身体和动作质量的意识。我们讨论了多种多感官方法和工件的潜力,并提出了支持有意义的舞蹈教学和参与的技术设计考虑。
链接: http://arxiv.org/abs/2503.03166v1
标题: Dango: A Mixed-Initiative Data Wrangling System using Large Language Model
作者: Wei-Hao Chen, Weixi Tong, Amanda Case, Tianyi Zhang
摘要: 数据整理是数据科学流程中耗时且具有挑战性的任务。虽然已经提出了许多工具来自动化或促进数据整理,但它们常常误解用户意图,尤其是在复杂任务中。我们提出了Dango,一种混合主动的多代理系统,用于数据整理。与现有工具相比,Dango通过允许用户在多个表上演示并在对话界面中使用自然语言提示来增强用户意图的传达,使用户能够通过回答LLM提出的多项选择澄清问题来澄清意图,并提供多种形式的反馈,如逐步自然语言解释和数据溯源,帮助用户评估数据整理脚本。我们进行了38名参与者的被试内用户研究,证明Dango的功能可以显著提高数据整理中的意图澄清、准确性和效率。此外,我们通过将其应用于更广泛的数据整理任务,展示了Dango的通用性。
链接: http://arxiv.org/abs/2503.03154v2
标题: Position: Model Collapse Does Not Mean What You Think
作者: Rylan Schaeffer, Joshua Kazdan, Alvan Caleb Arulandu, Sanmi Koyejo
摘要: 在线AI生成内容的激增引发了人们对模型崩溃的担忧,即当未来生成模型在早期模型生成的合成数据上进行训练时,其性能会下降。行业领袖、顶级研究期刊和流行科学出版物都预言了模型崩溃可能带来的灾难性社会后果。在这篇立场文章中,我们认为这种广泛的叙述从根本上误解了科学证据。我们强调,关于模型崩溃的研究实际上涵盖了八种不同且有时相互矛盾的定义,并认为论文内部和之间的术语不一致阻碍了对模型崩溃的全面理解。为了评估不同模型崩溃解释对未来生成模型的威胁程度,我们提出了我们认为研究模型崩溃的现实条件,然后通过这一视角对文献方法进行了严格评估。虽然我们为合理的分歧留出了空间,但我们对研究研究的分析(根据每个研究与现实条件的匹配程度加权)使我们得出结论:某些预测的模型崩溃主张依赖于与现实条件匹配不佳的假设和条件,事实上,几种著名的崩溃情景是完全可以避免的。总的来说,这篇立场文章认为,模型崩溃已从一个多方面的细致考虑扭曲为一种过于简化的威胁,并且证据表明,在当前社会轨迹下更可能发生的具体危害受到的关注不成比例地少。
链接: http://arxiv.org/abs/2503.03150v1
标题: Making AI-Enhanced Videos: Analyzing Generative AI Use Cases in YouTube Content Creation
作者: Torin Anderson, Shuo Niu
摘要: 生成式AI(GenAI)工具通过简化脚本编写、视觉和音频生成以及编辑等任务,增强了社交媒体视频的创作。这些工具能够创建新的内容,包括文本、图像、音频和视频,ChatGPT和MidJourney等平台在YouTube创作者中越来越受欢迎。尽管它们的采用率不断增长,但对其在视频制作过程中具体用例的了解仍然有限。本研究分析了274个YouTube教程视频,探讨了GenAI在规划、制作、编辑和上传中的作用。研究结果表明,YouTubers使用GenAI来识别主题、生成脚本、创建提示并生成视觉和音频材料。此外,GenAI支持编辑任务,如提升视觉效果和重新格式化内容,同时建议标题和字幕。基于这些发现,我们讨论了未来将GenAI整合以支持各种视频创作任务的方向。
链接: http://arxiv.org/abs/2503.03134v1
标题: A Multimodal Framework for Topic Propagation Classification in Social Networks
作者: Yuchuan Jiang, Chaolong Jia, Yunyi Qin, Wei Cai, Yongsen Qian
摘要: 互联网的快速普及和社交网络的广泛采用显著加速了信息传播。然而,这种转变引入了信息捕获和处理的复杂性,给研究人员和从业者带来了巨大挑战。因此,预测社交网络中与主题相关的信息传播已成为一个关键的研究焦点。本文通过整合从关键传播特征中提取的多维特征,提出了一种社交网络主题传播预测模型。具体来说,我们在PageRank算法中引入了两个新指标,用户关系广度和用户权威,以更有效地量化用户影响力。此外,我们使用Text-CNN模型进行情感分类,从文本内容中提取情感特征。使用Bi-LSTM模型对节点的时间嵌入进行编码,以捕捉时间动态。此外,我们改进了用户与主题互动痕迹的测量,用更精确的传播特征测量取代了传统的主题查看指标。最后,我们使用Transformer模型整合提取的多维特征,显著提高了预测性能。实验结果表明,我们提出的模型在FI-Score、AUC和Recall方面优于传统的机器学习和单模态深度学习模型,验证了其在预测社交网络主题传播中的有效性。
链接: http://arxiv.org/abs/2503.03112v1
标题: HEPHA: A Mixed-Initiative Image Labeling Tool for Specialized Domains
作者: Shiyuan Zhou, Bingxuan Li, Xiyuan Chen, Zhi Tu, Yifeng Wang, Yiwen Xiang, Tianyi Zhang
摘要: 图像标注是训练计算机视觉模型的重要任务。在医疗等专业领域,招募专家进行图像标注既昂贵又具有挑战性。我们提出了HEPHA,一种混合主动的图像标注工具,通过归纳逻辑学习来推断和优化标注规则,以激发人类专业知识。每个规则包括描述图像的视觉谓词。HEPHA使用户能够通过可视化编程界面直接操作或标注更多图像来迭代优化规则。为了促进规则优化,HEPHA推荐编辑哪些规则和更新哪些谓词。对于不熟悉可视化编程的用户,HEPHA向用户推荐多样化和信息丰富的图像以进一步标注。我们进行了16名参与者的被试内用户研究,将HEPHA与HEPHA的变体和基于深度学习的方法进行了比较。我们发现,HEPHA在专业领域和通用领域的图像标注任务中均优于两个基线。我们的代码可在https://github.com/Neural-Symbolic-Image-Labeling/NSILWeb获取。
链接: http://arxiv.org/abs/2503.03094v2
标题: "Watch My Health, Not My Data": Understanding Perceptions, Barriers, Emotional Impact, & Coping Strategies Pertaining to IoT Privacy and Security in Health Monitoring for Older Adults
作者: Suleiman Saka, Sanchari Das
摘要: “物联网(IoT)”的普及为老年人提供了“健康监测”和独立生活的关键支持,然而对安全和隐私的担忧仍然存在。在本文中,我们通过两阶段用户研究(包括一项调查(N = 22)和半结构化访谈(n = 9))报告了这些问题。我们发现,虽然81.82%的参与者了解“双因素认证(2FA)”和加密等安全功能,但63.64%的参与者对敏感健康数据的未授权访问表示严重担忧。只有13.64%的参与者对现有保护措施有信心,他们提到对“数据共享政策”的困惑和对“复杂安全设置”的沮丧,导致了不信任和焦虑。为了应对,我们的参与者采取了各种策略,如依赖家庭或专业支持以及限制功能使用,导致脱离。因此,我们建议“自适应安全机制”、简化界面和实时透明通知,以在老年人IoT健康系统中培养信任并确保“隐私和安全设计”。
链接: http://arxiv.org/abs/2503.03087v1
来源:arxiv