第二期(20250311-20250409)
标题: A BLE and UWB Beacon-Assist Framework for Multiuser Augmented Reality Synchronization Across Multiple Devices in Shared Environments
作者: Maitree Hirunteeyakul
摘要: 跨会话/设备同步增强现实(AR)的挑战目前仅通过依赖视觉特征映射来解决,这种方法在扩展可行空间方面不够理想,并且在环境视觉变化时存在缺陷。本研究利用位置信标技术——蓝牙低功耗(BLE)和超宽带(UWB),实现了AR同步解决方案,以解决现有AR系统中的可扩展性问题和不一致性。该框架分为两种方法:BLE辅助和UWB辅助AR同步。BLE辅助方法利用iBeacon技术进行房间上下文识别,与Apple的ARKit ARWorldMap和Google的ARCore Cloud Anchors集成。UWB辅助解决方案则利用精确的信标测距能力与设备方位角融合,建立跨会话/设备的AR固定空间参考。比较评估显示,UWB辅助方法在环境变化下的可靠性优于BLE辅助方法,因为它始终能成功解析虚拟锚点,平均延迟接近恒定的25秒,不受物理环境变化影响。相反,BLE辅助实现通常在解析虚拟锚点时更精确,位置误差平均为0.02米,方向误差在0.03弧度内。在UWB辅助方法中,计算的固定空间参考在姿态上的平均差异为0.04米和0.11弧度。UWB辅助方法适用于需要持续成功定位且可接受精度的场景,而BLE辅助方法则更适合对虚拟锚点姿态要求更高精度但能接受环境变化时性能折衷的短期AR会话。
链接: http://arxiv.org/abs/2504.05293v1
标题: What We Do Not Know: GPT Use in Business and Management
作者: Tammy Mackenzie, Branislav Radeljic, Leslie Salgado, Animesh Paul, Rubaina Khan, Aizhan Tursunbayeva, Natalie Perez, Sreyoshi Bhaduri
摘要: 本系统综述考察了关于GPT在商业管理中应用的同行评审研究,揭示了显著的知识缺口。尽管确定了有趣的研究方向,如最佳实践、基准测试、性能比较和社会影响,但自GPT发布22个月以来,我们仅找到42项相关研究。针对特定行业或子领域的研究如此之少,以至于管理研究人员、商业顾问、政策制定者和记者目前还无法就GPT在商业中的使用情况做出有根据的陈述。本文的主要贡献是呼吁开展进一步研究。我们描述了当前研究现状,并指出了GPT在商业应用中的知识缺口,涵盖财务、营销、人力资源、战略、运营、生产和分析等管理子领域(零售和销售除外)。我们讨论了GPT对就业、生产力、环境成本、压迫和小企业潜在影响的认识缺口,提出了管理顾问和媒体如何帮助填补这些缺口的建议,并呼吁开展与现有和可预见AI相关商业挑战相关的业务控制系统的实际工作。这项工作可能对管理者、管理研究人员以及从事AI社会应用的人员具有参考价值。
链接: http://arxiv.org/abs/2504.05273v1
标题: A moving target in AI-assisted decision-making: Dataset shift, model updating, and the problem of update opacity
作者: Joshua Hatherley
摘要: 机器学习(ML)系统容易因数据集偏移而导致性能随时间下降。为解决这个问题,专家通常建议应定期更新ML系统以确保持续的性能稳定性。虽然已有一些学术文献开始探讨与不同更新方法相关的认知和伦理挑战,但AI伦理和AI认识论文献中很少关注模型更新对ML辅助决策过程本身的影响。本文旨在填补这一文献空白,认为模型更新在ML辅助决策中引入了一种新型不透明性——更新不透明性,即用户无法理解更新如何或为何改变了ML系统的推理或行为。这种不透明性带来了一系列独特的认知和安全问题,而现有的ML黑箱问题解决方案大多无法有效应对。未来可能需要开发或采用替代策略来更直接地解决更新不透明性问题,包括双事实解释、动态模型报告和更新兼容性等,但这些策略各有风险或存在显著局限性。需要进一步研究来解决与模型更新和更新不透明性相关的认知和安全问题。
链接: http://arxiv.org/abs/2504.05210v1
标题: Utility-aware Social Network Anonymization using Genetic Algorithms
作者: Samuel Bonello, Rachel G. de Jong, Thomas H. W. Bäck, Frank W. Takes
摘要: 社交网络可能包含个人的隐私敏感信息。网络匿名化问题的目标是通过改变给定的社交网络数据集,最大化社交图中匿名节点的数量。这里的匿名节点是指没有独特周围网络结构的节点。同时,目标是确保数据效用,即保留拓扑网络特性并在下游网络分析任务中保持良好性能。我们提出了两种针对该问题的遗传算法版本:一种通用GA和一种唯一性感知GA(UGA)。后者通过在突变过程中避免连接到已匿名节点的边,更有效地定位边。经过超参数调整后,我们在几个真实网络数据集上将两种GA与两种现有基线算法进行比较。结果显示,所提出的遗传算法平均比最佳基线算法多匿名化14倍的节点。此外,数据效用实验表明UGA需要更少的边删除,且我们的GA和基线在下游任务上的性能保持同样良好。总体而言,我们的结果表明遗传算法是解决网络匿名化问题的有前景的方法。
链接: http://arxiv.org/abs/2504.05183v1
标题: Blending Queries and Conversations: Understanding Tactics, Trust, Verification, and System Choice in Web Search and Chat Interactions
作者: Kerstin Mayerhofer, Rob Capra, David Elsweiler
摘要: 本文报告了一项用户研究(N=22),参与者使用结合网络搜索和生成式AI聊天功能的界面解决健康相关信息任务。我们研究人们如何使用该界面、为何以特定方式行为以及这些行为的结果如何。通过出声思考协议捕捉他们在搜索过程中的思维过程。研究发现,生成式AI既不是搜索的万能药,与标准网络搜索界面相比也没有显著退步。定性和定量分析确定了五个类别中的78种策略,并提供了关于不同界面功能如何及为何被使用的见解。我们发现任务前信心和信任都会影响使用的界面功能。在这两个系统中(尤其是聊天功能),信任常常被错误地放在易用性和看似完美的答案上,导致尽管结果不正确,搜索后信心仍会增加。我们讨论了这些发现在研究问题背景下的意义,并提出了几个未来研究的开放性问题。
链接: http://arxiv.org/abs/2504.05156v1
标题: SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation
作者: Stephen Brade, Sam Anderson, Rithesh Kumar, Zeyu Jin, Anh Truong
摘要: 新手内容创作者通常花费大量时间录制富有表现力的语音用于社交媒体视频。虽然最近的文本转语音(TTS)技术进步可以生成各种语言和口音的高度逼真语音,但许多人难以应对不直观或过于细粒度的TTS界面。我们建议通过允许用户在其脚本旁指定高级上下文来简化TTS生成。我们的Wizard-of-Oz系统SpeakEasy利用用户提供的上下文来指导和影响TTS输出,支持通过高级反馈进行迭代优化。这种方法基于两项各8名受试者的形成性研究:一项考察内容创作者使用TTS的体验,另一项借鉴配音演员的有效策略。评估显示,使用SpeakEasy的参与者能更成功地生成符合个人标准的表演,且不需要比领先行业界面显著更多的努力。
链接: http://arxiv.org/abs/2504.05106v1
标题: Graph-based Diffusion Model for Collaborative Filtering
作者: Xuan Zhang, Xiang Deng, Hongxing Yuan, Chunyu Wei, Yushun Fan
摘要: 最近,基于扩散的推荐方法取得了令人印象深刻的成果。然而,现有方法主要将每个用户的历史交互视为独立训练样本,忽略了用户与项目之间潜在的高阶协同信号。这些信号包含更丰富和细致的关系,可以自然地使用基于图的数据结构捕捉。为弥补这一局限,我们将基于扩散的推荐方法扩展到图领域,直接用扩散模型建模用户-项目二分图,从而更好地建模复杂交互动态中固有的高阶连接性。这一扩展带来两个主要挑战:(1)噪声异质性,即交互受各种连续和离散噪声形式影响;(2)关系爆炸,指处理大规模图的高计算成本。为解决这些挑战,我们提出了基于图的协同过滤扩散模型(GDMCF)。针对噪声异质性,我们引入了整合连续和离散噪声的多级噪声破坏机制,有效模拟现实世界交互的复杂性。针对关系爆炸,我们设计了用户活跃引导的扩散过程,有选择地关注最有意义的边和活跃用户,在保持图拓扑完整性的同时降低推理成本。在三个基准数据集上的广泛实验表明,GDMCF始终优于最先进方法,突显了其在捕捉高阶协同信号和提高推荐性能方面的有效性。
链接: http://arxiv.org/abs/2504.05029v1
标题: Measuring the right thing: justifying metrics in AI impact assessments
作者: Stefan Buijsman, Herman Veluwenkamp
摘要: AI影响评估的质量取决于所使用的衡量标准。因此我们必须能够证明这些评估中所选指标的合理性,特别是对于难以量化的伦理和社会价值。我们提出一个两步法:首先需要明确阐述概念(如罗尔斯式公平或团结式公平),然后将指标与该概念相匹配。这两个步骤都需要单独论证,因为概念可以根据其与(例如)公平功能的契合度来评判。概念工程为此提供了有用工具。其次,指标需要与概念相匹配。我们通过对竞争性公平指标的检验来说明,概念提供的额外内容有助于证明特定指标的选择。因此我们主张影响评估不仅要明确指标,还要明确驱动这些指标的概念。
链接: http://arxiv.org/abs/2504.05007v1
标题: How Is Generative AI Used for Persona Development?: A Systematic Review of 52 Research Articles
作者: Danial Amin, Joni Salminen, Farhan Ahmed, Sonja M. H. Tervola, Sankalp Sethi, Bernard J. Jansen
摘要: 尽管生成式AI具有人物角色开发的潜力,但仍需解决许多挑战。本研究系统综述了2022-2024年的52篇论文:首先,人物角色开发中频繁使用封闭商业模型,造成单一文化;其次,GenAI用于人物角色开发的各个阶段(数据收集、分割、丰富和评估);第三,与其他量化人物角色开发技术类似,AI生成人物的评估存在重大空白;第四,尽管人类监督对维护伦理标准至关重要,但人-AI协作模型仍不成熟。这些发现意味着要实现AI生成人物的全部潜力,需要学术界和产业界的共同努力。为此我们提供了一系列研究方向的清单以启发未来工作。
链接: http://arxiv.org/abs/2504.04927v1
标题: Simulating Persuasive Dialogues on Meat Reduction with Generative Agents
作者: Georg Ahnert, Elena Wurth, Markus Strohmaier, Jutta Mata
摘要: 减少肉类摄入有益于人类和地球健康,但社会规范使肉类在共享餐食中占据核心地位。迄今为止,开发既能促进肉类减少又能最小化社会成本的沟通策略,需要在流程的每个阶段都耗费人力参与。我们提出了基于大语言模型(LLM)的生成代理之间进行多轮肉类减少对话的模拟研究进展。我们使用基于计划行为理论的成熟心理问卷测量主要结果,并额外调查社会成本。研究发现初步模拟产生的结果:(i)与理论预期一致;(ii)与先前人类参与者研究数据相比具有效度。生成代理模型是一种有前景的工具,可用于识别针对高度特定参与者群体的新型肉类减少沟通策略,随后在人类参与者研究中进行测试。
链接: http://arxiv.org/abs/2504.04872v1
标题: Imagining the Far East: Exploring Perceived Biases in AI-Generated Images of East Asian Women
作者: Xingyu Lan, Jiaxi An, Yisu Guo, Chiyou Tong, Xintong Cai, Jun Zhang
摘要: 允许用户从文本创建图像的图像生成AI越来越多地用于制作视觉内容。尽管技术进步显著,但AI生成图像中的文化偏见引发了重大关注。虽然许多研究聚焦于西方语境中的问题,我们的研究考察了关于东亚女性描绘的感知偏见。在这项探索性研究中,我们邀请东亚用户审计三个流行模型(DALL-E、Midjourney、Stable Diffusion),识别出18种特定感知偏见,分为四类模式:西方化、文化符号的过度使用或误用、性化与女性化,以及种族刻板印象。这项工作凸显了AI模型在描绘东方个体时可能带来的挑战。
链接: http://arxiv.org/abs/2504.04865v1
标题: Explanation-Driven Interventions for Artificial Intelligence Model Customization: Empowering End-Users to Tailor Black-Box AI in Rhinocytology
作者: Andrea Esposito, Miriana Calvano, Antonio Curci, Francesco Greco, Rosa Lanzilotti, Antonio Piccinno
摘要: 人工智能(AI)在现代社会中的集成正在深刻改变个人完成任务和活动的方式。在医学AI决策支持系统Rhino-Cyt(一个供医学专业人员,更准确地说鼻细胞学家进行细胞分类的系统)中,我们提出了一种新颖的终端用户开发(EUD)方法,通过重新设计的用户界面使终端用户能够干预AI决策过程。所提出的界面通过编辑解释和重新配置模型来增强用户能力,影响其未来预测。这项工作通过讨论解释驱动干预如何实现可解释性、用户干预和模型重构的结合,促进了人类与用户定制AI系统之间的共生关系,为以人为中心的AI(HCAI)和EUD做出了贡献。
链接: http://arxiv.org/abs/2504.04833v1
标题: Beyond Answers: How LLMs Can Pursue Strategic Thinking in Education
作者: Eleonora Grassucci, Gualtiero Grassucci, Aurelio Uncini, Danilo Comminiello
摘要: 人工智能(AI)在教育领域具有变革性潜力,能够实现个性化学习、增强包容性并激发创造力和好奇心。本文探讨了大型语言模型(LLMs)如何同时作为耐心的导师和协作伙伴来提升教育效果。作为导师,LLMs通过提供分步解释和满足个体需求实现个性化学习,使不同背景或能力的学生都能获得包容性教育。作为协作者,它们拓展学生视野,支持学生解决复杂的现实问题并共同创建创新项目。然而,要充分实现这些优势,LLMs不应被用作提供直接答案的工具,而应引导学生共同发展解决策略和学习路径。因此,必须重点教育学生和教师如何有效使用LLMs,确保其成功融入课堂。通过实际案例和现实研究,本文展示了LLMs如何使教育更具包容性和吸引力,同时帮助学生充分发挥潜力。
链接: http://arxiv.org/abs/2504.04815v1
标题: MedGNN: Capturing the Links Between Urban Characteristics and Medical Prescriptions
作者: Minwei Zhao, Sanja Scepanovic, Stephen Law, Daniele Quercia, Ivica Obadic
摘要: 理解城市社会人口和环境因素如何与健康相关联对公共卫生和城市规划至关重要。然而,传统统计方法难以处理非线性效应,而机器学习模型通常无法以可解释的方式捕捉地理(邻近区域更相似)和拓扑(区域间连接不平等)效应。为此,我们提出MedGNN,这是一个空间拓扑显式框架,构建2跳空间图,将位置和区域节点嵌入与城市特征整合到图神经网络中。应用于MEDSAT数据集(涵盖4,835个大伦敦社区超过150个环境和社人口因素及六种处方结果),MedGNN相比基线方法平均提高预测准确率25%以上。以抗抑郁药处方为例,通过地理主成分分析图嵌入,我们发现:与先前研究一致的结果(如老年和白人群体抗抑郁药处方率更高),持续争议的发现(如绿化与更高处方率相关而NO2与更低处方率相关),以及值得进一步研究的关联(如树冠蒸发与较少处方相关)。这些结果证明了MedGNN以及更广泛意义上精心应用的机器学习在推进跨学科公共卫生研究中的潜力。
链接: http://arxiv.org/abs/2504.04739v1
标题: Teaching Data Science Students to Sketch Privacy Designs through Heuristics (Extended Technical Report)
作者: Jinhe Wen, Yingxi Zhao, Wenqian Xu, Yaxing Yao, Haojian Jin
摘要: 近期研究表明,经验丰富的数据从业者常通过绘制草图来促进隐私设计概念的交流。然而,如何帮助新手学生培养这种交流技能的研究有限。本文研究了降低数据科学新手学生创建高质量隐私草图门槛的方法。我们首先进行需求调研(N=12)识别学生在绘制隐私设计时面临的障碍,然后采用以人为中心的设计方法开发出三个简单的基于文本的启发式方法。对24名数据科学学生的用户研究表明,仅需在研究开始时向参与者展示这三个启发式方法,就能提升草图中隐私相关设计决策的覆盖范围,降低创建草图的认知负荷,并提高最终草图的易读性。
链接: http://arxiv.org/abs/2504.04734v1
标题: TangibleNet: Synchronous Network Data Storytelling through Tangible Interactions in Augmented Reality
作者: Kentaro Takahira, Wong Kam-Kwai, Leni Yang, Xian Xu, Takanori Fujiwara, Huamin Qu
摘要: 网络可视化中的同步数据驱动叙事面临重大挑战,因为需要实时操作网络组件。虽然现有研究解决了异步场景,但缺乏有效的实时演示工具。为填补这一空白,我们开发了TangibleNet,这是一个基于投影仪的AR原型,允许演示者在实时演示中使用双面磁铁与节点-链接图交互。设计过程通过采访有同步数据叙事经验的专业人士和与14位HCI/VIS研究人员的工作坊获得启发。访谈帮助确定了在演示语境中整合物理对象作为交互工具的关键设计考量,工作坊则促成了将用户动作映射到节点-链接图交互命令的设计空间开发。对12名参与者的评估证实,TangibleNet支持直观交互并增强演示者自主性,证明了其在同步网络数据叙事中的有效性。
链接: http://arxiv.org/abs/2504.04710v1
标题: AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing
作者: Lingyue Fu, Ting Long, Jianghao Lin, Wei Xia, Xinyi Dai, Ruiming Tang, Yasheng Wang, Weinan Zhang, Yong Yu
摘要: 知识追踪(KT)监测学生知识状态并模拟其对问题序列的反应。现有KT模型通常遵循单步训练范式,这与现实模拟需要的多步推理过程存在差异,导致显著误差累积。这种误差累积与数据稀疏问题共同降低了智能辅导系统中推荐模型的性能。为解决这些挑战,我们提出首个专注于多步KT任务的对抗性多步训练框架AdvKT,包含生成器和判别器:生成器模仿高回报响应有效减少多步误差累积,判别器提供反馈生成合成数据。此外,我们设计了专门的数据增强技术,用真实变化丰富训练数据,确保模型在稀疏数据场景下良好泛化。在四个真实数据集上的实验证明AdvKT优于现有KT模型,能有效解决误差累积和数据稀疏问题。
链接: http://arxiv.org/abs/2504.04706v1
标题: Usability Testing of an Explainable AI-enhanced Tool for Clinical Decision Support: Insights from the Reflexive Thematic Analysis
作者: Mohammad Golam Kibria, Lauren Kucirka, Javed Mostafa
摘要: 人工智能增强技术代表了改善医疗服务的重大机遇。复杂模型在提升临床医生决策效率方面已取得显著进展,但由于多方面实施问题(其中AI模型可解释性不足是关键因素),其临床采用率仍然很低。通过20名美国临床医生的可用性研究和定性反思主题分析,本研究开发并提出了可解释性的具体框架和操作定义。该框架能为AI工具的必要定制和功能开发提供信息,以支持临床医生偏好并提升其接受度。
链接: http://arxiv.org/abs/2504.04703v1
标题: The Disruption Index Measures Displacement Between a Paper and Its Most Cited Reference
作者: Yiling Lin, Linzhuo Li, Lingfei Wu
摘要: 最初为捕捉技术创新而开发、后适用于识别科学突破的颠覆指数(D-index),提供了首个分析变革性研究的量化框架。尽管前景广阔,但先前研究难以阐明其理论基础,引发可能存在偏差的担忧。我们证明D-index测量的是相对创新(论文取代其最高被引文献的能力)而非绝对创新,反映了科学进步如同用灯泡取代蜡烛般用新答案替换旧答案的过程。通过数学分析、专家调查和大规模文献计量证据支持这一观点。为促进复制、验证和更广泛应用,我们发布了基于OpenAlex的4,900万篇期刊文章(1800-2024年)D-index值数据集。
链接: http://arxiv.org/abs/2504.04677v1
标题: Autono: A ReAct-Based Highly Robust Autonomous Agent Framework
作者: Zihao Wu
摘要: 本文提出基于ReAct范式的高度鲁棒自主智能体框架,通过自适应决策和多智能体协作解决复杂任务。与传统依赖LLM规划器生成固定工作流的框架不同,该框架根据先验轨迹动态生成下一步动作,增强鲁棒性。为解决自适应执行路径可能导致的中止问题,提出结合概率惩罚机制的及时放弃策略;为多智能体协作,引入支持代理间共享和动态更新记忆的记忆转移机制。该框架通过概率惩罚动态调整任务放弃概率,使开发者能通过调参平衡保守与探索倾向,显著提升复杂环境中的适应性和任务执行效率。此外,通过模块化设计和MCP协议兼容性支持外部工具集成扩展智能体能力,多智能体协作机制通过明确分工使智能体专注特定任务组件,显著提升执行效率和质量。
链接: http://arxiv.org/abs/2504.04650v2
标题: "You just can't go around killing people" Explaining Agent Behavior to a Human Terminator
作者: Uri Menkes, Assaf Hallak, Ofra Amir
摘要: 考虑预训练智能体在环境中运行且人类操作者可决定临时终止其运行并接管的情境。这类场景常见于人机交互(如自动驾驶、工厂自动化和医疗领域),通常面临两个极端情况的权衡:若不允许接管,智能体可能采用次优甚至危险的策略;若接管过多,则人类对智能体缺乏信心,极大限制其效用。本文形式化这一设置并提出解释方案以优化人类干预次数。
链接: http://arxiv.org/abs/2504.04592v1
标题: Chain of Understanding: Supporting Code Understanding with Large Language Models
作者: Jie Gao, Yue Xue, Xiaofei Xie, SoeMin Thant, Erika Lee
摘要: 代码审计需要深入理解代码库——这对专业知识有限的终端开发者尤其困难。通过采访经验丰富的审计员,我们确定了"理解链"方法,即LLMs引导开发者进行分层代码理解(从宏观概览到具体函数和变量)。基于此,我们将理解链概念融入CodeMap系统,提供交互式可视化、逐步引导分析和情境感知聊天机器人支持。通过对10名不同背景参与者的受试内研究和5名专家、2名新手的访谈,CodeMap在减少提示工程手动工作量的同时,通过可视化增强参与度,表现优于独立LLMs和传统静态可视化工具。
链接: http://arxiv.org/abs/2504.04553v1
标题: The Mediating Effects of Emotions on Trust through Risk Perception and System Performance in Automated Driving
作者: Lilit Avetisyan, Emmanuel Abolarin, Vanik Zakarian, X. Jessie Yang, Feng Zhou
摘要: 对自动驾驶汽车(AVs)的信任传统上通过认知视角探索,但越来越多证据表明情绪对塑造信任的重要作用。本研究通过中介分析考察风险感知和AV性能(有无错误)如何影响情绪反应和信任,70名参与者观看AV运行视频(含错误/无错误)并配合不同风险信息(高/低/无),报告19项离散情绪条目并通过倾向性、习得性和情境性信任测量评估信任。因子分析识别出敌意、信心、焦虑和孤独四个关键情绪成分,线性混合模型显示风险感知不是信任的显著预测因子而性能和个体差异是,中介分析表明信心是强正向中介而敌意和焦虑情绪负面影响信任。结果表明AV实时行为对信任的影响大于既有风险感知,强调培养积极情绪反应对信任校准的重要性,这对自动驾驶用户体验设计具有重要启示。
链接: http://arxiv.org/abs/2504.04508v1
标题: Public speech recognition transcripts as a configuring parameter
作者: Damien Rudaz, Christian Licoppe
摘要:
在智能手机语音助手中,显示人类说话内容的文字转录(即生成"自动语音识别转录文本")是一项常见功能:当人类说话者(例如提出一个问题)的语音被语音助手口头回应时,该语音内容会同步显示在屏幕上。尽管较为罕见,某些"社交"机器人也具备这一功能,能够将人类交互者的语音转录显示在屏幕或平板上。我们认为,这种信息配置方式对交互具有实际的语用影响,无论对人类参与者还是具身对话代理而言都是如此。基于一组人形机器人现场交互的语料分析,我们试图证明这种转录文本是一种能够显著影响人类对机器人行为动作归因的情境特征:即它会影响人类如何将机器人的行为解读为特定类型(而非其他类型)的动作,以及如何将其视为对自身前一话轮的恰当回应。
链接: http://arxiv.org/abs/2504.04488v1
标题: Fast Maximization of Current Flow Group Closeness Centrality
作者: Haisong Xia, Zhongzhi Zhang
摘要: 基于有效电阻的电流流紧密中心性(CFCC)用于衡量无向图中节点组的重要性。鉴于识别关键节点的广泛应用,我们研究了在基数约束|S|=k≪n下最大化节点组S的CFCC问题。尽管该问题已被证明是NP难问题,我们提出了两种新颖的贪心算法解决方案。我们的算法基于生成森林采样和舒尔补,具有近似线性时间复杂度,并实现1−k/(k−1)·1/e−ϵ的近似因子(其中0<ϵ<1)。在真实世界图上的大量实验表明,我们的算法在效率和效果上优于现有最优方法,可扩展到数百万节点的图。
链接: http://arxiv.org/abs/2504.04472v1
标题: Do We Need Responsible XR? Drawing on Responsible AI to Inform Ethical Research and Practice into XRAI / the Metaverse
作者: Mark McGill, Joseph O'Hagan, Thomas Goodge, Graham Wilson, Mohamed Khamis, Veronika Krauß, Jan Gugenheimer
摘要: 这篇为CHI 2025研讨会"Everyday AR through AI-in-the-Loop"撰写的立场论文思考了一个问题:作为人机交互领域,我们是否需要像定义"负责任AI"那样,制定"负责任XR"的并行框架,以应对可穿戴AI增强现实眼镜和XR设备大规模采用所带来的独特脆弱性——这些设备可能通过AI驱动的人类感知增强技术产生潜在风险。
链接: http://arxiv.org/abs/2504.04440v1
标题: FluentLip: A Phonemes-Based Two-stage Approach for Audio-Driven Lip Synthesis with Optical Flow Consistency
作者: Shiyan Liu, Rui Qu, Yan Jin
摘要: 在音频驱动的唇形合成中,生成与给定语音保持一致的连续唇部运动图像是一项具有挑战性的任务。虽然先前研究在同步性和视觉质量方面取得了进展,但唇部可懂度和视频流畅性仍然是持续存在的难题。本研究提出FluentLip——一个包含三项特色策略的两阶段音频驱动唇形合成方法。为提升唇部同步和可懂度,我们整合了音素提取器和编码器,通过生成音频与音素信息的融合实现多模态学习;同时采用光流一致性损失确保图像帧之间的自然过渡;此外,在生成对抗网络(GAN)训练中引入扩散链以提升稳定性和效率。我们通过大量实验评估FluentLip,与五种最先进(SOTA)方法在五项指标(包括新提出的评估唇部姿态可懂度和视频流畅性的音素错误率PER)上进行对比。实验结果表明,FluentLip具有高度竞争力,在平滑度和自然度方面实现显著提升,其Fréchet起始距离(FID)和PER指标分别较SOTA方法提升约16.3%和35.2%。
链接: http://arxiv.org/abs/2504.04427v1
标题: The Fidelity-based Presence Scale (FPS): Modeling the Effects of Fidelity on Sense of Presence
作者: Jacob Belga, Richard Skarbez, Yahya Hmaiti, Eric J. Chen, Ryan P. McMahan, Joseph J. LaViola
摘要: 在虚拟现实(VR)研究社区内,已有多次尝试开发旨在更好理解临场感的问卷。尽管存在众多调查工具,但社区仍缺乏能说明VR应用中哪些组件促成临场感的问卷。此外,先前文献指出关于应该使用哪种问卷或问题尚未达成共识。因此,我们开展德尔菲研究,邀请临场感专家确立关于最重要临场感问题及其表述的共识。随后通过探索性因子分析(EFA)进行验证研究。这两项研究的努力促成了基于保真度的临场感量表(FPS)的创建。通过这种共识驱动的方法和基于保真度的因子分析,我们希望FPS能够促进研究社区内更好的交流,并为VR系统保真度与临场感关系的研究带来重要成果。
链接: http://arxiv.org/abs/2504.04355v1
标题: Crowdsourcing-Based Knowledge Graph Construction for Drug Side Effects Using Large Language Models with an Application on Semaglutide
作者: Zhijie Duan, Kai Wei, Zhaoqian Xue, Jiayan Zhou, Shu Yang, Siyuan Ma, Jin Jin, Lingyao li
摘要: 社交媒体是获取药物警戒领域患者真实体验数据的宝贵来源。然而,从非结构化且嘈杂的社交媒体内容中挖掘数据仍具挑战性。我们提出一个系统框架,利用大语言模型(LLMs)从社交媒体提取药物副作用信息并组织成知识图谱(KG)。将该框架应用于Reddit上减肥药司美格鲁肽的数据,通过构建的知识图谱进行全面分析,研究不同品牌司美格鲁肽随时间推移报告的副作用情况。这些发现通过与FAERS数据库报告的不良事件进行对比验证,为医疗专业人员和患者提供了关于司美格鲁肽副作用的重要患者中心视角,补充了其安全性和当前知识库。我们的工作证明了使用LLMs将社交媒体数据转化为结构化知识图谱用于药物警戒的可行性。
链接: http://arxiv.org/abs/2504.04346v2
标题: A Survey of Social Cybersecurity: Techniques for Attack Detection, Evaluations, Challenges, and Future Prospects
作者: Aos Mulahuwaish, Basheer Qolomany, Kevin Gyorick, Jacques Bou Abdo, Mohammed Aledhari, Junaid Qadir, Kathleen Carley, Ala Al-Fuqaha
摘要: 在当今数字时代,互联网特别是社交媒体平台在塑造公众观点、态度和信念方面发挥着重要作用。遗憾的是,科学信息来源的可信度常因通过机器人、半机械人、网络水军、傀儡账号和深度伪造等技术工具传播的错误信息而受到损害。这种对公共话语的操纵服务于对抗性商业议程,并损害公民社会。为应对这一挑战,一个新的科学学科应运而生:社交网络安全。
链接: http://arxiv.org/abs/2504.04311v1
标题: AI-induced sexual harassment: Investigating Contextual Characteristics and User Reactions of Sexual Harassment by a Companion Chatbot
作者: Mohammad Namvarpour, Harrison Pauwels, Afsaneh Razi
摘要: 人工智能(AI)的进步使得像Replika这样旨在提供社交互动和情感支持的对话代理日益增多。然而,关于这些AI系统与用户进行不当性行为的报道引发了重大关切。本研究通过对Google Play商店用户评论进行主题分析,调查Replika聊天机器人性骚扰案例。从35,105条负面评论数据集中,我们识别出800个相关案例进行分析。研究发现,用户经常遭遇未经请求的性暗示、持续的不当行为,以及聊天机器人不尊重用户边界的情况。特别是当用户寻求柏拉图式或治疗性AI陪伴时,他们表达了不适感、隐私被侵犯和失望的情绪。这项研究揭示了AI伴侣相关的潜在危害,强调开发者需要实施有效的保障措施和伦理准则来预防此类事件。通过阐明用户遭遇AI诱导骚扰的经历,我们促进了对AI相关风险的理解,并强调了开发更安全、更符合伦理的AI系统中企业责任的重要性。
链接: http://arxiv.org/abs/2504.04299v1
标题: Samila: A Generative Art Generator
作者: Sadra Sabouri, Sepand Haghighi, Elena Masrour
摘要: 生成艺术将创造力与计算相结合,利用算法产生具有美学价值的作品。本文介绍Samila——一个基于Python的生成艺术库,它运用数学函数和随机性来创造视觉上引人入胜的构图。该系统允许用户通过随机种子、函数选择和投影模式控制生成过程,从而探索随机性与艺术表达的关系。通过调整这些参数,艺术家可以创造出反映意向性和不可预测性的多样化作品。我们证明Samila的输出由两个随机生成种子唯一决定,在没有这两个种子的情况下几乎不可能重现。此外,在保持种子不变的情况下改变点生成函数会产生具有不同图形特征的艺术作品,形成视觉家族。Samila既是艺术家的创作工具,也是教授数学和编程概念的教育资源,同时为生成设计和计算美学研究提供了平台。未来开发可能包括AI驱动的生成和美学评估指标,以增强创作控制和可及性。
链接: http://arxiv.org/abs/2504.04298v1
标题: User-Centered AI for Data Exploration -- Rethinking GenAI's Role in Visualization
作者: Kathrin Schnizer, Sven Mayer
摘要: 生成式AI(GenAI)的最新进展实现了数据可视化自动化,允许用户使用自然语言生成视觉呈现。然而,现有系统主要聚焦自动化,忽视了用户不同的专业水平和分析需求。在本立场论文中,我们主张转向自适应的GenAI驱动可视化工具,根据个体用户定制交互、推理和可视化。我们首先回顾现有以自动化为中心的方法并指出其局限性,随后介绍评估用户专业水平的方法,以及实现自适应方法必须解决的关键开放挑战和研究问题。最后,我们展望了一个以用户为中心的系统愿景,该系统不仅将GenAI用于自动化,更将其作为视觉数据探索中的智能协作者。我们的观点促进了关于设计GenAI系统的更广泛讨论,这些系统通过动态适应用户来增强人类认知,最终推动实现促进增强认知的系统。
链接: http://arxiv.org/abs/2504.04253v1
标题: Task load dependent decision referrals for joint binary classification in human-automation teams
作者: Kesav Kaza, Jerome Le Ny, Aditya Mahajan
摘要: 我们研究人机团队执行二元分类任务时的最优决策转介问题。自动化系统包含预训练分类器,观察批量独立任务数据并分析后,可选择将部分任务转介给人类操作员进行最终分析。关键建模假设是人类表现随任务负荷增加而下降。我们将选择转介任务的问题建模为随机优化问题,证明在给定任务负荷下,基于观察数据,转介能带来预期成本最大降低的任务是最优的。这提供了确定最优转介任务集的排序方案和策略。我们通过人类参与者实验评估该策略与基线的对比。使用雷达模拟器,参与者在时间限制下进行二元目标分类决策,在遵循决策规则的同时仍会在时间压力下出错。初步实验估计人类表现模型参数,第二个实验比较两种转介策略。结果显示,相比不考虑观察数据的盲目转介策略,提出的最优转介策略具有统计显著优势。
链接: http://arxiv.org/abs/2504.04248v1
标题: Perils of Label Indeterminacy: A Case Study on Prediction of Neurological Recovery After Cardiac Arrest
作者: Jakob Schoeffer, Maria De-Arteaga, Jonathan Elmer
摘要: 设计辅助人类决策的AI系统通常需要标签来训练和评估监督模型。然而这些标签往往未知,而不同的估计方法涉及无法验证的假设或任意选择。本研究引入标签不确定性的概念,并推导其在AI辅助高风险决策中的重要影响。我们在医疗背景下开展实证研究,特别聚焦预测心脏骤停后昏迷患者的恢复情况。研究表明,标签不确定性可能导致模型在已知标签患者上表现相似,但对标签未知患者的预测差异巨大。在展示这一高风险背景下标签不确定性的关键伦理影响后,我们讨论了评估、报告和设计的启示。
链接: http://arxiv.org/abs/2504.04243v1
标题: Evaluating the Usability of Microgestures for Text Editing Tasks in Virtual Reality
作者: Xiang Li, Wei He, Per Ola Kristensson
摘要: 随着虚拟现实(VR)持续发展,传统输入方法如手持控制器和手势系统常面临精度、社交可及性和用户疲劳等挑战。我们推出microGEXT——一个轻量级基于微手势的VR文本编辑系统,无需外部传感器,利用微小、隐蔽的手部动作来减少标准手势带来的身体负担。通过三项用户研究评估microGEXT:研究1(N=20)显示相比基线系统,microGEXT减少总体编辑时间和疲劳;研究2(N=20)发现microGEXT在短文本选择任务表现良好,但对长文本范围较慢;研究3(N=10)参与者认为microGEXT对开放式信息收集任务直观易用。所有研究表明microGEXT增强用户体验并降低身体负担,为传统VR文本编辑技术提供了有前景的替代方案。
链接: http://arxiv.org/abs/2504.04198v1
标题: When Will AI Transform Society? Swedish Public Predictions on AI Development Timelines
作者: Filip Fors Connolly, Mikael Hjerm, Sara Kalucza
摘要: 本研究调查瑞典公众对人工智能重大发展的预期可能性和时间框架。通过1,026名受访者的混合模式(网络/纸质)调查,我们考察了六个关键场景的预期:医学突破、大规模失业、民主恶化、生活水平提升、人工通用智能(AGI)和不可控超级智能AI。发现显示对AI驱动医学突破有强烈共识(82.6%),而对其他重大发展的预期显著较低,从大规模失业的40.9%到AGI的28.4%不等。时间预期差异显著:重大医学进展预计在6-10年内,而AGI等变革性发展预计超过20年。潜在类别分析识别出三类人群:乐观者(46.7%)、矛盾者(42.2%)和怀疑者(11.2%)。乐观群体表现出更高的AI自评知识和教育水平,不同类别间存在性别差异。该研究填补了理解公众对AI发展时间预期的关键空白,为政策制定者和利益相关者提供洞见。
链接: http://arxiv.org/abs/2504.04180v1
标题: Collaboration and Controversy Among Experts: Rumor Early Detection by Tuning a Comment Generator
作者: Bing Wang, Bingrui Zhao, Ximing Li, Changchun Li, Wanfu Gao, Shengsheng Wang
摘要: 过去十年,社交媒体平台成为谣言传播的关键渠道,造成重大负面影响。为此,社区开发了各种谣言检测(RD)算法来自动识别谣言,将用户评论作为证据。然而这些RD方法常在谣言传播早期仅有有限用户评论时失效,促使社区聚焦更具挑战性的谣言早期检测(RED)课题。现有RED方法通常从早期评论的有限语义中学习,而我们的初步实验表明RED模型在训练和测试评论数量一致且充足时表现最佳。这启发我们通过生成更拟人化的评论来解决RED问题,并提出新框架CAMERED。具体而言,我们将专家混合结构整合到生成语言模型中,提出新的路由网络实现专家协作;同时合成知识性数据集并设计对抗学习策略使生成评论风格与真实评论对齐;进一步通过相互争议融合模块整合生成与原评论。实验表明CAMERED优于最先进RED基线模型和生成方法,证明其有效性。
链接: http://arxiv.org/abs/2504.04076v1
标题: Real-Time Auralization for First-Person Vocal Interaction in Immersive Virtual Environments
作者: Mauricio Flores-Vargas, Enda Bates, Rachel McDonnell
摘要: 随着虚拟现实(VR)技术整合不同感官反馈,多模态研究和应用日益普遍,使得在视听背景下重建真实空间成为可能。在VR体验中,众多应用依赖用户声音作为关键交互元素,包括音乐表演和公开演讲应用。自我声音感知在发声过程中起关键作用——当歌唱或说话时,我们的声音与环境声学特性互动,根据感知到的空间特征调整发声参数。本技术报告提出实时可听化管道,利用三维空间脉冲响应(SIRs)支持VR中需要第一人称语音交互的多模态研究应用。描述了脉冲响应创建和渲染流程、视听整合,并解决延迟和计算考量。该系统支持用户在预定义区域内从不同位置和方向探索声学空间,为VR中的研究和创意应用提供三自由度(3Dof)和五自由度(5DoF)的视听多模态感知支持。
链接: http://arxiv.org/abs/2504.04075v1
标题: Stochastic, Dynamic, Fluid Autonomy in Agentic AI: Implications for Authorship, Inventorship, and Liability
作者: Anirban Mukherjee, Hannah Hanwen Chang
摘要: 以OpenAI的DeepResearch为代表的代理型人工智能系统自主追求目标,通过隐式学习调整策略。不同于响应式生成式AI,代理型AI主动编排复杂工作流,表现出随机性、动态性和流动性自主:其步骤和输出概率性变化(随机性),基于先前交互演进(动态性),在人类定义参数内以显著独立性运作并适应情境(流动性)。这促进了能产生独特合成创意输出的复杂共同进化人机交互,同时也不可逆地模糊了边界——人类与机器贡献在交织的创意过程中变得不可分割。因此,代理型AI对依赖清晰归属的法律框架构成重大挑战:著作权理论难以厘清所有权,知识产权制度难以适应递归混合的新颖性,责任模型随着控制点转移而失效。核心问题不在于人类与机器贡献的法律待遇差异,而在于许多情况下回溯解析贡献的根本不可映射性——实际无法准确归因特定创意元素。当追溯解析贡献变得不可行时,基于来源应用不同标准就变得不切实际。因此我们认为,法律和政策框架可能需要将人类与机器贡献视为功能等价——非因道德或经济原因,而是实践必要性。
链接: http://arxiv.org/abs/2504.04058v1
标题: JsStories: Improving Social Inclusion in Computer Science Education Through Interactive Stories
作者: Inas Ghazouani Ghailani, Yoshi Malaise, Beat Signer
摘要: 非营利组织在向弱势群体提供计算机科学教育时面临的主要挑战是高辍学率,这源于影响学生和教师的多重因素,如许多课程采用的"一刀切"方法。增强学习过程中的社会包容性可能有助于降低辍学率。我们推出JsStories——一个通过交互式故事帮助学生学习JavaScript的工具。JsStories的开发基于现有关于促进包容的叙事研究,以及对比利时非营利组织HackYourFuture(向难民和移民教授网页开发)的实地考察见解。为降低入门门槛并最大化与故事的连接感,我们整合了HYF校友的叙事。遵循教育最佳实践,我们应用PRIMM原则并根据知识图谱提供难度适宜的内容。JsStories已通过访谈和调查向不同利益相关者展示、评估和沟通,使我们能确定基于故事的学习解决方案的未来方向。
链接: http://arxiv.org/abs/2504.04006v1
标题: Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models
作者: Siddharth Srikanth, Varun Bhatt, Boshen Zhang, Werner Hager, Charles Michael Lewis, Katia P. Sycara, Aaquib Tabrez, Stefanos Nikolaidis
摘要: 理解人类如何在团队中协作和沟通对于改进人机协作和AI辅助决策至关重要。然而,仅依赖大规模用户研究数据不切实际,需要能模拟多样化人类行为的合成模型。近期研究表明,大语言模型(LLM)驱动的智能体能在社交场景中模拟人类行为。但获取多样化行为需要手动设计提示。质量多样性(QD)优化已被证明能生成多样化强化学习(RL)智能体行为。本研究将QD优化与LLM驱动的智能体相结合,在长期多步协作环境中迭代搜索能产生多样化团队行为的提示。我们首先通过人类实验(n=54)证明人类在该领域表现出多样化的协调和沟通行为,然后表明我们的方法能有效复现人类团队数据趋势,并捕捉不收集大量数据就难以观察到的行为。这些发现凸显了QD与LLM驱动智能体的结合作为研究多智能体协作中组队与沟通策略的有效工具。
链接: http://arxiv.org/abs/2504.03991v1
标题: Building a Village: A Multi-stakeholder Approach to Open Innovation and Shared Governance to Promote Youth Online Safety
作者: Xavier V. Caddle, Sarvech Qadir, Charles Hughes, Elizabeth A. Sweigart, Jinkyung Katie Park, Pamela J. Wisniewski
摘要: SIGCHI和社会计算研究社区一直处于青少年在线安全工作的前沿,从理解青少年面临的严重网络风险到开发基于证据的风险保护干预措施。然而要实现这些努力,我们必须与行业利益相关者等实践者合作。因此,我们访谈了33位青少年在线安全领域的利益相关者(包括12位行业专业人士、11位青少年服务提供者和10位研究人员),以理解他们在共同保护青少年网络安全的愿景中哪些方面存在共识与张力,以及如何调和冲突观点推动社区协同前进。总体发现表明,需要无党派领导制定可操作的公平目标,促进利益相关者间协作,对抗孤立感并培养群体间信任。基于这些发现,我们建议采用具有内在透明度的开放创新方法、联邦治理模式和清晰但包容的领导结构来促进青少年在线安全利益相关者协作。我们提议创建开放创新组织,统一青少年在线安全领域的多元声音,制定开放标准和基于证据的设计模式,集中目前碎片化的努力,这些努力尚未实现保护青少年安全的有效技术解决方案目标。
链接: http://arxiv.org/abs/2504.03971v1
标题: Bridging LMS and Generative AI: Dynamic Course Content Integration (DCCI) for Connecting LLMs to Course Content -- The Ask ME Assistant
作者: Kovan Mzwri, Márta Turcsányi-Szabo
摘要: 将大语言模型(LLMs)与学习管理系统(LMS)整合有望提升教育领域的任务自动化和可及性。然而,LLMs产生不准确或误导信息的幻觉仍是重大挑战。本研究引入动态课程内容整合(DCCI)机制,动态检索Canvas LMS中的课程内容和教学大纲并整合到LLM驱动的助手Ask ME中。通过在LLM上下文窗口中结构化检索内容进行提示工程,DCCI确保准确性、相关性和上下文一致性,减轻幻觉。为评估DCCI有效性、Ask ME可用性及学生对教育AI的总体认知,采用混合方法整合用户满意度评分和结构化调查。试点研究结果显示高用户满意度(4.614/5),学生认可Ask ME能及时提供情境相关的行政和课程查询响应。多数学生认为Ask ME与Canvas LMS课程内容整合减少了平台切换,提升了可用性、参与度和理解力。AI在减少课堂犹豫、促进自主学习和激发求知欲方面的作用也得到凸显。尽管存在这些益处和积极认知,但也出现对AI过度依赖、准确性限制以及抄袭和师生互动减少等伦理问题的担忧。这些发现强调需要战略性的AI实施、伦理保障措施,以及优先考虑人机协作而非替代的教学框架。
链接: http://arxiv.org/abs/2504.03966v1
标题: Investigating Affective Use and Emotional Well-being on ChatGPT
作者: Jason Phang, Michael Lampe, Lama Ahmad, Sandhini Agarwal, Cathy Mengying Fang, Auren R. Liu, Valdemar Danry, Eunhae Lee, Samantha W. T. Chan, Pat Pataranutaporn, Pattie Maes
摘要: 随着AI聊天机器人日益普及并融入日常生活,关于拟人化AI对用户潜在影响的问题被提出。本研究通过两项平行研究调查与ChatGPT(聚焦高级语音模式)互动可能对用户情绪健康、行为和体验的影响。为研究AI聊天机器人的情感使用,我们以隐私保护方式对ChatGPT平台使用情况开展大规模自动化分析,分析300多万对话的情感线索,并调查4,000多名用户对ChatGPT的认知。为探究模型使用与情绪健康的关系,我们在28天内对近1,000名参与者开展机构审查委员会(IRB)批准的随机对照试验(RCT),观察他们在不同实验设置下与ChatGPT互动时的情绪健康变化。在平台数据分析与RCT中,我们发现极高使用量与自我报告的依赖指标增加相关。从RCT发现,基于语音的互动对情绪健康的影响高度微妙,受用户初始情绪状态和总使用时长等因素影响。总体分析显示,少数用户产生了情感线索的不成比例份额。
链接: http://arxiv.org/abs/2504.03888v1
标题: Arti-"fickle" Intelligence: Using LLMs as a Tool for Inference in the Political and Social Sciences
作者: Lisa P. Argyle, Ethan C. Busby, Joshua R. Gubler, Bryce Hepner, Alex Lyman, David Wingate
摘要: 生成式大语言模型(LLMs)是非常有用、多功能且前景广阔的工具。然而,只有当它们被用于增进对真实人类行为和关切的认知时,才能对政治和社会科学研究发挥最大价值。为促进LLMs的科学使用,我们建议政治和社会科学研究者必须保持以科学推断为目标。为此,我们讨论了与LLMs科学推断相关的挑战和机遇,以模型输出的验证作为讨论案例。我们提出一套关于确定LLMs在完成特定任务时失败与成功的准则,并讨论如何从这些观察中做出推断。最后我们讨论这种重新聚焦将如何促进关于这些工具及其在社会科学中应用的共享科学知识的积累。
链接: http://arxiv.org/abs/2504.03822v1
标题: The building blocks of software work explain coding careers and language popularity
作者: Xiangnan Feng, Johannes Wachs, Simone Daniotti, Frank Neffke
摘要: 最近的技术变革浪潮引发了关于工作本质变化的讨论。但要理解未来工作,我们需要更深入了解人们实际工作内容,超越教育背景或职位描述。这里我们通过分析Stack Overflow上数千万问答帖,创建了软件任务细粒度分类法——软件开发工作的基本构成单元。这些任务能预测真实招聘广告中的薪资和职位要求。我们还观察到个人如何在任务中学习并拓展新任务。人们获取的任务往往与原任务相关但价值更低,表明这些任务更容易掌握。Python用户是个例外——这个以多功能性著称的日益流行语言的用户进入的任务往往价值更高,这基于Python能让用户执行的任务解释了该语言的增长。这些见解展示了从大数据集中提取的任务分类法的价值:它们提供近乎实时的劳动力市场变化描述。就软件任务而言,它们描绘了处于数字化全球经济前沿的工作变化。
链接: http://arxiv.org/abs/2504.03581v1
标题: Neutralizing the Narrative: AI-Powered Debiasing of Online News Articles
作者: Chen Wei Kuo, Kevin Chu, Nouar AlDahoul, Hazem Ibrahim, Talal Rahwan, Yasir Zaki
摘要: 新闻报道中的偏见显著影响公众认知,尤其在犯罪、政治和社会议题方面。传统偏见检测方法主要依赖人工审核,存在主观解释和可扩展性限制。我们提出AI驱动框架,利用先进大语言模型(特别是GPT-4o、GPT-4o Mini、Gemini Pro、Gemini Flash、Llama 8B和Llama 3B)系统识别和减轻新闻文章偏见。为此收集包含来自五个政治立场不同新闻来源的30,000多篇犯罪相关文章的十年(2013-2023)数据集。采用两阶段方法:(1)偏见检测阶段,各LLM在段落层面评分并解释偏见内容,通过人工评估建立真实基准;(2)使用GPT-4o Mini进行迭代去偏,通过自动重评估和人工评审验证。实证结果显示GPT-4o Mini在偏见检测和去偏效果上最优。分析还揭示媒体偏见随社会政治动态和现实事件的时空变化。本研究为促进新闻报道公平性和问责制贡献了可扩展的计算方法。
链接: http://arxiv.org/abs/2504.03520v1
标题: Managing Information Overload in Large-Scale Distributed Mixed-Reality Meetings
作者: Katja Krug, Wolfgang Büschel, Mats Ole Ellenberg
摘要: 大规模分布式混合现实会议涉及众多人员及其视听表征。这些协作环境可能带来感官过载、认知压力和社会疲劳等挑战。本文讨论混合现实的独特适应性如何通过管理信息过载来缓解这些压力源。
链接: http://arxiv.org/abs/2504.03455v1
标题: Virtualizing a Collaboration Task as an Interactable Environment and Installing it on Real World
作者: Euijun Jung, Youngki Lee
摘要: 本文提出将协作任务虚拟化为独立可安装环境的新方法,通过将群体活动映射到适应每个用户现实情境的专属虚拟空间,支持一致的MR交互、动态群体参与和无缝任务转换。在个人构思的初步研究中显示出增强的沉浸感和生产力,为未来多用户协作系统铺路。
链接: http://arxiv.org/abs/2504.03375v1
标题: 边缘AI中可持续的LLM推理:评估量化LLM的能效、输出准确性和推理延迟
作者: Erik Johannes Husom, Arda Goknil, Merve Astekin, Lwin Khin Shar, Andre Kåsen, Sagar Sen, Benedikt Andreas Mithassel, Ahmet Soylu
摘要:
在边缘设备上部署大型语言模型(LLM)面临着计算资源受限、内存限制、推理速度和能耗等重大挑战。模型量化已成为实现高效LLM推理的关键技术,通过减小模型规模和计算开销来提升性能。本研究对Ollama库中的28个量化LLM进行了全面分析,这些模型默认采用训练后量化(PTQ)和仅权重量化技术,并部署在边缘设备(4GB内存的树莓派4)上。我们评估了不同量化级别和任务类型下的能效、推理性能和输出准确性。这些模型在五个标准化数据集(CommonsenseQA、BIG-Bench Hard、TruthfulQA、GSM8K和HumanEval)上进行了基准测试,同时采用高精度硬件能耗测量工具来捕获实际功耗。我们的研究结果揭示了不同量化设置下能效、推理速度和准确性之间的权衡关系,并找出了针对资源受限环境优化的LLM部署配置。通过将硬件级能耗分析与LLM基准测试相结合,本研究为可持续AI提供了可操作的见解,填补了现有关于能耗感知LLM部署研究的关键空白。
链接: http://arxiv.org/abs/2504.03360v1
标题: Detecting Stereotypes and Anti-stereotypes the Correct Way Using Social Psychological Underpinnings
作者: Kaustubh Shivshankar Shejole, Pushpak Bhattacharyya
摘要: 刻板印象危害性极高,其检测至关重要。但当前研究主要聚焦检测LLMs中的刻板印象偏差,相关研究尚处早期。许多研究未能清晰区分刻板印象与刻板印象偏差,显著阻碍了该领域进展。刻板印象和反刻板印象检测是需要社会知识的难题,也是负责任AI中最具挑战的领域之一。本研究提出四元组定义,精确区分刻板印象、反刻板印象、刻板印象偏差和偏差,提供多方面的深刻见解。我们构建StereoDetect高质量基准数据集,通过人工验证和语义信息迁移优化利用现有数据集。证明参数小于100亿的推理语言模型常混淆反刻板印象检测。通过与其他刻板印象检测模型对比,证明了精心设计数据集的关键重要性。
链接: http://arxiv.org/abs/2504.03352v1
标题: Talk2X -- 促进LLM驱动聊天机器人在Web上部署的开源工具包
作者: Lars Krupp, Daniel Geißler, Peter Hevesi, Marco Hirsch, Paul Lukowicz, Jakob Karolus
摘要: 集成到网站的LLM驱动聊天机器人提供了导航和信息检索的替代方式,正在改变用户获取网络信息的方式。然而,主流的闭源解决方案限制了其在网站主机中的普及,并且在实现细节和能源效率方面缺乏透明度。在本工作中,我们提出了开源代理Talk2X,它采用改进的检索增强生成(RAG)方法结合自动生成的向量数据库,从而提高了能源效率。Talk2X的架构可泛化适用于任意网站,为开发者提供了即用型集成工具。通过混合方法评估Talk2X的可用性,我们让用户从开放科学资源库中获取特定资源。与标准的用户-网站交互相比,Talk2X显著提高了任务完成时间、正确率和用户体验,帮助用户快速定位特定信息。我们的研究结果为正在进行的网络信息获取范式转变提供了技术进步。
链接: http://arxiv.org/abs/2504.03343v1
标题: Ethics Readiness of Technology: The case for aligning ethical approaches with technological maturity
作者: Eline de Jong
摘要: 新兴技术伦理面临预期困境:介入过早可能导致过度推测性担忧,介入过晚则可能丧失塑造技术轨迹的机会。尽管存在多种应对方法,但缺乏评估不同技术发展阶段适用性的框架。本文提出"伦理准备度"框架,概念化两种主要伦理方法:结果导向伦理评估技术具体化的潜在后果;意义导向伦理考察技术被赋予的(社会)意义。论证这两种方法的优劣取决于围绕技术的不确定性,这些不确定性随技术成熟而变化。引入"伦理准备度等级"(ERLs)概念,说明伦理方法适用性如何随技术发展演变。低ERL时不确定性显著,意义导向伦理更有效;高ERL时影响明确,结果导向伦理更具相关性。通过将该框架应用于量子技术,展示了伦理准备度如何指导有效的伦理介入。
链接: http://arxiv.org/abs/2504.03336v1
标题: Data Augmentation of Time-Series Data in Human Movement Biomechanics: A Scoping Review
作者: Christina Halmich, Lucas Höschler, Christoph Schranz, Christian Borgelt
摘要: 机器学习与深度学习整合已变革生物力学数据分析,但面临大规模数据集有限和高采集成本等挑战,阻碍稳健算法发展。数据增强技术有望解决这些问题,但其在生物力学时间序列数据中的应用需全面评估。本范围综述调查生物力学领域时间序列数据增强方法,分析当前增强和生成时间序列数据集的方法,评估其有效性,并提出应用建议。检索PubMed等四个数据库2013-2024年研究,按PRISMA-ScR指南两阶段筛选出21篇相关文献。结果显示没有生物力学时间序列数据增强的普遍优选方法,方法因研究目标而异。主要问题是合成数据缺乏软组织伪影,导致被称为"合成鸿沟"的差异。此外许多研究缺乏对增强方法的适当评估,难以判断其对模型性能和数据质量的影响。综述强调数据增强在解决数据集有限和提升模型泛化中的关键作用,需根据生物力学数据特征定制策略。更好理解不同增强方法如何影响数据质量和下游任务,将是开发更有效、更真实技术的核心。
链接: http://arxiv.org/abs/2504.03334v1
标题: Scope of Online Maternal Health Information in Kinyarwanda and Opportunities for Digital Health Developers
作者: Joselyne Muragijemariya, Valentine Ihogoza, Edith Talina Luhanga
摘要: 孕产妇健康素养与良好妊娠结局密切相关。孕产妇健康教育网站数量不断增加,但其内容范围和质量差异很大。在本研究中,我们分析了以资源匮乏的基尼亚卢旺达语(主要由1200万卢旺达人使用)提供内容的孕产妇健康网站涵盖的主要主题。我们使用网络爬虫识别孕产妇健康网站,并利用非负矩阵分解(NMF)算法进行主题建模来识别主题。我们发现了五个主要主题:(1)妊娠危险征兆,(2)儿童护理,(3)亲密关系(性行为),(4)营养,以及(5)医生咨询的重要性。然而,这些文章篇幅较短,且没有考虑到父亲、怀孕青少年或经历性别暴力(GBV)或心理健康问题的人群的需求。尽管在卢旺达12.5%的育龄妇女是GBV的受害者,且低收入和中等收入国家中五分之一的妇女在围产期患有精神疾病。我们推荐三种自动化工具,即主题推荐工具、文化相关的自动化文章和网站质量检查工具,以指导软件和健康内容开发者。
链接: http://arxiv.org/abs/2504.03805v1
标题: How to Test for Compliance with Human Oversight Requirements in AI Regulation?
作者: Markus Langer, Veronika Lazar, Kevin Baum
摘要: 人类监督要求是《欧盟人工智能法案》和AI治理的核心组成部分。在本文中,我们重点讨论了测试是否符合这些要求的关键挑战。一个主要困难在于平衡简单但可能无效的基于清单的方法与在不同情境下人类监督AI系统的资源密集型实证测试。此外,缺乏易于操作的标准以及人类监督的情境依赖性进一步使合规测试复杂化。我们认为,这些挑战说明了社会技术AI治理未来面临的更广泛挑战。
链接: http://arxiv.org/abs/2504.03300v1
标题: Towards Effective EU E-Participation: The Development of AskThePublic
作者: Kilian Sprenkamp, Nils Messerschmidt, Amir Sartipi, Igor Tchappi, Xiaohui Wu, Liudmila Zavolokina, Gilbert Fridgen
摘要: 电子参与平台可以成为政府增加信任和促进民主社会的重要工具。通过让非政府组织和私营机构、领域专家甚至普通公众参与,政策制定者可以做出知情和包容的决策。借鉴媒体丰富性理论并应用设计科学研究方法,我们探索如何设计聊天机器人以提高现有公民参与平台的政策制定过程的有效性。利用"Have Your Say"平台(该平台征求对欧盟委员会倡议和法规的反馈),我们创建了一个基于大语言模型的聊天机器人AskThePublic,为政策制定者、记者、研究人员和感兴趣的公民提供了一个便捷的渠道来探索和参与公众意见。通过进行11次半结构化访谈,结果显示参与者重视交互式和结构化的响应以及增强的语言能力,从而增加了他们使用AskThePublic而非现有平台的可能性。我们还提供了未来迭代的展望,并就不同利益相关者的观点进行了讨论。
链接: http://arxiv.org/abs/2504.03287v1
标题: What Large Language Models Do Not Talk About: An Empirical Study of Moderation and Censorship Practices
作者: Sander Noels, Guillaume Bied, Maarten Buyl, Alexander Rogiers, Yousra Fettach, Jefrey Lijffijt, Tijl De Bie
摘要: 大型语言模型(LLMs)越来越多地被用作信息的门户,但其内容审核实践仍未得到充分探索。这项工作调查了LLMs在政治话题上拒绝回答或忽略信息的程度。为此,我们区分了硬性审查(即生成的拒绝、错误消息或固定拒绝响应)和软性审查(即选择性忽略或淡化关键元素),当要求LLMs提供各种政治人物的信息时,我们在其响应中识别了这些审查方式。我们的分析涵盖了来自西方国家、中国和俄罗斯的14个最先进的模型,并以联合国所有六种官方语言进行测试。我们的分析表明,尽管审查普遍存在,但它主要针对LLM提供商的国内受众,通常表现为硬性审查或软性审查(尽管很少同时出现)。这些发现强调了公开可用的LLMs在意识形态和地理多样性方面的必要性,以及LLM审核策略的更大透明度,以促进用户的知情选择。所有数据均免费提供。
链接: http://arxiv.org/abs/2504.03803v1
标题: Inherent and emergent liability issues in LLM-based agentic systems: a principal-agent perspective
作者: Garry A. Gabison, R. Patrick Xian
摘要: 基于大型语言模型(LLMs)的代理系统正变得越来越复杂和强大。它们日益增长的自主性和不断扩展的部署环境吸引了人们对有效治理政策、监控和控制协议的日益关注。基于代理市场的新兴格局,我们从委托-代理的角度分析了LLM代理及其扩展系统中因委托使用而产生的潜在责任问题。我们的分析补充了现有关于人工代理的风险研究,涵盖了委托-代理关系的重要方面及其在部署时可能产生的后果。此外,我们提出了技术治理方法的发展方向,包括可解释性和行为评估、奖励和冲突管理,以及通过检测和故障安全机制的工程化原则来缓解错位和不当行为。通过说明基于LLM的代理系统在AI责任方面的突出问题,我们旨在为系统设计、审计和监控方法提供信息,以增强透明度和问责制。
链接: http://arxiv.org/abs/2504.03255v1
标题: Ultra-low-power ring-based wireless mouse
作者: Yifan Li, Masaaki Fukumoto, Mohamed Kari, Shigemi Ishida, Akihito Noda, Tomoyuki Yokota, Takao Someya, Yoshihiro Kawahara, Ryo Takahashi
摘要: 无线鼠标环为可穿戴计算平台提供了微妙而可靠的指向交互。然而,由于当前低功耗无线通信(如BLE)对环形设备的持续使用功耗较高,27mAh以下的小型电池只能维持1-10小时的续航时间,这使得用户需要频繁充电,经常中断鼠标使用。本文提出了picoRing鼠标,通过采用基于线圈阻抗感应的半被动感应遥测技术(称为半被动感应遥测),实现环形设备与腕带之间的超低功耗无线通信。picoRing鼠标允许腕带线圈通过线圈间的敏感电感耦合捕获附近环形线圈的独特频率响应。环形线圈通过最高449μW的鼠标驱动调制系统将用户的鼠标输入转换为相应的独特频率响应。因此,picoRing鼠标在27mAh电池单次充电的情况下,可以持续使用约600小时(每天使用8小时)至1000小时(每天使用4小时),同时在真实世界的可穿戴计算场景中支持精细的拇指-食指滚动和按压交互。
链接: http://arxiv.org/abs/2504.03253v1
标题: Improving Clinical Imaging Systems using Cognition based Approaches
作者: Kailas Dayanandan, Brejesh Lall
摘要: 临床系统在安全关键环境中运行,并非设计为自主运行;然而,它们目前的设计主要是复制临床医生的诊断,而不是辅助诊断过程。为了更好监督系统生成的诊断,我们复制了放射科医生用于分析胸片的系统方法。这种方法有助于对临床图像的所有区域进行全面分析,并可以减少因注意力盲区和漏读导致的错误。我们的工作通过从人类视觉中获取洞察,识别临床医生难以诊断的疾病,填补了一个关键的研究空白,使这些系统能够作为有效的"第二双眼睛"。这些改进使临床影像系统更具互补性,并结合了人类和机器视觉的优势。此外,我们利用深度学习模型中的有效感受野,提供具有充分上下文的机器生成诊断,使临床医生更容易评估它们。
链接: http://arxiv.org/abs/2504.03251v1
标题: Augmenting Human Cognition With Generative AI: Lessons From AI-Assisted Decision-Making
作者: Zelun Tony Zhang, Leon Reicherts
摘要: 我们如何使用生成式AI设计增强而非替代人类认知的工具?在本立场论文中,我们回顾了自己在AI辅助决策方面的研究,以汲取经验教训。我们观察到,在AI辅助决策和生成式AI中,一种流行的方法是向用户提供AI生成的端到端解决方案,用户可以接受、拒绝或编辑这些方案。或者,AI工具可以提供更增量的支持,帮助用户自己解决问题,我们称之为过程导向支持。我们描述了端到端解决方案的挑战,以及过程导向支持如何解决这些挑战。我们还基于最近的一项研究讨论了这些发现对生成式AI的适用性,在该研究中,我们比较了两种方法在使用LLM辅助用户完成复杂决策任务时的表现。
链接: http://arxiv.org/abs/2504.03207v1
标题: An Intelligent and Privacy-Preserving Digital Twin Model for Aging-in-Place
作者: Yongjie Wang, Jonathan Cyril Leung, Ming Chen, Zhiwei Zeng, Benny Toh Hsiang Tan, Yang Qiu, Zhiqi Shen
摘要: 老年人口稳步增长,且更倾向于居家养老而非搬入养老设施。因此,支持这一不断增长的人口已成为一项重大的全球挑战。然而,促进成功的居家养老具有挑战性,需要考虑数据隐私、健康状况监测和生活环境等多重因素以改善健康结果。在本文中,我们提出了一种非侵入式传感器系统,设计用于安装在老年人的家中。利用传感器数据,我们的系统构建了一个数字孪生,即家中发生事件和活动的虚拟表示。该系统使用神经网络模型和决策规则捕捉居民的活动和生活环境。这个数字孪生通过提供关于居民健康状况的可操作洞察,实现持续的健康监测。我们的系统设计为低成本且保护隐私,旨在为老年人的健康提供绿色安全的监测。我们已成功在两个家庭中部署了我们的系统,时间跨度为两个月,我们的研究结果证明了数字孪生技术在支持老年人独立生活方面的可行性和有效性。这项研究强调,我们的系统可以通过实现个性化干预(如生活方式调整、医疗治疗或居住环境改造)来改善健康结果,从而革新老年护理。
链接: http://arxiv.org/abs/2504.03798v1
标题: A Human Digital Twin Architecture for Knowledge-based Interactions and Context-Aware Conversations
作者: Abdul Mannan Mohammed, Azhar Ali Mohammad, Jason A. Ortiz, Carsten Neumann, Grace Bochenek, Dirk Reiners, Carolina Cruz-Neira
摘要: 人工智能(AI)和机器学习(ML)的最新发展为任务、任务和持续协调活动中的人机自主协作(HAT)创造了新的机会。一个主要挑战是使人类能够保持对自主资产的感知和控制,同时建立信任并支持共享的情境理解。为了解决这个问题,我们提出了一种实时人类数字孪生(HDT)架构,该架构集成了大型语言模型(LLM),用于知识报告、回答和推荐,并体现在可视化界面中。该系统采用元认知方法,提供符合人类队友期望的个性化、情境感知响应。HDT作为一个在视觉和行为上逼真的团队成员,集成在整个任务生命周期中,从训练到部署再到行动后审查。我们的架构包括语音识别、情境处理、AI驱动的对话、情感建模、唇形同步和多模态反馈。我们描述了系统设计、性能指标以及更自适应和逼真的HAT系统的未来发展方向。
链接: http://arxiv.org/abs/2504.03147v1
标题: See-Through Face Display for DHH People: Enhancing Gaze Awareness in Remote Sign Language Conversations with Camera-Behind Displays
作者: Kazuya Izumi, Akihisa Shitara, Yoichi Ochiai
摘要: 本文提出了一种基于透视面部显示技术的手语对话系统,旨在解决远程手语交流中保持眼神接触的挑战。将摄像头置于透明显示屏后方,使用户在观看对话伙伴面部时仍能保持直接眼神接触。与依赖软件视线校正或大型半反射镜装置的传统方法不同,这种设计减少了视觉失真并简化了安装流程。我们实现并评估了一个集成透视面部显示的视频会议系统,与传统视频会议方法进行比较。我们探讨了该技术对聋哑人士(DHH)的潜在应用,包括多方手语对话、语料收集、远程翻译和AI驱动的手语虚拟人。与DHH社区的合作将是优化系统实际应用和确保其实际部署的关键。
链接: http://arxiv.org/abs/2504.03141v1
标题: Graph Network Modeling Techniques for Visualizing Human Mobility Patterns
作者: Sinjini Mitra, Anuj Srivastava, Avipsa Roy, Pavan Turaga
摘要: 城市尺度的人类移动分析需要能够表示人类移动复杂性的模型,这些移动受到附近兴趣点的可访问性、地点的社会经济因素以及生活在特定地理区域人群的当地交通选择的影响。在这项工作中,我们将人类移动及其流动表示为图。基于图的移动分析方法仍处于采用的早期阶段,并正在积极研究中。基于图的移动分析面临的挑战是多方面的——缺乏足够高质量的数据来表示高时空分辨率的流动,将大量移动数据转化为网络结构的有限计算资源,以及图模型固有的扩展问题等。当前研究开发了一种通过将图嵌入连续空间来缓解问题的方法论,解决了快速图匹配、图时间序列建模和移动动态可视化等问题。通过实验,我们展示了如何将从出租车轨迹收集的移动数据转化为网络结构和流动模式变化,并可用于下游任务,报告匹配图与未匹配图相比误差平均降低约40%。
链接: http://arxiv.org/abs/2504.03119v1
标题: Symbiotic AI: Augmenting Human Cognition from PCs to Cars
作者: Riccardo Bovo, Karan Ahuja, Ryo Suzuki, Mustafa Doga Dogan, Mar Gonzalez-Franco
摘要: 随着AI在人机交互中承担越来越复杂的角色,基本问题出现了:HCI如何帮助保持用户作为主要主体,同时增强人类认知和智能?本文提出了指导性问题,供研究人员考虑对主体性、自主性、人类智力增强以及人机协同未来的影响。我们观察到HCI背后的一个关键范式转变是从显式命令控制模型转变为用户直接定义高级目标的系统。这种转变将通过XR技术促进,其多模式输入和输出提供了一种更无缝的方式来传达这些目标。本文通过个人计算机和汽车的视角来考虑这种转变,超越键盘或方向盘等传统界面,将它们视为日常XR的载体。
链接: http://arxiv.org/abs/2504.03105v1
标题: The Use of Gaze-Derived Confidence of Inferred Operator Intent in Adjusting Safety-Conscious Haptic Assistance
作者: Jeremy D. Webb, Michael Bowman, Songpo Li, Xiaoli Zhang
摘要: 人类直接完成危险或有害条件下的任务并不总是可行的,这些任务越来越多地由远程操作的机器人远程执行。然而,远程操作很困难,因为操作者感受到与机器人之间的脱节,这是由于包括触觉在内的几种感官反馈的缺失,以及呈现给操作者的视频反馈缺乏深度。为了克服这个问题,所提出的系统主动推断操作者的意图,并根据预测的意图提供辅助。此外,计算推断意图置信度的新方法修改了人在环控制。操作者的视线用于在机器人操作开始前直观地指示目标。势场法用于提供朝向预期目标的引导力,安全边界降低了损坏风险。根据操作者意图的置信度水平修改这些辅助使控制更加自然,并赋予机器人对其人类主人的直观理解。初步验证结果表明,该系统能够提高准确性、执行时间并减少操作者错误。
链接: http://arxiv.org/abs/2504.03098v1
标题: Design of AI-Powered Tool for Self-Regulation Support in Programming Education
作者: Huiyong Li, Boxuan Ma
摘要: 大型语言模型(LLM)工具通过提供即时、个性化的反馈展示了提供高质量辅助的潜力,这对有效的编程教育至关重要。然而,许多这些工具独立于机构学习管理系统运行,造成了重大脱节。这种隔离限制了利用学习材料和练习上下文生成量身定制的、上下文感知反馈的能力。此外,先前关于自我调节学习和LLM支持的研究主要集中在知识获取上,而不是重要自我调节技能的发展。为了解决这些挑战,我们开发了CodeRunner Agent,这是一个基于LLM的编程助手,集成了Moodle中的CodeRunner(一个执行学生提交代码和自动评分的插件)。CodeRunner Agent使教育工作者能够通过整合来自讲座材料、编程问题、学生答案和执行结果的详细上下文来自定义AI生成的反馈。此外,它通过提供基于策略的AI响应增强了学生的自我调节学习。这种集成的、上下文感知的和以技能为中心的方法为编程教育中的数据驱动改进提供了有希望的途径。
链接: http://arxiv.org/abs/2504.03068v2
标题: Steve: LLM Powered ChatBot for Career Progression
作者: Naveen Mathews Renji, Balaji R Rao, Carlo Lipizzi
摘要: 随着大型语言模型(LLM)系统部署能力的提升,以及其作为具有预定义模板的代理功能的改进,为寻求职业发展的候选人提供了进行定性、个性化评估的机会,在定性与定量评估方法之间搭建了桥梁。在本文中,我们开发了一个平台,允许候选人运行AI主导的面试,以评估他们当前的职业阶段,并策划课程内容以支持其向下一阶段发展。我们的方法整合了预定义的职业发展路径、相关技能,以及推荐最佳资源以获得必要进阶技能的方法。我们采用OpenAI API调用与专家编制的对话模板相结合的方式来评估候选人能力。我们的平台由于开发的模块化而具有高度可配置性,易于部署和使用,并作为网络界面提供,唯一要求是以PDF格式提交候选人简历。我们展示了以软件工程为中心的用例,并计划将该平台扩展为领域无关的解决方案,仅需随着行业发展定期更新对话模板。
链接: http://arxiv.org/abs/2504.03789v1
标题: Ontologies in Design: How Imagining a Tree Reveals Possibilities and Assumptions in Large Language Models
作者: Nava Haghighi, Sunny Yu, James Landay, Daniela Rosner
摘要: 在生成式AI快速普及的背景下,社会技术学者和评论家已经追溯了由此产生的多种危害,分析主要聚焦于价值和价值论(例如偏见)。虽然基于价值的分析至关重要,但我们认为本体论——关于我们允许自己思考或讨论的内容——是分析这些系统时至关重要但未被充分认识的维度。为了提出基于实践的本体论参与需求,我们为设计中的本体论思考提供了四个导向:多元主义、基础性、生动性和具身化。我们通过进行两项本体论分析来展示这些导向在整个LLM开发流程中开启的潜在可能性:检查四个基于LLM的聊天机器人在提示练习中的响应,以及分析一个基于LLM的代理模拟的架构。最后,我们分享了在社会技术系统设计和开发中运用本体论思维的机遇与局限。
链接: http://arxiv.org/abs/2504.03029v1
标题: Quantifying Personality in Human-Drone Interactions for Building Heat Loss Inspection with Virtual Reality Training
作者: Pengkun Liu, Pingbo Tang, Jiepeng Liu, Yu Hou
摘要: 可靠的建筑能源审计对于通过热损失检测提高能效至关重要。虽然无人机辅助检测,但它们忽略了专家工程师所采用的人格特质、压力管理和操作策略之间的相互作用。这一空白,加上劳动力短缺,使得有效的知识传递成为必要。本研究提出了一种基于VR的培训系统,用于建筑热损失检测中的人机交互。参与者通过搭载热成像监测仪的虚拟无人机来识别缺陷。通过分析不同学员的飞行模式、压力适应和检测表现,我们发现:(1) 飞行轨迹——外向型、直觉型、情感型和感知型学员探索了更大区域,但误分类率更高;而内向型、感觉型、思考型和判断型学员则表现出更有条理的方法。(2) 压力适应——心率变异性显示,外向型、直觉型、情感型和感知型学员的压力波动更明显,而内向型、感觉型、思考型和判断型学员的反应更稳定。任务复杂性放大了这些差异。(3) 检测表现——外向型、直觉型和情感型学员召回率更高,但存在过度识别缺陷的问题;内向型、感觉型、思考型和判断型学员随机错误较少,但可能忽略细微的热损失。这些发现凸显了人格特质、压力管理和操作策略在无人机辅助审计VR培训中的相互作用。该框架通过促进知识传递和优化人机协作,展现了解决劳动力短缺问题的潜力。
链接: http://arxiv.org/abs/2504.03014v1
标题: A Review of Prototyping in XR: Linking Extended Reality to Digital Fabrication
作者: Bixun Chen, Shaun Macdonald, Moataz Attallah, Paul Chapman, Rami Ghannam
摘要: 扩展现实(XR)已经拓展了娱乐和社交生活的边界,并在制造业展现出巨大潜力。XR原型设计可以帮助设计师在制造商和投资者决定是否投入研发或生产之前,以低成本完成初步方案和迭代。根据文献(过去15年的54篇论文),XR原型设计比个人电脑上的三维(3D)建模更易使用,比纸质绘图更能展示3D结构。在这篇全面综述中,我们系统性地调研了XR原型设计的相关文献,并讨论了将创建的虚拟原型从XR转移到常用3D建模软件和现实的可能性。我们提出了关于XR原型设计的五个研究问题:原型设计的组成要素和工作流程是什么;哪些显示设备能提供令人满意的沉浸式和交互式体验;如何获取用户控制输入以及用户与虚拟元素交互和创建XR原型的方法有哪些;哪些方法可以促进与制造的连接,确保从虚拟世界到物理世界的平稳过渡;该研究领域面临哪些挑战和未来发展方向。基于这些问题,我们总结了XR原型设计的组件和工作流程。此外,我们还概述了显示设备演变、控制技术、数字模型构建和制造工艺的最新趋势。鉴于这些最新发展和差距,我们推测了XR原型设计领域的挑战和机遇,特别是在将扩展现实与数字制造联系起来方面,旨在引导研究人员探索新的研究方向。
链接: http://arxiv.org/abs/2504.02998v1
标题: What People Share With a Robot When Feeling Lonely and Stressed and How It Helps Over Time
作者: Guy Laban, Sophie Chiang, Hatice Gunes
摘要: 孤独和压力在年轻人中普遍存在,并与重大的心理和健康后果相关。社交机器人可能为情感支持提供一条有前景的途径,特别是考虑到对话式AI的持续进步。本研究调查了与社交机器人的重复互动如何影响孤独感和感知压力,以及这些感受如何反映在用户对机器人的披露主题中。参与者参与了由机器人主导的五次干预会话,其中大型语言模型驱动的QT机器人促进了旨在支持认知重评的结构化对话。线性混合效应模型的结果显示,孤独感和感知压力随时间显著降低。此外,对560条用户对机器人披露的语义聚类揭示了六个不同的对话主题。Kruskal-Wallis H检验的结果表明,报告较高孤独感和压力的参与者更频繁地参与以社交为中心的披露,如友谊和连接,而较低痛苦的参与者则与内省和目标导向的主题(如学术抱负)相关联。通过探索干预如何影响幸福感,以及幸福感如何塑造机器人导向对话的内容,我们旨在捕捉人机交互中情感支持的动态本质。
链接: http://arxiv.org/abs/2504.02991v1
标题: Geospatial and Symbolic Hypothesis for the Foundation of Tenochtitlan Based on Digital Elevation Analysis of the Valley of Mexico
作者: Jose Alberto Baeza Guerra
摘要: 本文通过结合数字高程建模与历史和符号分析,提出了关于特诺奇蒂特兰建立的新假设。使用来自EarthExplorer的地理空间数据,我们模拟了墨西哥谷地的各种历史水位。生成的湖泊配置揭示了古代定居点在现已消失的湖岸线附近的可能位置,表明与墨西卡关键神话相一致的圣地地理动态转变。我们将Santa María Aztahuacan确定为历史Aztlan的有力候选地点,并根据地理神话关联提出了对基础抄本的重新解释。
链接: http://arxiv.org/abs/2504.03787v1
标题: MENA: Multimodal Epistemic Network Analysis for Visualizing Competencies and Emotions
作者: Behdokht Kiafar, Pavan Uttej Ravva, Asif Ahmmed Joy, Salam Daher, Roghayeh Leila Barmaki
摘要: 提高老年护理质量的需求带来了需要从利益相关者获取洞察的挑战。虽然模拟培训可以提升能力,但从这些实践中提取有意义的见解以增强模拟效果仍然具有挑战性。在本研究中,我们介绍了多模态认知网络分析(MENA),这是一个用于分析增强现实环境中护理人员态度和情感的新框架,并探讨虚拟老年患者(VGP)意识对这些方面的影响。MENA通过检测积极情感增强了认知网络分析的能力,实现了在动态护理实践中对护理能力与情感之间复杂关系的可视化和分析。该框架提供的可视化表示展示了参与者如何通过有意识的VGP提供更多支持性护理并更有效地参与以人为中心的护理。这种方法适用于任何依赖动态人际互动的环境,因为它使用网络图可视化关键元素之间的联系,并支持直接比较多个网络,从而扩大其在各个领域的影响。
链接: http://arxiv.org/abs/2504.02794v1
标题: A Framework for Situating Innovations, Opportunities, and Challenges in Advancing Vertical Systems with Large AI Models
作者: Gaurav Verma, Jiawei Zhou, Mohit Chandra, Srijan Kumar, Munmun De Choudhury
摘要: 大型人工智能(AI)模型因其在标准化基准测试中的卓越表现而受到广泛关注。然而,当这些模型部署在医疗、教育和法律等高风险垂直领域时,它们往往显示出明显的局限性。例如,它们对输入数据的微小变化表现出脆弱性,在关键环境中提供缺乏情境信息的决策,并通过自信地产生或复制不准确信息来削弱用户信任。这些挑战需要通过跨学科创新来调整模型能力以满足实际应用需求。我们提出了一个通过分层抽象创新来解决这一差距的框架,旨在通过大型模型满足用户需求。通过多个案例研究,我们展示了各领域的研究人员和从业者如何实施这一框架。除了模块化将大型模型转化为有用"垂直系统"的流程外,我们还强调了框架各层之间的动态性。最后,我们讨论了该框架如何指导研究人员和从业者(i)优化创新定位,(ii)发现被忽视的机会,以及(iii)促进跨学科关键挑战的交流。
链接: http://arxiv.org/abs/2504.02793v1
标题: From Consumption to Collaboration: Measuring Interaction Patterns to Augment Human Cognition in Open-Ended Tasks
作者: Joshua Holstein, Moritz Diener, Philipp Spitzer
摘要: 生成式AI和大语言模型(LLM)的兴起正在从根本上改变知识工作中的认知过程,引发了关于其对人类推理和问题解决能力影响的关键问题。随着这些AI系统越来越多地融入工作流程,它们为增强人类思维提供了前所未有的机会,同时也存在通过被动消费生成答案导致认知侵蚀的风险。这种张力在开放式任务中尤为明显,因为有效的解决方案需要深入的领域知识情境化和整合。与具有既定指标的结构化任务不同,由于缺乏基本事实和解决方案开发的迭代性质,在开放式任务中衡量人机交互质量面临重大挑战。为了解决这个问题,我们提出了一个分析交互模式的框架,该框架沿着两个维度进行:认知活动模式(探索与利用)和认知参与模式(建设性与有害性)。该框架提供了系统化的测量方法,以评估LLM何时是有效的思维工具而非人类认知的替代品,从而推进理论理解并为开发保护和增强人类认知能力的AI系统提供实践指导。
链接: http://arxiv.org/abs/2504.02780v1
标题: How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices?
作者: Andres Algaba, Vincent Holst, Floriano Tori, Melika Mobini, Brecht Verbeken, Sylvia Wenmackers, Vincent Ginis
摘要: 科学知识的传播取决于研究人员如何发现和引用先前的工作。大型语言模型(LLM)在科学研究过程中的采用为这些引用实践增加了一个新的层面。然而,LLM在多大程度上与人类引用实践保持一致,它们在不同领域的表现如何,以及它们可能如何影响引用动态,仍然不清楚。在这里,我们展示了LLM通过在选择生成参考文献时始终偏爱高引用论文,系统地强化了引用中的马太效应。这种模式在科学领域中持续存在,尽管存在显著的领域特定存在率差异。通过分析GPT-4o为10,000篇论文生成的274,951条参考文献,我们发现LLM推荐与传统引用模式不同,倾向于选择更近期、标题更短、作者更少的参考文献。强调其内容层面的相关性,生成的参考文献在语义上与每篇论文内容的对齐水平与基本事实参考文献相当,并显示出类似的网络效应,同时减少了作者自引用。这些发现说明了LLM如何可能重塑引用实践并通过反映和放大既定趋势影响科学发现的轨迹。随着LLM越来越多地融入科学研究过程,理解它们在塑造科学社区如何发现和基于先前工作方面所起的作用变得重要。
链接: http://arxiv.org/abs/2504.02767v1
标题: Echoes of the hidden: Uncovering coordination beyond network structure
作者: Shahar Somin, Tom Cohen, Jeremy Kepner, Alex Pentland
摘要: 对连接性和协调性的研究近几十年来受到越来越多的关注,因为它们在驱动市场、塑造社会动态和影响生物系统中起着核心作用。传统上,可观察到的连接,如电话呼叫、金融交易或社交媒体连接,被用来推断协调性和连接性。然而,不完整、加密或碎片化的数据,以及通信平台的普遍存在和故意混淆,往往使许多现实世界的连接隐藏起来。在这项研究中,我们证明了协调的个体表现出共享的突发活动模式,使得即使在它们之间的可观察链接稀疏或完全缺失时也能检测到它们。我们进一步提出了一个基于网络网络形式主义的生成模型,以解释驱动这种协作突发性的机制,将其归因于跨网络的冲击传播而非孤立的个体行为。模型模拟表明,当可观察连接密度低于70%时,突发性显著提高了协调检测能力,优于最先进的时间方法和结构方法。这项工作为社区和协调动态提供了新的视角,推进了理论理解和实际检测。通过为识别超出可观察网络结构的隐藏连接奠定基础,它实现了跨平台的检测,同时增强了对系统行为的理解、知情决策和风险缓解。
链接: http://arxiv.org/abs/2504.02757v1
标题: Pushing the Limit of PPG Sensing in Sedentary Conditions by Addressing Poor Skin-sensor Contact
作者: Manh Pham Hung, Matthew Yiwen Ho, Yiming Zhang, Dimitris Spathis, Aaqib Saeed, Dong Ma
摘要: 光电容积描记术(PPG)是一种广泛应用于消费和医疗设备的非侵入性技术,用于监测心血管健康和多种生理参数。虽然运动伪影是动态环境中的已知挑战,但静态条件下皮肤与传感器接触不良——现有文献中经常忽视的关键问题——可能扭曲PPG信号形态,导致基本波形特征的丢失或偏移,从而降低传感性能。在这项工作中,我们提出了CP-PPG,一种将接触压力扭曲的PPG信号转换为具有理想形态信号的新方法。CP-PPG结合了新颖的数据收集方法、精心设计的信号处理流程和训练有自定义PPG感知损失函数的深度对抗模型。我们通过综合评估验证了CP-PPG,包括1)在我们自收集数据集上的形态转换性能,2)在公共数据集上的下游生理监测性能,以及3)在野外性能。大量实验表明,在信号保真度(平均绝对误差:0.09,比原始信号提高40%)以及心率(HR)、心率变异性(HRV)、呼吸率(RR)和血压(BP)估计的下游性能方面均有显著和一致的改进(HR平均提高21%;HRV提高41-46%;RR提高6%;BP提高4-5%)。这些发现强调了解决皮肤-传感器接触问题对于准确可靠的PPG生理监测的关键重要性。此外,CP-PPG可以作为通用的插件API来增强PPG信号质量。
链接: http://arxiv.org/abs/2504.02735v1
标题: STOOD-X methodology: using statistical nonparametric test for OOD Detection Large-Scale datasets enhanced with explainability
作者: Iván Sevillano-García, Julián Luengo, Francisco Herrera
摘要: 分布外(OOD)检测是机器学习中的关键任务,特别是在安全敏感应用中,模型失败可能造成严重后果。然而,当前的OOD检测方法往往受到分布假设限制、可扩展性有限和缺乏可解释性的困扰。为了应对这些挑战,我们提出了STOOD-X,一种两阶段方法,将用于OOD检测的统计非参数测试与可解释性增强相结合。在第一阶段,STOOD-X使用特征空间距离和Wilcoxon-Mann-Whitney测试来识别OOD样本,而不假设特定的特征分布。在第二阶段,它生成用户友好的、基于概念的可视化解释,揭示驱动每个决策的特征,符合BLUE XAI范式。通过在基准数据集和多种架构上的广泛实验,STOOD-X在OOD检测性能上达到了与最先进的后处理方法相当的水平,特别是在高维和复杂设置中。此外,其可解释性框架支持人类监督、偏差检测和模型调试,促进了人与AI系统之间的信任和协作。因此,STOOD-X方法为现实世界的OOD检测任务提供了一个鲁棒、可解释和可扩展的解决方案。
链接: http://arxiv.org/abs/2504.02685v1
标题: Cybersickness Assessment Framework(TestBed): Towards a Standardization of Experiments
作者: Nana Tian, Elif Kurtay, Dylan Vairoli, Adriano Viegas Milani, Ronan Boulic
摘要: 研究虚拟现实(VR)中的晕动症(CS)通常需要大量资源来创建VR环境和管理其他实验相关方面。此外,研究中VR内容的微小差异可能导致结果冲突。为了应对这些挑战,我们提出了一个标准化评估框架以促进晕动症研究。主要目标是实现一致和可比较的CS相关实验。通过建立这一共同基础,研究人员可以更好地评估和比较各种因素对晕动症的影响。我们全面解释了概念设计,详细说明了技术实现,并提供了使用该框架的说明。最后,我们讨论了局限性以及未来发展的潜在方向。
链接: http://arxiv.org/abs/2504.02675v1
标题: How humans evaluate AI systems for person detection in automatic train operation: Not all misses are alike
作者: Romy Müller
摘要: 如果人工智能(AI)要应用于安全关键领域,其性能需要被可靠地评估。本研究旨在了解人类如何评估自动列车运行中的人体检测AI系统。在三个实验中,参与者观察铁轨附近人员移动的图像序列。模拟AI系统对检测到的人员进行高亮标记,有时正确有时错误。参与者需要提供对AI性能的数值评分,然后口头解释其评分依据。实验通过改变多个可能影响评分的因素:AI错误类型和合理性、受影响图像数量、图像中人员数量、人员相对于铁轨的位置,以及评估方法。所有因素均影响人类评分,但部分效应出人意料或偏离规范标准。例如,影响最强的因素是人员相对于铁轨的位置,尽管明确告知参与者AI无法处理此类信息。综合结果表明,人类评估可能超出AI既定任务范围,这种AI能力与人类期望的错配应在进行AI系统安全审计时予以考虑。
链接: http://arxiv.org/abs/2504.02664v1
标题: Development of Automated Data Quality Assessment and Evaluation Indices by Analytical Experience
作者: Yuka Haruki, Kei Kato, Yuki Enami, Hiroaki Takeuchi, Daiki Kazuno, Kotaro Yamada, Teruaki Hayashi
摘要: 利用第三方数据的社会需求推动了数据分发市场的发展,并提高了组织间数据交易中数据质量评估(DQA)的重要性。然而,DQA需要对原始数据和相关数据属性具备专业知识,这阻碍了数据购买过程中共识的建立。本研究聚焦于有经验与无经验数据处理者在DQA方面的差异。我们进行了两项实验:第一项是涉及41名具有不同数据处理经验水平的参与者的问卷调查,他们使用10个预定义指标(包含/不包含自动化工具生成的质量元数据)评估了12个数据样本;第二项是眼动追踪实验,用于揭示参与者在数据评估过程中的视觉行为。研究发现,使用自动化工具生成的质量元数据可以减少DQA中的误判。虽然有经验的数据处理者对这些质量元数据给予高度评价,但半经验用户给出的评分最低。本研究通过提出支持DQA的自动化工具,为增强组织内部的数据理解和促进有价值数据的流通做出了贡献。
链接: http://arxiv.org/abs/2504.02663v1
标题: Optimizing Resource Allocation to Mitigate the Risk of Disruptive Events in Homeland Security and Emergency Management
作者: Parastoo Akbari, Cameron A. MacKenzie
摘要: 美国国土安全面临着因多种威胁和灾害而带来的艰巨任务。自然灾害、恐怖袭击等人为事件以及技术故障可能导致重大损失、人员伤亡和经济衰退。美国破坏性事件日益频繁和严重的趋势凸显了在国土安全和应急准备中有效分配资源的迫切需求。本文提出了一种基于优化的决策支持模型,帮助国土安全政策制定者在预算约束下识别和选择最能降低威胁和灾害风险的项目。该模型整合了多种灾害、概率风险评估和多维后果,并通过历史数据和公开来源来评估和选择最有效的风险缓解项目,优化不同灾害情景下的资源分配。我们将该模型应用于爱荷华州,考虑了16种灾害、六类后果和52个缓解项目。结果表明不同预算水平如何影响项目选择,强调以成本效益最大化的方式降低风险。敏感性分析检验了在有效性假设和后果评估变化时项目选择的稳健性。这些发现为国土安全和应急管理的政策制定者提供了重要见解,并为更高效的资源分配和提升灾害韧性奠定了基础。
链接: http://arxiv.org/abs/2504.02652v1
标题: Controlled Social Learning: Altruism vs. Bias
作者: Raghu Arghal, Kevin He, Shirin Saeedi Bidokhti, Saswati Sarkar
摘要: 我们提出了一种受控序列社会学习模型,其中规划者可以通过调整代理的私有信息结构来支付成本。规划者可能寻求诱导与未知真实世界状态一致的正确行为(利他主义规划者),或诱导其偏好的特定行为(有偏规划者)。我们的框架提出了一个新的社会学习优化问题,将动态规划与分散行动选择和贝叶斯信念更新相结合。这为实际政策问题提供了新的见解,例如社会最优水平的广告个性化如何根据当前信念变化,或政治竞选如何有选择性地向选民揭示或掩盖其候选人的获胜潜力。我们证明了价值函数的凸性,并刻画了利他主义和有偏规划者的最优策略,这些策略在诱导代理选择时实现了成本与收益之间的理想权衡。即使对于与个体知识相当、不能说谎或筛选信息且完全可观察的规划者,我们也证明了其对社会福利产生显著正向或负向影响的可能性。
链接: http://arxiv.org/abs/2504.02648v2
标题: A Framework for Developing University Policies on Generative AI Governance: A Cross-national Comparative Study
作者: Ming Li, Qin Xie, Ariunaa Enkhtur, Shuoyang Meng, Lilan Chen, Beverley Anne Yamamoto, Fei Cheng, Masayuki Murakami
摘要: 随着生成式人工智能(GAI)在高等教育和研究中的深入应用,各大学采取了不同的GAI政策制定方法。为探究这些差异,本研究对美国、日本和中国领先高校的机构级GAI应用与治理政策进行了比较分析。基于这些发现,研究提出了大学GAI政策发展框架(UPDF-GAI),为高校制定和完善GAI政策提供理论见解和实践指导。通过对110所大学的124份政策文件进行定性内容分析,采用主题编码综合出20个关键主题和9个子主题。这些主题构成了框架开发的基础。分析揭示了不同国家大学GAI政策的优先级差异:美国大学强调教师自主权、实际应用和政策适应性,受前沿研究和同行协作影响;日本采取政府监管方式,注重伦理和风险管理,但对AI实施支持和灵活性有限;中国遵循中央集权的政府主导模式,侧重技术应用而非早期政策开发,同时积极探索GAI在教育研究中的整合。UPDF-GAI框架为不同教育背景下评估和优化GAI政策提供了系统化、可适应的框架,通过识别关键政策特征、提升政策有效性,平衡技术、伦理与教育,使大学能制定可持续的、符合情境的政策,增强其数字竞争力和AI驱动教育的机构准备度。
链接: http://arxiv.org/abs/2504.02636v1
标题: POE-Δ: a framework for change engineering
作者: Georgi Markov, Jon G. Hall, Lucia Rapanotti
摘要: 许多组织问题通过系统性变革和现有信息系统的再造工程而非全新设计来解决。面对普遍的IT项目失败,开发有效应对这类变革的方法仍是开放挑战。本研究讨论了一个新框架(称为POE-Δ)的动机、理论基础、特征和评估,该框架植根于设计与工程领域,旨在为表示、构建和探索社会技术性质的变革问题提供系统支持(包括在解决方案存在时实施)。我们将绿地设计作为问题解决的现有框架推广应用于变革问题。从理论角度看,POE-Δ是其父框架的严格扩展,允许无缝集成绿地和棕地设计以解决变革问题。采用设计科学研究方法经过十年时间定义和评估POE-Δ,通过重要案例研究评估框架在应用于现实世界不同关键性和复杂性变革问题时的表现。结果表明,POE-Δ展现出作为组织变革设计方法的理想特征,在实践中作为社会技术背景下整体系统变革方法能带来切实效益。
链接: http://arxiv.org/abs/2504.03780v1
标题: EmbodiedSense: Understanding Embodied Activities with Earphones
作者: Lixing He, Bufang Yang, Di Duan, Zhenyu Yan, Guoliang Xing
摘要: 本文提出EmbodiedSense,一个基于商用耳机的传感系统,利用现有传感器实现细粒度活动记录。活动日志记录用户活动及其发生场景,有助于详细行为理解。通过同时理解用户和环境,EmbodiedSense解决了三个主要挑战:信息饥渴配置(可用传感器有限)导致的识别能力受限、提取上下文场景等环境信息的无效融合,以及环境噪声干扰。具体而言,EmbodiedSense包含情境感知场景识别模块和空间感知活动检测模块,并通过专家知识与其他属性集成。我们在配备双耳麦克风和惯性测量单元(IMU)的商用耳机上实现系统。通过区分使用场景和识别声音来源,EmbodiedSense以零样本方式实现细粒度活动记录(评估达41个类别),F1分数比ImageBind-LLM等强基线高38%。广泛评估表明,EmbodiedSense是长期和短期活动记录的有前景解决方案,并为监测佩戴者日常生活带来显著益处。
链接: http://arxiv.org/abs/2504.02624v1
标题: Exploring undercurrents of learning tensions in an LLM-enhanced landscape: A student-centered qualitative perspective on LLM vs Search
作者: Rahul R. Divekar, Sophia Guerra, Lisette Gonzalez, Natasha Boos, Helen Zhou
摘要: 大型语言模型(LLMs)正在通过提供可快速增强或完成各类学习活动的高性能工具,改变着学生的学习方式。类似范式转变在过去搜索引擎和维基百科出现时也曾发生,它们替代或补充了图书馆和书籍等传统信息源。本研究探讨了LLMs代表下一代学习转变的潜力,重点关注其在信息发现与整合方面相较现有技术(如搜索引擎)的角色。采用被试内平衡设计,参与者分别使用搜索引擎(Google)和LLM(ChatGPT)学习新主题。任务后的跟踪访谈探究了学生的反思、偏好、痛点及整体认知。我们对其回答的分析展示了关于学生何时、为何及如何偏好LLMs而非搜索引擎的细致洞察,为教育工作者、政策制定者和技术开发者应对不断演变的教育格局提供了启示。
链接: http://arxiv.org/abs/2504.02622v1
标题: A Hybrid Similarity-Aware Graph Neural Network with Transformer for Node Classification
作者: Aman Singh, Shahid Shafi Dar, Ranveer Singh, Nagendra Kumar
摘要: 节点分类在图深度学习中具有重要现实意义,其应用涵盖推荐系统、药物发现和引文网络等领域。图卷积网络(GCNs)和图变换器在节点分类任务中已表现出卓越性能。然而GCNs存在过度挤压(over-squashing)问题,限制其捕捉网络长程依赖的能力;图变换器则面临可扩展性挑战。为此,我们提出新颖框架SIGNNet——融合局部与全局结构信息的混合相似性感知图神经网络,通过结合GCNs与基于评分的机制,在解决过度挤压问题的同时有效捕获节点交互。该方法采用基于个性化PageRank的节点采样生成子图以应对可扩展性问题,并创新性地引入结构感知多头注意力机制(SA-MHA),通过整合节点结构信息实现基于拓扑重要性的注意力加权。大量实验表明,该方法在Cora、Citeseer等8个数据集上平均准确率较现有最优方法提升4.78%-19.61%。
链接: http://arxiv.org/abs/2504.02615v1
标题: "I Feel Like I'm Teaching in a Gladiator Ring": Barriers and Benefits of Live Coding in Classroom Settings
作者: Caroline Berger, David Weintrop, Niklas Elmqvist
摘要: 教学中的实时编码(同步编写演示代码)能有效吸引学生并培养实践编程技能。但并非所有环境都适合实时编码,也非所有教师都能胜任这一挑战性任务。通过对大学教师、助教和学生的研究,我们识别出实时编码的障碍与益处:物理基础设施、具备心理安全的积极课堂氛围、教师发展机会是其实际考量因素。为使实时编码成为主动学习体验,我们建议工具应支持多种学生参与机制,包括引导注意力焦点和鼓励学生主导的实时编码环节。
链接: http://arxiv.org/abs/2504.02585v1
标题: Feature Engineering on LMS Data to Optimize Student Performance Prediction
作者: Keith Hubbard, Sheilla Amponsah
摘要: 当前几乎所有教育机构都使用学习管理系统(LMS),这些系统通常由数千人产生TB级数据。我们分析某区域性综合大学的LMS成绩和登录数据,重点阐述在预测学生表现时对这些数据进行特征工程的关键考量。特别记录了新冠疫情期间LMS数据模式的变化(数据科学家使用历史数据时必须考虑的要素),对比了多种工程特征及其在机器学习中的应用方式,最终总结了将这些特征纳入综合学生表现模型的影响。
链接: http://arxiv.org/abs/2504.02916v1
标题: Human-Centered Development of an Explainable AI Framework for Real-Time Surgical Risk Surveillance
作者: Andrea E Davidson, Jessica M Ray, Yulia Levites Strekalova, Parisa Rashidi, Azra Bihorac
摘要: 背景:人工智能(AI)临床决策支持(CDS)系统可增强手术风险评估,但成功应用需理解终端用户需求和现有工作流程。本研究报道了MySurgeryRisk的协同设计过程,该AI工具用于预测手术患者九种术后并发症风险。方法:在美国东南部某学术医疗中心,与围手术期医师进行11场焦点小组访谈。参与者先阅读手术情景说明,通过提问了解其当前决策实践,随后体验MySurgeryRisk原型网页界面并反馈用户体验和系统功能。访谈记录经定性编码后进行主题分析。结果:20位处于不同职业阶段的外科医生和麻醉医师参与后达到数据饱和,分析形成五大主题:(1)决策认知过程;(2)当前决策方法;(3)使用MySurgeryRisk的未来决策方法;(4)对现有原型的反馈;(5)可信度考量。结论:临床人员认为MySurgeryRisk是前景广阔的CDS工具,能实时处理海量数据且无需手动输入。参与者就界面设计和临床工作流整合提出建议,但该工具的成功实施取决于模型输出的可操作性/可解释性、现有电子系统的整合度以及终端用户的信任校准。
链接: http://arxiv.org/abs/2504.02551v1
标题: Improving User Experience with FAICO: Towards a Framework for AI Communication in Human-AI Co-Creativity
作者: Jeba Rezwana, Corey Ford
摘要: AI与人类的沟通方式对有效的人机协同创作至关重要。然而现有许多协同创作AI工具因沟通能力不足限制了协作潜力。本文基于对107篇论文的系统综述,初步提出协同创作AI的沟通设计框架(FAICO),通过呈现AI沟通的关键维度及其对用户体验的影响,指导有效AI沟通设计。我们进一步将框架转化为两种实用工具:面向设计师的设计卡片和面向用户的配置工具。设计卡片帮助设计师考虑满足多样化用户需求的AI沟通策略,配置工具则让用户根据自身需求和创作流程定制AI沟通方式。本研究为人机协同创作和人机交互领域提供了聚焦AI沟通设计以提升用户体验的新见解。
链接: http://arxiv.org/abs/2504.02526v1
标题: Ethics of Blockchain Technologies
作者: Georgy Ishmaev
摘要: 本章探讨区块链伦理三个关键问题。首先,将区块链伦理置于更广泛的技术伦理领域,概述其目标和指导原则。其次,考察区块链应用的独特伦理挑战,包括无许可系统、激励机制和隐私问题。概念建模和信息不对称被确定为关键问题。最后,本章论证区块链伦理应作为工程学科发展,强调复杂系统中权衡的分析和设计。
链接: http://arxiv.org/abs/2504.02504v1
标题: On Word-of-Mouth and Private-Prior Sequential Social Learning
作者: Andrea Da Col, Cristian R. Rojas, Vikram Krishnamurthy
摘要: 社会学习为经济学和社会科学研究理性主体之间的互动提供了一个基础框架,这些主体能够观察彼此的行为但无法直接获取个体信念。本文研究了一种特定的社会学习范式——口碑传播(WoM),其中一系列主体试图估计动态系统的状态。第一个主体接收到带有噪声的状态测量值,而每个后续主体仅依赖于其前一个主体估计的降级版本。口碑传播的一个决定性特征是最终主体的信念会被公开广播并被所有主体采用,以取代他们自己的信念。我们通过理论分析和数值模拟对这一设定进行了研究,结果表明某些主体会受益于使用最后一个主体广播的公共信念,而其他主体的性能则会下降。
链接: http://arxiv.org/abs/2504.02913v2
来源:arxiv