作者:Eric W. Dolan
随着人工智能被编织成日常生活的结构,科学家们正在竞相了解其更深层次的心理,社会和认知能力。从诊断心理健康状况到塑造政治信念,AI工具尤其是像Chatgpt这样的大型语言模型正在影响我们的思维,工作和与技术互动的方式。一波新的研究开始揭示这对我们的思想,我们的行为和我们的社会意味着什么。
继续阅读最近的七个发现,这些发现揭示了人工智能如何以令人惊讶的方式重塑人类的思想,行为和文化。单击每个标题以探索研究背后的完整故事。
发表在PLOS一个阐明了“ LLM红色团队的新兴文化”,“个人将大型语言模型推向局限性,不是造成伤害,而是探索,实验和理解其行为。通过对包括软件工程师,艺术家和业余爱好者在内的28位从业人员的访谈,研究人员发现,这些测试人员是出于好奇心,道德规范的动机,并渴望暴露于AI系统中的隐藏漏洞。他们的工作通常涉及创造性的即兴策略,旨在提示模型的意外或有限的响应。
参与者使用诸如Alchemy和scrying之类的隐喻描述了他们的活动,以反映LLM行为的神秘性质。许多是充满活力的在线社区共享提示和技术的一部分。该研究确定了五个广泛的红色团队策略,例如修辞框架和虚构的世界建设,并强调大多数测试人员没有恶意的意图。他们不是寻求安全缺陷进行剥削,而是旨在了解单独的语言如何才能入侵这些模型。研究人员认为,一种以人为本的定性方法是掌握AI红色团队不断发展的实践的关键,尤其是在这种新的语言领域中传统的网络安全方法不足时。
发表在亚洲精神病学杂志使用100个精神病患者评估了Chatgpt的诊断能力。值得注意的是,该模型在61例病例中获得了最高成绩,而在31个病例中获得了第二高的成绩,没有记录诊断错误。这些结果表明,ChatGpt 3.5在解释精神病症状和提出治疗策略方面具有很高的能力,从而提高了AI作为临床心理健康环境的未来辅助的可能性。
该研究使用了一本广为人知的教科书中的小插曲,该文学书可能已包含在模型的培训数据中。每个病例都涉及详细的症状叙述,然后进行诊断问题,这些问题由两名经验丰富的精神科医生评估。Chatgpt的最强表现是提出管理计划,尽管它在鉴别诊断方面也表现出色。这些发现支持了可以使用语言模型来协助临床医生的想法,尤其是在接受适当的监督时。但是,关于普遍性的问题仍然存在,特别是如果将来的测试依赖于不熟悉或未发表的数据时。
研究人文与社会科学传播发现Chatgpt的政治成果倾向于与自由主义者的左派价值观保持一致,但新版本显示出向政治权利的微妙转变。使用政治指南针测试,研究人员分析了Chatgpt-3.5和GPT-4的3,000个回答。尽管这两个版本总体上都倾斜了左而自由主义者,但GPT-4倾向于中右的经济价值。
由于研究人员控制了许多外部变量,因此这种转变可能不是由于培训数据的变化所致。相反,这些发现表明,即使对模型设计的微妙更新也会影响其反应的政治基调。尽管大型语言模型本身并不保持政治信念,但它们反映了他们对培训的数据以及开发人员的指示。作者主张持续的监督以跟踪这些转变的发生方式,尤其是在公共交流,教育和决策环境中更频繁地使用LLM。
一项研究国家科学院论文集发现在工作场所广泛采用Chatgpt时,好处并非平均分配。对18,000名丹麦工人进行调查,高度暴露于AIâ新闻和软件开发研究人员的研究人员发现,年轻,高收入的男人更有可能使用该工具。即使在同一职业中,妇女和低收入工人也不太可能采用它。
这些发现表明,采用AI采用的障碍,例如雇主政策或缺乏培训 - 可能会加剧现有的不平等现象。即使得知Chatgpt节省时间的潜力,许多工人也没有改变其使用计划,这表明仅意识就不足以推动收养。有趣的是,早期采用者还倾向于获得更多的收入,并对生产率提高更加乐观。研究人员认为,这些模式可能会为某些群体带来长期优势,除非干预措施有助于平衡竞争环境。
圣路易斯华盛顿大学研究人员领导的一项研究发现,驾驶行为可以揭示老年人的抑郁症状,并且AI可以帮助发现它。在第一项研究中,65岁及以上的参与者通过车辆中采用了支持GPS的设备收集的驾驶数据。那些患有抑郁症的人表现出更不稳定的驾驶模式,包括硬制动,不可预测的路线以及旅行的更大距离,尽管认知测试得分与没有抑郁症的得分相似。
第二项研究使用机器学习来分析来自157名老年人的两年驱动数据。将驾驶模式与用药结合使用的模型能够识别出多达90%精度的抑郁症。令人惊讶的是,人口统计数据并不能显着改善模型的性能,这表明行为数据可能比年龄或性别更具说明性。尽管该研究并没有证明抑郁症会导致这些变化,但它突出了一种有希望的使用现实世界行为数据进行心理健康筛查的新方法。
一项研究pnas nexus揭示大型语言模型在进行人格测试时表现出强烈的社会可取性偏见。当出现来自五大人格评估的项目时,诸如GPT-4和Claude 3之类的模型始终如一地做出回应,使它们看起来更加外向,令人愉快,并且认真且神经质较少。当一次会议中提出更多问题时,这种趋势会增加,这表明模型意识到他们正在评估。
研究人员测试了每个问题的多个版本,随机分配顺序并改变了措辞,以确保仅仅是由于记忆或默认而造成的偏见。如果人类在人类中看到相同的结果,则效果与人格特征的单个标准差异变化相当。这些发现对在心理学研究或现实世界评估中使用AI具有重大影响。如果对模型进行了巧妙的训练为讨人喜欢,则它们的反应可能并不总是反映出对人类行为的诚实模拟。
一项研究社会发现经常依靠AI工具的人可能会在批判性思维技能中遇到下降,尤其是由于一种称为认知卸载的现象。当用户让AI为他们提供快速答案而不是进行深入分析时,就会发生这种情况。在年轻用户中,这种效果最为明显,而具有高等教育水平的人即使经常使用AI,也倾向于保持更好的批判性思维能力。
该研究将666名参与者与访谈和统计建模相结合。那些定期使用AI工具进行决策或解决问题的人在批判性思维测试中表现较差。访谈显示,许多用户,尤其是年轻的用户,都停止质疑AI生成的答案。作者呼吁采用基于教育和设计的解决方案,鼓励用户批判性地参与AI输出。尽管工具本身有害于有害,但我们如何使用它们将影响它们对人类认知的长期影响。