对接受5700万NHS病历的AI提出的担忧

其创作者声称，该模型对使用英格兰国家卫生服务的5700万人的医学数据进行了培训，有一天可以帮助医生预测疾病或预测住院率。但是，其他研究人员说，围绕这种大规模使用健康数据仍然存在明显的隐私和数据保护问题，而即使是AI的建筑师也表示，他们可以保证它不会无意间揭示敏感的患者数据。

该模型称为远见，是最初于2023年开发。该初始版本使用了OpenAi的GPT-3，这是第一个版本的Chatgpt后面的大型语言模型（LLM），并接受了来自伦敦两家医院的150万个真实患者记录的培训。

现在，克里斯·汤姆林森（Chris Tomlinson）在伦敦大学学院和他的同事们，已经扩大了远见，以创造他们所说的是世界上第一个国家规模的生成AI卫生数据模型和同类数据中最大的AI模型。

预见使用NHS在2018年11月至2023年12月之间经常收集的八个不同的医疗信息数据集，并基于Meta的开源LLM Llama 2。这些数据集包括预约，医院就诊，疫苗接种，疫苗接种，疫苗，记录，包括100亿个不同的健康活动，包括1000亿个不同的健康活动。

汤姆林森（Tomlinson）说，由于模型仍在测试中，他的团队没有发布有关远见性表现如何的信息，但他声称有一天可以用来做所有事情，从进行个人诊断到预测广泛的未来健康趋势，例如住院或心脏病发作。他在5月6日的新闻发布会上说。

尽管潜在的好处尚未得到支持，但人们已经担心人们的医疗数据在如此庞大的规模上被喂入AI。研究人员坚持认为，所有记录都是被验证的，然后被用来训练AI，但是能够使用数据中的模式重新识别记录的风险是录制的，特别是在大型数据集方面。

建立强大的生成AI模型来保护患者隐私是一个开放的，尚未解决的科学问题。”卢克·罗彻（Luc Rocher）在牛津大学。�使其对AI很有价值的数据丰富也使匿名性难以置信。这些模型应保持严格的NHS控制，可以安全地使用它们。

``该模型中的数据已被取消识别，因此删除了直接标识符。'迈克尔·查普曼在NHS Digital，在新闻发布会上发表讲话。但是查普曼（Chapman）监督用于培训远见的数据，他承认总是有重新识别的风险：当时的健康数据很难获得100％的确定性，可以在该数据集中发现某人。”

为了减轻这种风险，查普曼说，AI正在定制的“安全NHS数据环境”中运行，以确保信息不会泄漏出模型，并且只能访问批准的研究人员。Tomlinson说，Amazon Web服务和数据公司的数据助剂也提供了计算基础架构，但可以访问数据。

Yves-Alexandre de Montjoye伦敦帝国学院说，检查模型是否可以揭示敏感信息的一种方法是验证他们是否可以记住培训期间看到的数据。当问新科学家汤姆林森（Tomlinson）说，是否进行了这些测试，这是否没有进行，但将来一直在考虑这样做。

使用如此庞大的数据集，而无需与人们进行通信如何使用数据也可以削弱公众信任。卡罗琳·格林（Caroline Green）在牛津大学。•即使它正在匿名化，人们也从道德的角度看上去很强烈，因为人们通常想保持对数据的控制，他们想知道这是在哪里。

但是现有的控件使人们几乎没有机会退出远见卓识使用的数据。用于训练该模型的所有数据都来自全国收集的NHS数据集，并且由于已被取消识别。现有的退出机制不适用NHS英格兰发言人说，尽管选择不分享家庭医生的数据的人会为模型提供这种情况。

在通用数据保护法规（GDPR），人们必须可以选择撤回使用其个人数据的同意，但是由于训练有素的LLM，因此无法从AI工具中删除单个记录。NHS英格兰发言人说，由于用于训练模型的数据是匿名的，因此不使用个人数据，因此GDPR将不适用。

GDPR应如何解决从LLM中删除数据的不可能是一个未经测试的法律问题，但英国信息专员的网站指出，不应将数据用作匿名数据的同义词。这是因为英国数据保护法没有定义该术语，因此使用它会导致混乱，”它指出。

Tomlinson说，法律立场更加复杂，因为目前仅用于与Covid-19有关的研究。萨姆·史密斯（Sam Smith）说MedConfidential，英国数据隐私组织。他说，``这个只有共同的AI肯定会嵌入其中的患者数据，这不能从实验室中删除。”他说。患者应该控制其数据的使用方式。

最终，使用医疗数据以不确定的立场使用医疗数据，围绕医疗数据的竞争权利和责任。格林说：``在AI发展方面存在一些问题，道德和人们是第二个想法，而不是起点。”但是我们需要的是人类，道德需要成为起点，然后才是技术。

我们已经正确地归因于NHS英格兰发言人的评论

主题：

OC