跳到主要内容


博客

数据科学的护栏:医疗保健的法规和认证

2021年1月20日

在此帖子中,我们探讨了为数据科学努力提供守卫的指导方针。护栏通常是普遍接受的标准或数据科学家提供的最佳实践的例子,并通过严谨的科学实验获得。法规是最佳实践的正式化,并为确保数据科学家,如临床提供者,对患者造成任何伤害的标准。我们现在探讨这些指导方针和正式规定,旨在为医疗保健提供数据科学的工具和护栏。在我们的探索中,我们将发现上下文(例如,执行医疗保健行动与进行科学研究),在其中使用医疗保健数据来通知数据科学努力的规定。

HIPAA:隐私和耐心信任

HIPAA代表健康保险便携性和问责法。1996年由比尔克林顿总统签署,并进一步执行hitech.2009年的行动。它的创建是为了确保医疗保健部门收集的个人身份信息(PII)和受保护的健康信息(PHI)在未经患者同意或知情的情况下不会被披露。

为了能够在与健康相关的数据和得出结论中搜索模式,数据驱动实体需要访问患者的PHI信息,例如疗程,诊断和历史记录的药物。pii.-如年龄,地址或人口统计数据-收集这些信息是为了在分析中包含这些信息。患者的全名是一个关键因素,它有助于跟踪不同保险范围内患者的变化,并收集较长时间的数据,特别是对于多发性硬化症(MS)这样的慢性疾病。

这些信息是对健康相关领域进行适当分析的必要条件;事实上,如果没有这种结构化注释,就不会有许多创新和科学进步。例如,基于遗传检验的癌症风险因素的估计表明了很大的进展,因为我们开始收集遗传数据以便能够在不同癌症亚型和诊断之间找到相似性和差异。

确保遵守情况HIPAA安全规则,访问PHI和敏感信息仅限于授权人员。通常,PII和PHI接收的数据被预处理到“去识别”它,然后能够对需要该数据进行分析的人员访问。这identification consists on matching different sources of data (e.g. MRIs, EMR, biomarkers, claims data, etc.) to the same patient, dropping every PII and associating to all these data sources a random and unique “patient_id” that allows matching the sources, if required. A patient’s various data sources are often mapped to the patient using a主患者指数解决方案。数据谱系数据来自的政策和实践轨道,如何处理数据,谁如何通过其作为数据科学工作的一部分来通过其旅程移动到它的旅程。这种勤奋水平对于确保没有不适当的PHI,安全违规行为或违反会对患者隐私产生负面影响的政策和程序没有不适当的披露是重要的。

PII保护的目的是减轻和降低风险,而不是完全消除它。数据的去识别和匿名化以使其在数据科学工作中的使用是监管风险缓解的例子。案例如Breyer v德国证明可能难以确定PII是什么,并通过监管努力完全消除风险。在本2016年的案件中提交德国法院的问题是一种动态分配的IP(互联网协议地址,每当用户浏览Internet时,都会被分配,应该被视为PII。如在许多情况下,答案是它取决于上下文和细节的复杂组合。通过科学进步的技术正在不断发展,保障患者隐私将需要持续勤奋。

不是HIPAA符合人是一个严重的主题,在国家和联邦级别带来严重后果。非融合性的处罚基于疏忽程度,每次违规(或每份记录)的价格可从100美元到50,000美元,最高刑罚每年违反相同规定的250万美元。违规行为也可以携带可能导致监禁时间的刑事指控。

全球隐私:GDPR

一般资料保障规例,是欧盟个人数据保护标准。该监管影响每个个人数据的众多方面,包括:

  • 允许的数据类型和处理方式,
  • 他们必须选择的条件,
  • 能够删除数据,
  • 提高数据处理中的透明度和问责制,特别是关于第三方的数据分享。

虽然HIPAA的重点是保护一个人的健康数据,但GDPR强调了一个人的所有权和控制数据。特别是,这包括要求患者专门选择数据收集的要求以及让他们的数据容易地从他们以前所犯过同意的公司中删除的能力。来自GDPR的一般外带是您需要让您的系统能够允许您的客户完全从系统中完全删除自己的系统,因为它是船上的努力。您还必须提供有关其他第三方群体使用客户数据的信息。可以找到GDPR要求的良好概述这里

GDPR中关于加强问责制、透明度和同意的要点,虽然不是没有成本,但通常属于良好的科学实践和良好的科学传播的范畴。公司、大学或医院的工作人员应该能够向试验对象或应用程序用户解释研究或分析的目标、方法和好处,而且要有足够的说服力来说服公众。从审计的角度来看,从组织的记录中删除数据的问题提出了一个关于模型开发的特别有趣的问题。如果有人(或几个人)的数据被用来训练一个模型,以便在临床环境中使用,而这个人/这些人决定从执行该工作的组织中删除他们的数据,那么这些数据将不再用于构建和训练未来的模型。在训练、测试和验证之后,模型本身(即用于评估应用某些临床标签的概率的数字对象)将被存储以备将来使用。然而,它的创建者将不能再使用完全相同的数据来训练后续的模型,无论是升级还是审计检查。这意味着模型构建者既需要理解自己,也需要向世界传达与他们的模型相关的不确定性。例如,如果一个模型的第一个版本估计某些患者患有某种特定疾病的概率为5.3±1.4%,而在一个略微(甚至完全)不同的数据集上训练的更新模型估计该概率为4.9±1.3%,那么这些结果在统计上是相互一致的。事实上,许多机器学习模型在样本的分组或排序方面都具有随机性,因为模型达到了最终的配置。这些对模型参数的随机变化很小,但不是零。 The concept of both experimental and modeling uncertainty is a vitally important one, and should be a part of the way we think about clinical tests, and indeed many other types of statistical analysis (physical measurements, lab tests, political polls, etc.). This too, can be filed under the heading of good scientific practice that should be adopted more broadly regardless of any external regulatory burden.

云计算是否兼容或安全?

云提供商,云服务和云数据中心已经乘坐了数据中心租用物理空间的现有业务模式,并抽象了物理层,只允许数字访问您所支付的资源。10bet网站大全最大的供应商,亚马逊Web服务,Microsoft Azure和Google Cloud平台进行了沉重的提升,以获得不同的安全认证,并经常审核,以便您不必提供提供BAAS。警告是,由于潜在的物理基础设施和网络遵循他们在其网站上自豪地吹嘘的所有认证,并不意味着您运行的工作负载正在遵循这些标准。云服务的客户负责携带HIPAA符合条件的服务,并遵循指南,以使符合这些服务。

最小特权政策(PoLP)

提出个人的哲学只能访问进行工作​​所需的数据听起来合理,对吧?我们相信策略是一个基础概念,同意这是一个很好的方法数据治理数据管理数据管理队在职能中发挥作用。在涉及患者数据的任何努力的开始时,实施POLP指南是很困难或不可能的。通常,数据科学家和工程师应该限于数据集和个人数据元素,以便在不限制创新或临床洞察的情况下努力。实施POLP可以技术上困难,需要一个组织来建立所有利益相关者支持的政策和程序。强大的波国政策在同时保护患者,使临床洞察力的发展能够发展。POLP的经常被忽视的方面是,它不仅适用于数据科学工作中的人类,而且对工程管道,机器学习算法,数据存储系统以及任何努力所采用的整体工作流程。

软件作为医疗设备(SAMD)

国际医疗设备监管机构论坛(IMDRF.)通过合作的视角,监管医疗设备和产品,保护国际各地医疗技术的使用。作为医疗仪器的软件(萨姆)is a framework from the IMDRF Working Group which is chaired by the US FDA and was first established in 2013. The framework’s intent is to provide safe guidelines for software that is embedded in medical hardware, or otherwise comprises a medical service that guides or suggests medical care. The evolving nature of data science and software advances requires that SaMD likewise evolves. Currently there are IMDRF SaMD Working Group activities that address人工智能医疗设备医疗器械网络安全指南, 和个性化医疗设备这证明了在治疗患者治疗中起作用的定义和调节软件的复杂性。

SAMD风险分类框架已提议建立一个共同的词典和方法,以确定患者和公众对医疗保健环境的软件造成的风险水平。有四种风险类别/级别展示表格1以下。

表格1

SAMD使用该SAMD评估软件作为医疗设备:临床评估指南描述SAMD应用程序的性能方面的分析和技术准确性以及临床验证。临床评估是通过软件质量和工程标准的准则补充SaMD:应用质量管理体系(QMS)文档。SaMD调控通路被捕获图1下面是IMDRF文档。

图1

在这种方法中,FDA将期望制造商对人工智能和基于机器学习的软件作为医疗设备的透明度和现实世界性能监测的承诺,以及FDA的定期更新,就什么改变实施了批准的预先规范和算法改变协议。

拟议的监管框架可以使FDA和制造商能够将软件产品从其前载发达的发达进行评估和监控软件产品。该潜在框架允许FDA的监管监督,以拥抱人工智能和基于机器学习的软件作为医疗器械的迭代改善力量,同时确保患者安全。

其他数据科学标准和框架

有许多现有标准直接或间接规范数据科学努力。这不是一个综合清单,每项努力都需要审查相关法规和对不断发展的框架的审议:

监管与创新之间的权衡

创新本质上是新颖的,不确定 - 因此风险 - 在监管中暗示从新的未经证实的产品或服务中控制这种风险。与信用卡或密码不同,保健记录是特别敏感的,因为在发生违规时无法取消,更改或重置。由于能够根据其数字足迹识别患者,技术进步导致了越来越严格的规定。致盲的人口变量和跨机构分享患者信息是往往被视为保护隐私的保障措施,但这些限制数据科学家建立精度模型或充分的能力力量学习。将安全的工程系统放置到位可能是耗时和昂贵的。

监管经常被认为是妨碍创新,但它也可以作为组织在遵守董事会指南的同时更具创新的机会。与所有数据驱动的医疗解决方案一样,监管机构一直试图达到最佳平衡,允许有希望的创新进入医疗市场,在那里他们可以进行现场测试,同时提供对愿意接受风险的患者。知情同意是了解和传达用户在其数据用于业务和研究目的时接受的条款的关键部分。在适当的保障措施也可确保使用每种治疗性,诊断和设备的进展,以验证的疗效和安全性。

无论大小的数据驱动的组织,它总是一个好主意主动计划项目:1)探索使用情况需要处理PII /φ,2)分类的风险和影响场景,和3)的鲁棒性和遵从性测试系统在的地方(不管是手动或自动)。在概念验证或beta测试中,规模更小、通常更动态的组织通常希望工作得更灵活,但创建得不好的原型可能会使追溯加密和安全具有挑战性。拥有更多患者和利益相关者的大型机构通常更不愿意承担风险,与应对漏洞相反,在开发周期中嵌入安全检查点和同步是很重要的。

正如我们所讨论的那样上一篇文章,Covid-19大流行导致科学方法展开生活,因为准则和建议将公众传达给公众,随着更多的样本。这种公共健康的创新压力导致了与接触跟踪和自由遗传测试的独特隐私考虑因素,因此确保了解您是否是患者,提供者,付款人或制药的服务条款和风险水平公司。


下一篇文章

在我们即将到来的博客帖子中,我们将探讨我们对建筑机器学习模式的经验和思考。


关于David Hughes.

休David Hughes是Octave Bioscience的主要机器学习数据工程师。他开发了基于云的架构和解决方案,用于从复杂的医疗数据浮出临床情报。他利用他对基于图形的数据和人口分析的兴趣,以支持数据科学的努力。大卫正在利用他的经验领先的临床途径倡议,以促进利益相关者参与神经退行性疾病途径的开展。通过八度,他正在建立一个数据驱动平台,以改善患者体验,减轻成本,为患者和家庭推进医疗保健递送。

关于Octave Bioscience.

octave.MS的挑战很重要,问题是压倒性的,需求大多是未核心的。这就是为什么八度度为MS创建一个全面的测量驱动的护理管理平台。我们的团队正在开发新颖的测量工具,这些工具源于结构化分析数据模型,以改善患者管理决策,创造更好的结果和降低成本。我们专注于以MS开始的神经变性疾病。

回到顶部