新冠肺炎疫情不仅凸显了速度对医学发现的重要性,也凸显了数据科学和人工智能帮助加速的重要性。例如,近年来机器学习在医学领域的应用取得了重大进展,通过人工智能发现的药物分子已被用于人体试验。尽管如此,艾伦图灵研究所最近发布的一份调查报告显示,数据收集、使用、存储、处理和与不同系统集成的困难(即缺乏强大的数据架构)阻碍了使用人工智能工具应对新冠肺炎疫情的努力。
为了充分挖掘人工智能的潜力,企业需要整理其数据,特别是医疗机构和制药制造商。
数据越来越重要
尽管许多医疗机构和制药制造商在药物和医学发现方面做出了巨大努力,特别是新冠肺炎的发展,但这是一个漫长、复杂和昂贵的过程。更不用说它的成功率很低——根据调查,药物开发的整体失败率高达96%。这是数据可以发挥重要作用的地方,需要更新方法来提高药物开发的潜力,从而降低失败率。
如果没有人类基因组数据,就无法充分捕捉导致疾病的所有元素,从而获得更广泛、更深入的了解。为了发现和验证关键的遗传变异,需要进行大规模的基因组测序。更多的信息和见解可以使企业采取更明智的措施,降低药物开发的失败率。利用这些数据创建机器学习算法也可以实现药物开发管道的自动化,加速药物发现。
另一个例子是,QSAR(定量结构-活性关系)模型可以通过减少合成药物化合物的数量来提高预测新化学结构的准确性,并降低成本和时间。预测分析也可用于药物开发和生产,通过转移知识和从丰富的历史数据中学习。然后你可以使用这些数据来找到新药,并加快实验。
人工智能在药物开发、发现和临床试验中发挥了重要作用,通过现代数据和分析方法,使研究机构有机会加快临床研究。
数据的挑战
尽管取得了这些进展,但对这些数据的分析却带来了自己的挑战。现在有这么多的生物和医学数据可用,比以往任何时候都更难快速获得所需的见解。若不能正确使用这些数据,则毫无意义。此外,基因组数据需要大量的存储和特殊软件来分析,并导致许多数据管理、数据共享和隐私和安全问题——重要的是要记住这些通常是高度敏感的私人信息。
研究机构和制造商面临的问题是,这些数据通常是高度分散的,使用传统的架构很难支持对这么多不同数据的分析。可能需要几周的时间才能找到正确的数据进行分析。
生物技术开发商Regeneron当时面临着这些问题,因此致力于解决处理性能和可扩展性问题。该公司面临的问题是,其数据团队没有分析PB基因组和临床数据所需的资源;不能充分利用自己收集的数据。虽然我们现在可以收集比以前更多的数据,但我们必须努力处理这些大量的数据集。
数据架构的作用
这就是Data lakehouses能起到重要作用的地方。为了提高生产力和成功概率,医疗机构简化其基础设施和运营至关重要。为了提高生产力和成功概率,医疗机构简化其基础设施和运营至关重要。只有将所有数据集中在统一且易于访问的数据分析平台上(如Lakehouse),数据才能充分发挥其潜力。为了加快药物开发,简化的Lakehouse基础设施可以实现更大的可扩展性、自动化和大规模的机器学习。为了提高药物生命周期各阶段的透明度和合作性,统一平台还可以创造交互式工作空间。团队之间可以轻松共享数据和见解,保证可靠性和安全性,保护敏感数据。因此,为了更快地发现药物和治疗方法,需要加快药物靶点的整体识别,开发团队可以同时在多个疾病领域工作。
另一方面,处理传统结构和复杂的基础设施需要很多时间,特别是设置正确的基础设施并进行维护,以支持必要的分析。这使得开发团队难以专注于分析。通过提高自动化程度,如在任何系统故障时自动切换集群管理,团队可以花更少的时间在Devops上,专注于更有价值的任务,即药物开发和新的治疗方法。当Regeneron采用提供更强大数据架构的新平台时,找到正确的数据进行分析从三周缩短到两天,有助于支持更广泛的研究。因此,数据架构是使数据可用并能够回答改进药物发现的问题的关键。
Lakehouse平台除了实现临床可预测性和数据沿袭访问外,还允许研究人员使用基于机器学习的可重复系统来生成和验证假设,使他们能够对自己的时间和研究做出更有针对性的决定。
真正发挥数据的潜力
数据在医疗保健行业中起着至关重要的作用,特别是在药物和医学发现方面,但企业必须进一步推动这一点,以充分利用数据的潜力。如果没有强大的数据架构,药物发现等高失败率不会迅速降低。通过集中、可扩展的平台简化操作,企业可以获得需要的意见,加快药物发现。整理数据只是第一步,下一步是建立必要的数据架构。
广州鲁邦通物联网科技股份有限公司成立于2010年,致力为行业客户提供软硬件结合的5G+工业互联网平台解决方案,通过设备物联、机器人乘梯、设备售后管理系统、电梯物联网等产品和服务,助力电梯及特种设备、医疗设备、机器人、环保设备、环卫设备、电力设备和水务设备等工业客户进行后市场服务的数字化转型,降本增效,开启利润增长的第二曲线。