人工智能找新药

原文链接:Hunting for New Drugs with AI

新药发现陷入瓶颈,人工智能能否助力?



药物开发过程中,有很多有潜力的药出师未捷身先死,中途被淘汰。造成这种状况有多种原因,其中之一是实验过程中的药物会造成细胞色素P450(CYP450)减少。CYP450是一组酶,主要由肝产生,功能是分解化学物质,防止其在血管内堆积过量,对人体带来危险。许多实验过程中的药物往往会抑制CYP450的产生,这种烦人的副作用会使人体因而中毒。

长期以来,制药公司一贯用传统的工具来预测候选药物是否会抑制患者产生CYP450。一般是这样干的,在试管中进行化学分析,研究 CYP450与已有较多研究的类似药物的相互作用,还会在小鼠身上做实验。研究人员的预测错误的概率高达1/3。因此,到了临床试验阶段才发现试验药物会抑制CYP450的产生,这样的状况屡见不鲜,结果数百万美元和多年的努力打了水漂。这些错误预测不仅是代价高昂,还甚至可能导致人类灭种。

新药开发之低效带来一个更大的问题:全球药物市场规模高达1万亿,药物开发和生产至少在过去20年持续下滑。现在制药公司支出越来越高,前十大制药公司一年要支出800亿美元,但成功通过临床实验的药物却越来越少。10年前,药物研发每一美元的投入能带来10美分的回报,如今只能带来2美分,部分原因是,低处桃子被摘光了,治疗常见疾病的容易研发且安全有效的药物基本都被搞完了,只剩下不好搞的治疑难杂症的药,还有治罕见病的药,后者即便研发成功,也挣不到多少钱。

根据美国塔夫茨大学药物开发研究中心的数据,因开发新药越来越难,2003——2013年十年间,一款新药从实验室到上市的平均成本增加近一倍,达 26亿美元,耗时12年,90%的候选药物在临床试验阶段被淘汰。

因此,制药业对应用人工智能(AI)开发新药一贯很热衷。用户不需要根据化学分析技术对人工智能机器进行编程,而是向机器大量分子与该分子药物性能之间的关系的样本,然后机器便能自行发展判断分子药物性能的计算方法。

绝大多数基于AI的发现新药应用程序采用机器学习技术,包括这种技术的衍生技术深度学习。绝大多数机器学习程序需要的数据量小,但数据要精心整理好,而深度学习用用的数据不需要整理,但需要的数据量大。因此,机器学习程序见识过万儿八千张带有标签的细胞图像后就能识别出细胞的不同特征,而深度学习程序能识别出未加标签的细胞图像的特征,但要学习上百万张细胞图片后才有此能力。

许多科学家认为,AI可在三个方面助力新药开发:找出希望更大的候选药物、提高命中率(即通过临床试验并获得政府批准的候选药物占全部候选药物的比率)、加快药物研发过程。

例如最近百时美施贵宝公司部署的一款机器学习程序,用于找出抑制CYP450产生相关的数据中的模式。该程序将对CYP450减少的预测的准确性提高到95%,失败率是传统方法的六分之一。这可帮助研究人员早早淘汰掉可能有毒的候选药物,把资源集中在更有希望通过临床试验并获得政府批准的候选药物上。礼来公司(Eli Lilly)首席数据分析官戈帕尔(Vipin Gopal)表示:“AI最大的作用在于,不花多少钱就能预先知道哪些药物最终会无效。”

许多资源正涌入AI辅助找药领域,基于AI的药物开发初创公司在2018年募资超过10亿美元,去年9月估计,这些公司在该年有望募得 15亿美元的资金。制药业各巨头至少与一家AI辅助找药初创公司建立伙伴关系。但AI找出的药只有少数几种正进行临床试验,而且尚未有药物进入第三期临床试验。百时美施贵宝的副总裁萨哈承认,用AI预测药物抑制CYP450产生的准确度是否会提升新药开发命中率,还需要几年之后才能见分晓。虽然制药业把AI的好处说得天花乱坠,但目前无法肯定初出茅庐的AI能否带来更多更好的药物。

筛选分子

AI的兴起并非制药业的革命性变革,制药业在构建高级的分析方法以辅助药物开发方面没有放松过脚步。早在 10年前,随着生物信息学(一门利用大量数据来研究生物学问题的计算科学)蓬勃发展,强大的统计和生物物理模拟兴起,发展出了可预测分子特性的工具。不过,由于科学家无法给出精确的分子间相互作用力,搞不清楚各数据的重要程度与关联性,模拟软件无法给出想要的结果。而AI程序能自行判断出重要的数据,因此可从纷繁芜杂的变量中做出更好的预测。

不同的AI工具着眼于药物开发的不同方面。例如有些AI公司专注于设计安全有效的靶标已知的药物,靶标就是与疾病相关的特定蛋白质。典型的做法是,找出一种分子结合到靶标蛋白质上,使其不再导致病症。加拿大的Cyclica公司就是这样一家公司,他们开发的AI软件将数百万不同生物物理结构和生化特性的分子,与大约15万种具有不同结构与特性的蛋白质进行比对,以筛选出可能与特定蛋白质结合的分子。

筛选出的候选药物仍必须通过其他考验,如能通过肠道进入血液且不会立即被肝脏或其他器官代谢分解、在肾脏等特定器官内发挥作用但不会伤害其他器官、不与体内数千种重要蛋白质结合且不损害重要蛋白质的功能、在体内累积过量前能妥善分解并排出体外。上述所有情况,Cyclica的AI软件都有周到的考虑。Cyclica的CEO库吉(Naheed Kurji)说: “某分子可与一种蛋白质结合,通常也会与至少300种蛋白质发生作用。如果你设计出每一种分子,都应该考虑它还与其他299蛋白质的相互作用会不会危害人体。”

生物医学研究人员逐渐体认到,复杂疾病,如癌症和阿兹海默症等,往往涉及数百种蛋白质,仅针对其中一种蛋白质不大可能治好疾病。库吉表示Cyclica公司正尝试寻找这样的分子,可与数十种蛋白质结合,又不与其他数百种蛋白质发生作用。Cyclica公司正在做的另一件事是,向自己的AI软件加入海量全球不记名者基因数据,以便让AI软件找出候选药物最适用的患者。库吉认为,AI兼备这些特性之后,将能把筛选候选药物到进入临床试验的时间从七年缩短至两年。

多家制药巨头与Cyclica结成伙伴关系,其中有默克(Merck)和拜耳(Bayer),但这些公司没有披露,他们会利用AI找何种候选药物,大多数AI公司与药厂的伙伴都是这样的情况。不过,Cyclica分享了一些成功案例的细节,他们找到了一种关键靶标蛋白质,可以与一些已有的治疗系统性硬皮症的药物结合,还找到一种可与埃博拉病毒药物结合的关键靶标蛋白质。美国食品与药品管理局(FDA)已批准把这两种药物分别用于治疗爱滋病和抑郁症,若研究证明有效,这些药物将可能以老药新用方式迅速通过审核。

有时,研究人员虽然找到了很可能在疾病中扮演关键作用的蛋白质靶标,却又遇到新的难题,对其结构和性质所知甚少(人体中有大约90%的蛋白质都是如此)。由于数据极少,大多数机器学习和深度学习程序都无法针对靶标蛋白质设计药物,即无法找到能与靶标蛋白质安全有效结合的化合物。一些 AI公司正在关注这类“小数据”问题,例如Exscientia公司运用AI软件来寻找可能与某一种特定蛋白质结合的分子,只需蛋白质的10条数据,就能给出有用的结论。

Exscientia的算法是把靶标蛋白质的有限信息与数据库里里10亿条蛋白质相互作用的数据进行比较,这可以大幅减少候选化合物的数量,并提示进一步聚焦候选化合物需要额外输入哪些数据,例如要了解靶标蛋白质在体内如何发挥功能,可以增加组织样本数据。将新数据输入软件,排除一部分候选化合物,再次提示所需新数据,这一过程一直重复,直到给出合适数量的候选化合物,以用于开发候选药物。

Exscientia的AI软件可以让筛选候选药物的时间从四年半缩短为一年,将该阶段成本降低80%,将需合成的化合物数量减少80%。Exscientia正与生物技术巨头新基公司(Celgene)合作开发用于三种靶标蛋白质的候选药物。

Exscientia也与制药巨头葛兰素史克(GlaxoSmithKline)合作,宣称已找到一种有望治疗慢性阻塞性肺病的分子。但就像其他从事药物开发的AI公司一样,Exscientia进入
这个领域的时间尚短,因此还没有多少候选药物有望进入后期临床试验,这一过程通常需要5-8年的时间。

寻找新靶标

找到能结合新靶标的分子不是药物开发的唯一难题,第一步找到靶标同样挑战重重。生物制药公司柏格(Berg)用AI筛选人体组织样本数据,以找出可能导致疾病的蛋白质。柏格公司的CEO纳拉因(Niven R. Narain)表示,这种方法旨在解决寻找药物靶标研究中普遍存在的两个问题:第一个问题是,研究工作往往基于研究者自己的理论或直觉,这可能导致结果有偏差,大大降低了候选分子的数目,第二个问题是,研究人员选定的靶标往往不是最关键的致病蛋白质,使开发的药物不对症。

柏格公司的AI程序需要输入从患者的组织样本、器官液体检查和血液检查中提炼而来的数据,提取的数据包括基因组学、蛋白组学、代谢组学、脂质组学等。传统搜寻靶标,搜寻范围通常不会这么大。柏格公司针对某种疾病开发药物,会未患此病的人和此病患者取样,还在不同病程不同阶段取样。然后在实验室里,将样本里的活细胞暴露于各种化合物和环境条件,收集相应的数据,包括细胞产生能量的能力或细胞膜的刚性。

所有数据输入深度学习程序,程序找出人体在不患病和患病状态下的所有差异,最终找出可能与疾病有关的蛋白质。在某些情况下,这些蛋白质会成为药物靶标,然后柏格公司的AI软件搜寻相应的候选药物。另外,由于柏格公司的软件能识别出这些靶标蛋白质疑似使部分患者发病的时间点,可用来辨认患者可能具有的特征,例如带有特别的基因。这种技术能为精准医疗开辟道路,未来可在患者服用药物之前便接受试验,以确定药物是否对他们有效。

柏格公司的研发成果中,也可能是AI找药领域,最令人感到兴奋的是名为BPM31510的抗癌药物。该药最近完成了晚期胰腺癌治疗二期临床试验,这种癌症恶化极为快速且难以治疗。第一期临床试验主要测试药物在一定剂量下是否具有毒性,通常不会测试药物的潜在功效,不过BPM31510针对其他癌症的第一期临床试验,证实了柏格公司所开发的AI软件所给出的一些语言,如约20%的患者对药物有反应,以及哪些受试者更可能出现副作用。

另外,临床试验中的组织样本分析数据输入柏格公司的AI软件后,软件给出反直觉的预言,该药物对侵略性癌症更为有效,因为它能攻击侵略性癌症的重要致病机制。纳拉因表示,如果该药获得批准,柏格公司打算针对1%服用该药的患者进行上市后分析,以改进这套软件的准确度。

柏格公司正与阿斯特捷利康公司(AstraZeneca)合作,寻找针对帕金森病和其他神经疾病的靶标。柏格公司还与赛诺菲巴斯德公司(Sanofi Pasteur)合作,以改善流感疫苗。柏格公司还与美国退伍军人事务部和克里夫兰诊所合作,寻找前列腺癌的靶标。柏格公司的AI软件已能够找出区分出前列腺癌与良性前列腺肥大的诊断方式,而传统诊断方法通常需要做手术才可以确诊。

超越炒作

制药巨头对AI辅助开发药物充满热情,近年来媒体上报道,已结成20多对大药厂和AI药物公司伙伴关系。据悉,辉瑞、葛兰素史克和诺华(Novartis)等制药大公司还自建强大的AI系统,其他公司很可能也正在做同样多事情。

尽管这些公司的研发高管对AI带来的一些初步成果表现了热情,但他们也坦率地承认,由于目前AI辅助找出的候选药物没几种进入动物试验阶段,更遑论进行人体试验,因此AI在制药业的前途依然不明。基因泰克公司(Genentech)研发部高级副总裁肯克雷-密特拉(Sara Kenkare-Mitra) 表示,AI能否成功提高药物开发效率,目前尚无定论,即使真的有效,“我们还不确定AI将会带来线性改善还是指数式飞跃。”纵使AI找到的许多候选药物顺利进入临床试验,或许答案要等到药物获得FDA批准后才能得知。

百时美施贵宝的副总裁萨哈认为,短期内以AI辅助开发的药物成功上市的比率可能不高。不过如果机器学习和深度学习系统能更准确预言出安全有效的药物,且能预测最适合服用的患者,临床试验和审批流程得以精简优化,AI辅助开发的药物成功上市的比率便可能大幅提升。萨哈说:“当监管部门和我们一样看到AI的重要价值时,AI将有望星星之火可以燎原。在有些情况下,我们能证明药物无毒有效,政府就可能允许药企跳过动物试验,直接进行人体试验。”不过他也承认,AI要达到这种程度还要很多年。他补充道,认为AI会取代科学家和传统研究是错误的,AI为科学家的工作提供支持,并大大提高科学家的效率,它仍需要依赖人类以发展出创新的生物学知识、确立研究方向、制定优先顺序、验证结果、得到所需数据。

柏格公司的CEO纳拉因指出,对于AI药物开发的过度炒作让人喘不过气来,有可能会适得其反,因为期待过高可能最终会令人失望和有抵触情绪。他说:“AI药物开发现在还处于起步阶段,我们必须保持清醒,AI确实可以提供帮助,但还不能包办一切。” Cyclica公司的CEO库吉批评那些大搞吹牛营销的AI公司,例如宣称能把开发药物所需的时间由数年降为短短几周,将数十亿美元的成本降为区区数十万美元,库吉说:“这根本是胡说八道,不负责任,败坏行业。”

库吉称,能大大推动AI制药行业的是更多高品质的数据,“我们依靠三样东西:数据、数据,以及更多数据。”辉瑞药物科学部的副总裁Enoch Huang对此表示赞同,他认为好的演算法并非最关键的因素。

随著研究人员进行的与AI相关的数据实验越来越多,他
们更加了解大量数据的必要性,这正在改变科学。基因泰克公司(Genentech)研发部高级副总裁肯克雷-密特拉注意到,这种情况已发生在免疫疗法药物研究当中:“医院提供的数据不够机器学习所需,解决办法是,临床数据不够,体外实验数据来凑。”

这种方法很可能启动药物开发的良性循环,AI给研究人员指明寻找靶标和药物的范围,研究人员获得更多更相关的新数据,使AI系统给出更准确的范围。肯克雷-密特拉说:“我们不迷信AI,我们与AI结成伙伴。”

标签: 人工智能, ai,

添加新评论

captcha
请输入验证码