《Nature》人工智能可以帮化学家在浩瀚的化学药品宇宙中找到更好的药物吗？

2018-02-12 化学加

来源 | Nature自然科研编辑 | 化学加

导读

每种投放到市场中的药物都有成千上万种与其化学结构基本相同的化合物，其差别仅仅在于一个氢原子或一个双键。这其中某些化合物可能比获批的药物效果更好。化学家不可能在没有外界帮助的情况下考虑到所有这些变体。正如Reymond所言：“仅用纸笔绝不可能得到所有这些异构体。”而机器学习和大数据可以帮助化学家在浩瀚的化学药品宇宙中寻找更好的药物，利用人工智能去设计新的药物。

跳转阅读→手机版的ChemDraw来啦，简单好用还免费，快来试试~ （附安装包）

在2016年，Sunovion制药公司交给一些老员工一项特殊任务。在美国马萨诸塞州的公司总部，化学家们被要求进行一项寻找新药最佳先导化合物的游戏。在他们的工作站中有包括几百种化学结构的网格，其中只有十种标有相关生物学信息。专家们必须基于他们辛苦学到的化学结构及生物知识来选出其他可能作为候选药物的分子。在11位选手中，10位为这项任务冥思苦想了数小时，但剩下的一名选手却在几毫秒内就轻松完成，因为这名选手是一种计算机算法。

这一计算机程序由Willem van Hoorn创造，他是利用人工智能设计药物的新公司Exscientia的化学信息学负责人。这一公司位于英国邓迪，希望能与Sunovion建立初步合作关系，为此下了很高的赌注。“我的信誉危在旦夕。”Hoorn表示。二十轮游戏结束后，他高分胜出，也终于松了一口气。他的算法似乎是运用了一些化学黑魔法；因为最后仅有一位药物发现专家击败了机器。

从那时起，Exscientia公司便和Sunovion继续合作开发精神病治疗药物。Sunovion的计算化学主管Scott Brown表示：“这场竞赛的确帮助我们拉拢了化学研究决策者。”

Exscientia公司是工业和学术界中与日俱增的、利用计算机探索广阔化学药品宇宙的众多团队之一。化学家们估计约有10^60种具有药物特性的化合物能够被合成，这些小分子的数目甚至超过了太阳系所有原子的总数。他们希望通过计算机算法对无数的化合物进行登记、分类并比较其特性，从而帮助研究者快速、低成本地找到针对某一靶点的最佳候选药物。支持者们表示这样的策略能够使药物更安全，减少在临床实验中失败的药物数量，同时使得新治疗方法的发现成为可能。此外还有助于开启未探索过以及曾被认为无价值的化学领域。

然而仍有许多药物化学家对此持怀疑态度，不相信奇妙、复杂的化学能够简单缩减为几行代码。甚至某些人工智能的拥护者也承认许多尝试都以失败告终：计算机生成的化合物中充斥着难以合成的结构，如3-或4-原子环，同时还有许多不安全的活性基团。van Hoorn认为：“如果研究者不了解该领域，只是简单执行某些计算方法会产生失败结果，他们想出的化合物纯属笑话。”但他也表示专业人员的参与或许能够帮助这些热心的设计者。“我觉得如果计算机科学家与真正的化学家合作，某些想法是能够实现的。”

探索化学宇宙

在化合物的宇宙中航行需要有地图的帮助。在2001年，瑞士伯尔尼大学的化学家Jean-Louis Reymond开始利用计算机来绘制一幅尽可能全面的化学宇宙地图。经过16年努力，他构建出世界上最大的小分子数据库，即一个包含1660亿种化合物的庞大虚拟集合。这一数据库被命名为GDB-17，包括全部符合化学原理的、由少于17个原子构成的有机分子，这一数目是Reymond的计算机能够处理的上限。Reymond表示：“仅仅是用计算机形成数据库中化合物的清单就需要10个小时以上。”

为了理清过剩的潜在药物原始信息，Reymond想出了一种使化合物宇宙系统化的办法。受元素周期表的启发，他将各化合物在多维空间内分类，相邻化合物具有相近特性。各化合物的位置由42种特性来决定，例如每种化合物中所含的碳原子数。

每种投放到市场中的药物都有成千上万种与其化学结构基本相同的化合物，其差别仅仅在于一个氢原子或一个双键。这其中某些化合物可能比获批的药物效果更好。化学家不可能在没有外界帮助的情况下考虑到所有这些变体。正如Reymond所言：“仅用纸笔绝不可能得到所有这些异构体。”

而Reymond和他的团队能够通过搜索化合物之间相似性，来鉴定与已批准药物相近、有潜在治疗价值的其他化合物。以某种药物作为出发点，团队能够在三分钟内筛选数据库中的1660亿种化合物来寻找后续候选药物。在一次概念验证实验中，Reymond以一种能与乙酰胆碱受体（与神经系统和肌肉功能失调相关的重要靶点）结合的已知分子为出发点，编制出包括344种化合物的名单。该团队合成了其中三种化合物，并且发现两种能够有效激活受体，或许能够用于治疗老年人肌肉萎缩。Reymond表示这种方法像是利用地图来找金子，他说：“你需要某种方式来选择去哪里挖。”

另外一种方式用计算机在多个位置寻找金子，而不必太在意起点。用药物发现的专业术语来说，这意味着用计算机筛选庞大的化合物库来寻找能与特定蛋白结合的小分子。首先，研究者必须利用X射线晶体学获得某个蛋白的快照，来决定它结合位点的形状。然后，利用分子对接算法，计算化学家能够从化合物库中寻找出给定位点的最佳匹配。

随着计算机技术飞速发展，这些算法的能力也得到了提升。加州大学旧金山分校的化学家们在Brian Shoichet的带领下在2016年通过寻找一种新型止痛药展现了这种方法的潜力。该团队从300万种市场上买得到的化合物中筛选能够选择性激活μ-阿片受体信号通路的候选药物，以此来减轻疼痛同时不扰乱密切相关的β-抑制蛋白信号通路，该通路与阿片类药物的副作用（如呼吸频率下降及便秘）相关。研究者们迅速将范围从一个巨大的化合物库缩小到仅有23种高排名的化合物用于后续研究。

在一个试管中，七种候选化合物显示出理想的活性。其中一种在后续研究中被制成化合物PZM21，能够作用于μ-阿片受体而不激活β-抑制蛋白。位于旧金山、由Shoichet共同创立的生物科技公司Epiodyne正在根据这些发现开发更安全的止痛药。Shoichet计划利用同样的方法寻找能够调节其他G蛋白偶联受体（GPCRs）的化合物, 该家族的蛋白在所有药物靶点中占到40%。

他的团队同时对含有一亿种化合物的虚拟星云进行相似的实验，这些化合物从未被合成但其合成过程应该较简单。工业药物开发者也在用同样的方法进行测试：位于马萨诸塞州的生物科技公司Nimbus Therapeutics将一些存在于自然界却难以从环境（如土壤）中分离的虚拟化合物纳入对接筛选。是否能够发现药物还没有定论，但该公司的首席执行官Don Nicholson针对至少一项药物设计程序表示：“这将是我们全部匹配药物的来源。”

这些虚拟筛选的初步结果动摇了Shoichet对于化学药物宇宙的核心假设之一：只有完善的、药物丰富的区域才是值得关注的。已划分的分子星系充斥着有生物活性的化合物，以至于一些人认为在其他地方寻找是浪费时间。“在我的职业生涯中我始终相信推理过程，这么做是有道理的，尽管可能没有很多证据来证明。” Shoichet表示。然而他尚未发表的、对一亿种化合物的筛选结果引起了他对化学药物宇宙中很少被探索区域的兴趣。“我开始认为那些星系中藏满了金子。”

计算机的“智慧”

这些数据搜索方法被试验和测试，但用于工作的计算机只能服从脚本指令。计算药物发现的最前沿是机器学习，算法能够利用数据和经验来告诉自己哪种化合物与哪个靶点结合，发现人类无法察觉的模式。十几家公司纷纷开始创造药物搜索算法，并与大型制药企业合作进行测试。

Exscientia的首席执行官Andrew Hopkins为这些方法的能力做出了强有力的证明。临床前测试发现和优化候选药物平均需要4.5年，化学家们常常合成上千种化合物才能得到有价值的先导化合物（即使这样真正投入市场的希望也非常渺茫）。Exscientia方法利用了多种算法（其中包括给Sunovion公司研发高管留下深刻印象的那一种）或许能够将时间线缩短到一年，同时缩减药物发现项目中需要考虑的化合物数目。

在2015年，Exscientia完成了大日本住友制药公司（位于日本大阪， Sunovion是其旗下的公司）为期12个月的研发项目。研究者训练他们的人工智能工具来寻找同时调节两个G蛋白偶联受体的小分子，发现要找到一种好的候选药物仅需要合成小400种化合物。Hopkins表示最后筛选到的药物现在已准备进行精神疾病的临床试验。从五月起，公司已经与巴黎赛诺菲公司和英国葛兰素史克公司签署了数亿美元的合约。

除了鉴定先导化合物之外，机器学习算法还能帮助药物开发者决定将哪些化合物扼杀在摇篮中，加利福尼亚州圣布鲁诺一家人工智能药物设计公司Numerate的首席技术官Brandon Allgood表示。如果一种化合物无法通过毒性或吸收性测试，那从一开始就没有必要制作或测试它。“人工智能只需要几 52 38410 52 20203 0 0 6345 0 0:00:06 0:00:03 0:00:03 6345秒来决定是否排除这种化合物。” Allgood说，在开始利用人工智能工具研究化学物质宇宙前，他曾学习宇宙学。Numerate今年已与制药公司达成两笔交易，其中一笔与位于法国叙雷讷的施维雅公司合作，将人工智能发现的药物投入心脏衰竭和心律失常的临床实验中。

尽管工业投资快速增长，但计算方法仍有待证明。虽然Reymond的数据库比其他库更加庞大，但它仅包括了化学药物宇宙中微小的一部分（参见“化学药物宇宙”）。尽管他的数据库中已包括1660亿种化合物，但他仍需要继续探索，正如一个尝试数清夜空中所有星星的宇航员才刚刚只数了一个。基于将样品与蛋白相匹配的筛选需要准确的晶体结构才能得到最好的结果，而生成这些数据需要时间、金钱和经验。

这些方法同时很难处理动态的蛋白，无法可靠地对候选者的优良性进行排序。从机器学习算法的角度而言，它们的表现取决于为其提供根基的培训数据集，当它们遇到与之前见过的分子相似度极低的化合物，算法的表现便会很糟糕。除此之外，整个程序如同黑箱作业，无法得知机器学习为何预测某个化合物是良好的匹配。

许多计算方法还有一个恼人之处便是常常给出难以在实验室合成的化合物。化学家不得不费力的想办法合成候选化合物，可能要花费几个月甚至更长。即便如此，合成的分子也不能保证有作用。Reymond的方法目前预测化合物活性的准确率仅有5~10%，这意味着化学家不得不辛苦尝试多达20种化合物来找到其中一种符合期望的。Reymond 表示：“我们探索化学药物宇宙的瓶颈是敢于合成化合物的能力。”为了解决这个问题，他最近将他的化学物质宇宙缩减到1000万种易合成，同时仍覆盖广泛特征的分子。

美国马萨诸塞州Relay Therapeutics公司的首席科学官Mark Murcko认为计算化学家应该少关注新的算法策略而将注意力放在提高算法的培训数据集。他表示：“我所知道的让一个预测模型变得更准确的好方法之一就是给它更多更好的数据。” Relay和其他公司鼓励化学家和计算科学家密切合作，合成由人类和算法共同建议的化合物，同时根据得到的结果来进改善未来的决策。

对于Hopkins，这样的合作至关重要。计算机科学家曾花费数十年来写能够战胜围棋大师的程序。在1997年，IBM的深蓝击败了Garry Kasparov。然而这样的失败并不意味着围棋的结束。相反，Kasparov设置了一场双人比赛，每队有一个人类一个人工智能。Hopkins 表示：“人类和人工智能一起能胜过任何人，同样也胜过任何算法。” 他希望用同样的方式将数据分析、创造性和常识相结合来改变药物发现，“我相信我们现在正处在Kasparov与深蓝联合的时刻”。ⓝ

原文以The drug-maker's guide to the galaxy为标题，发布在2017年12月26日的《自然》新闻特写上，原文作者：Asher Mullard，Nature|doi:10.1038/549445a

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至朋友圈，如需转载，请邮件Chinapress@nature.com。未经授权的翻译是侵权行为，版权方将保留追究法律责任的权利。

拓展阅读

更多精彩，关注本号后，后台回复相应代码查看

回复 c001：漫画化学回复 d001：化学趣史

回复 f001：视频动画   回复 g001：趣味实验
回复 a002：餐桌化学   回复 i001：缤纷化学
回复 j002：化学趣闻   回复 m002：创意化学
回复 k001：趣味化学回复 L004：涨—知识

回复 w009：化学前沿回复 z001：科研名人

回复 q003：科学解释回复 u001：化学心得

欢迎广大读者分享赐稿或者有偿投稿

原创稿一经采用：200-1000元/篇

编辑手机/微信 :18676881059

邮箱：gongjian@huaxuejia.cn

化学化工行业交流群：413544856

药物化学中间体API群：177675326

日用化学精细化工群：456356583

俄罗斯中国总商会会长：与俄罗斯的支付谈判将很快有结果

为摆平强奸案，派出所所长改笔录称自愿发生性关系

金磊：我们长效在踏踏实实地在做所有的适应症

环球时报驻美记者评青岛公安通报：偏袒女司机过于明显

青岛路虎女：嚣张女妖是那个大神的坐骑？