跳转至

药物靶点预测

标题:预测药物-靶点相互作用的机器学习方法和数据库

翻译:晏宝

DOI:10.1093/bib/bbz157

微信阅读

预测药物与靶点相互作用的任务在药物发现过程中起着关键作用。 为了避免仅通过实验来确定药物-靶点相互作用(DTIS),需要开发新的、有效的预测方法,以避免昂贵、费力但并非总是确定性的实验。 这些方法应该能够及时识别潜在的DTIS。 在这篇文章中,我们描述了DTI预测任务所需的数据,然后是一个由机器学习方法和数据库组成的综合目录,这些方法和数据库已经被提出并用于预测DTI。 还简要讨论了各组方法的优缺点。 最后,指出了利用机器学习方法预测DTI可能面临的挑战,并对未来的研究方向进行了展望。

1.前沿

近年来,药学家们高度关注依赖于对现有药物的了解的新的药物开发策略[1-5]。 事实上,药物发现任务的困难在于现有药物-基因相互作用的稀少[6],一个主要风险是药物与脱靶蛋白的意外/意外相互作用,即副作用[7-9]。 虽然这些副作用大多是不受欢迎的和有害的,但偶尔它们会导致有趣的治疗发现。 例如,米诺地尔最初是用来治疗溃疡的,西德-那非(伟哥)是用来治疗心绞痛的; 然而,它们目前被分别用于治疗脱发和勃起功能障碍。因此,新的药物开发策略是目前许多药理学家的主要焦点。 已有文献报道,药物再定位、药物再用途、药物再定向、药物再发现和药物递送等术语被用来描述这些新的药物开发策略 [3]。 虽然对这些术语使用了各种定义[3],但药物重新定位通常指的是对未批准新治疗适应症的现有药物进行重新研究[10],而药物重新定位则指的是应用已经批准的药物和化合物来治疗不同的疾病[11,12]。

药物发现过程中的一个重要步骤是识别药物与靶点(如基因)之间的相互作用,这可以通过体外实验来可靠地进行。 为了减少时间和金钱成本,silico法越来越受到重视[2]。 因此,代替令人筋疲力尽的体外搜索,最初进行虚拟筛选,然后对可能的可行方案进行实验验证[2]。 通常,在silico中预测药物-靶相互作用(DTI,也称为化合物-蛋白质相互作用)的主要方法有两种:对接模拟和机器学习方法[2]。 在对接模拟中,考虑了药物分子和靶点的三维结构,并确定了潜在的结合位点。 虽然在生物学上被很好地接受,对接模拟过程是耗时的[2]。 此外,如果蛋白质的3D结构未知,这个过程就不能应用[13]。 例如, 对于一类称为G蛋白偶联受体(GPCR)的蛋白质,很少有结构已经结晶(orphan GPCR)[14,15],因此不能应用对接模拟。 为了解决这个问题,化学基因组学作为一种旨在挖掘整个化学空间与生物空间(也称为基因组空间)相互作用的方法被引入,而不是独立于其他蛋白质考虑每个蛋白质目标[14,16,17]。

化学基因组学研究的目的是将这种可能的化合物的化学空间与基因组空间联系起来,以便识别潜在有用的化合物,如成像探针和药物线索[13]。 化学基因组学方法通常分为基于配体的、基于靶点的和靶点-配体的三种[14,17],它们都是基于成员蛋白质和靶点之间的相似性。 事实上,这一突出的基于相似性的化学基因组学观点使得机器学习方法适用于DTIS的预测。 在机器学习方法[18]中,关于药物、靶点和已经证实的DTIS的知识被转换成用于训练预测模型的特征,该预测模型又被用于预测新药和/或新靶点之间的相互作用。 这些研究的主要假设是,如果药物D与蛋白P相互作用,那么(i)类似于D的药物化合物很可能与蛋白P相互作用, (ii)与P类似的蛋白质可能与药物D相互作用和(iii)类似于D的药物化合物很可能与类似于P的蛋白质相互作用。 药物化合物和蛋白质序列之间的相似性通常由专门为此目的设计的核来衡量[19]。 在实际应用中,根据药物化合物和靶蛋白相互作用知识的可用性,DTI预测问题可以分为四类:(i)已知药物对已知靶点的预测,(ii)已知药物对新候选靶点的预测,(iii)新药候选靶点对已知靶点的预测,(iv)新药候选靶点对新候选靶点的预测。 虽然机器学习方法的最终目标是新药和候选靶点的相互作用预测,但文献中的大多数方法都局限于前三类。

本文对利用机器学习方法进行DTIS预测的研究现状进行了综述。 以下研究被排除在外:

• 不使用机器学习方法的研究(例如[20-25])。

• 专注于生物活性(定量构效关系(SAR)、蛋白质化学计量学)关系的研究(如[26-32])。

• 依赖于目标三维结构的研究(例如[33-36])。

• 只考虑基因组空间或化学成分的研究空间(例如[4,37-52])。

• 关注药物反应基因表达的研究(如[53-58])。

• 仅使用副作用相似性或仅预测副作用的研究(例如[59-63])。

• 使用疾病与基因关联的研究(例如[64-67])。

• 专注于药物-药物相互作用或蛋白质的研究-蛋白质相互作用(PPI)(如[68-72])

• 使用生物医学文档的研究,通过文本挖掘技术从中提取信息(例如[73])。

值得一提的是,用于DTI预测的机器学习方法可以被认为是复杂网络中更广泛的“链路预测”问题[74]。 有一节专门总结了这些研究中使用的数据库。 本文的概述如图1所示。

2.DTI预测中的机器学习方法

虽然所有使用机器学习的DTI预测框架都在本手稿中进行了总结,但最近使用矩阵分解算法的方法在效率方面优于其他方法。 这些方法借鉴了推荐系统方法[75,76]的优点,同时使用化学和基因组信息对DTI预测问题是最优的。 这个问题很像著名的Netflix挑战[77]。

用于DTI预测的机器学习方法可以追溯到药理学DTI预测的早期工作[78]。 虽然他们的工作重点不是专门的“药物发现”,但他们旨在找到与每个orphan GPCR结合的分子配体的排列列表,由于缺乏结晶的3D结构,对接模拟无法使用[15]。 这里,机器学习方法被分为六组(图2)。 在接下来的小节中,将提供每个类别的描述以及每个类别的方法列表。 此外,还简要讨论了各组方法的优缺点。

2.1 以前的评论综述

关于DTI预测的综述很少,但各有侧重[79-83]; 然而,这些研究中没有一个是以机器学习为重点的。 关于DTI预测的机器学习方法的先前综述,请参见[84-94]。 特别地,[84]是对用于DTI预测的基于相似性的机器学习方法的简要回顾。 基于相似性的方法有四个优点:(一)不需要特征提取和特征选择;(二)药物和基因的相似性度量核已经被充分研究过;(三)它们可以很容易地与基于核的学习方法如支持向量机(SVM)相结合;(四)它们可以用来连接化学空间和基因组空间。 在[85]中,综述的重点是同时利用药物化学结构和靶蛋白序列预测DTIS的方法。 [90]从监督和半监督的角度回顾了基于机器学习的方法。 [91]回顾了用于DTI预测的著名数据库、Web服务器和计算模型。 本文将计算方法分为基于网络的方法和基于机器学习的方法。 [92]提供了一个关于化学基因组学DTI预测方法和所用数据库的“经验”概述。 在他们的工作中,化学基因组学方法被分为五个模型:邻域模型、二部局部模型、网络扩散模型、矩阵分解模型和基于特征的分类模型。 [87]回顾了使用化学基因组学方法预测DTI的机器学习方法和数据库。 因此,根据处理阴性样本的方式,化学基因组学方法可分为两类:(一)监督学习方法,如基于相似性和基于特征的方法;(二)半监督学习方法。 [88]在2018年4月之前写了一篇关于DTI预测的综合调查。[93]回顾了用于DTI预测的基于特征的化学基因组学方法(不包括基于相似性的化学基因组学方法)。 本文将基于特征的方法分为:(i)基于支持向量机的方法,(ii)基于集成的方法(使用决策树或随机森林的方法)和(iii)各种技术(既不是基于支持向量机也不是基于集成的方法)。 [94]回顾了所有可用的药物重新用途数据库。

2.2 基于相似度/距离的方法

用于DTI预测的最流行的一组方法通过用于执行预测的相似性或距离函数将药物-药物和靶点-靶点相似性度量结合在一起。 这些方法已经被几位作者提出并应用,主要是[13,95-109]。

通常,该方法包括基于已知的药物-药物和相似度靶点-靶点的药物-药物、靶点-靶点或药物-靶点关联的相似度评分方案。 类似地,相似性度量可以通过一个距离函数来获得,该函数定义了新药与已知配对的相似性(或这里的“接近性”)。 在最近邻(NN)算法中,有几种通过距离函数来定义“距离”的方法[96,102]其中欧几里得距离是众所周知的。 例如,[102]中的作者对NN算法采用了以下定义; 假设两个维数相同的向量空间(又称样本空间)V1和V2,两个样本的距离(近度)用D(V1,V2)表示, 这里:

其中(·)和||·||分别表示内积和欧几里得范数。 我们可以很容易地证明D确实是一个满足距离定义的距离函数。

此外,相似性/距离函数还可以根据药物的药理相似性和蛋白质序列的基因组相似性以及现有药物和蛋白质靶点的多部网络的拓扑性质来定义[9,110]。 为此,作者在[95]中定义了五种药物-药物相似性度量:基于化学的、基于配体的、基于表达的、基于副作用的和基于注释的。 这组方法的主要缺点在于只知道少量药物及其相互作用,而数据集中存在大量未标记的数据(见第3节)。 尽管一些努力试图处理标记数据的缺乏[5,106,107,111,112],但这一挑战尚未被克服。 表1提供了基于相似度/距离提出的方法的综合列表。

2.3 深度学习方法

由于深度学习在语音识别、图像识别、自然语言处理等领域的广泛应用,使得深度学习在语音识别、图像识别、自然语言处理等领域的应用越来越广泛。 近年来,深入学习方法在药物发现中的应用不断增加[113,114]。

深度学习方法似乎克服了某些限制,减少了特征信息在预测DTIS中的损失。 使用深度学习方法的缺点之一在于,为了执行深度学习方法,并不总是有足够的信息可用。 最近,为了处理DTI预测中的高维数据,特别是药物再用途中的高噪声数据,作者在[115-117]中提出并发展了DTI机器学习方法中的深度学习算法。

大多数基于深度学习的DTI预测方法包括两个主要步骤:生成特征向量,然后将深度学习应用于已知的DTI。 通常,药物和/或靶点的三种性质(即生物、拓扑和物理化学信息)可以用于生成基于深度学习的DTI方法的特征向量/矩阵。 在最近发表的文献[116-122]中,使用了深度信念神经网络(deep belief neural networks)[118,119]、卷积神经网络[120,122]和多层感知器[121,122]等方法来建立DTI预测程序。

在[117]中,不使用二部网络来表示DTI,而是使用从生物医学领域[125]中现有的链接开放数据集衍生的三方链接网络[117]来进行新的DTI预测。 与最先进的特征提取方法和支持向量机分类器相比,使用深度学习的方法的一个优势是能够挖掘药物和目标之间隐藏的相互作用。

尽管前面提到的所有深度学习方法都表现出良好的性能,但在几个方面仍有改进的空间。 首先,为有监督深度学习方法创建鲁棒的负数据集是一项具有挑战性的任务。 以往发表的基于深度学习的DTI预测方案大多是有监督的机器学习方法,因此如何建立一个无偏的负DTI数据集进行模型拟合和测试是一个关键步骤。 另外,DTI预测是为了发现新的DTI。 如何选择真正的无相互作用药物靶对是一个棘手的问题。第二,随着越来越多不同类型的药物/靶点数据可用,如何将异质性数据纳入来自药物和/或靶点的高维特征中,用于深度学习方法也是一个挑战。 最后但并非最不重要的是,深度学习方法在测试数据集上表现出很好的性能并不意味着它们也可以在真正的药物发现中取得很好的性能。 关于在药物发现中应用深度学习的更多细节可以在[126]中找到。 在表2中,提供了本文提到的基于深度学习的方法的简要列表。

2.4 基于特征的方法

绝大多数执行DTI预测的机器学习方法都属于这一类。 它是一种广泛的方法,包括支持向量机、基于树的方法和其他基于核的方法。 任何药物和靶点对都可以用一定长度的特征向量来表示,通常用二元标记将对向量分为正负相互作用的两类。 换言之,假定特征空间F,其中

其中D和T分别表示长度为n和m的靶点和药物特征向量。

一旦定义了特征空间,就可以建立各种机器学习方法来执行DTI预测任务[5,6,9,13,14,78,89,102,106,112,127-178]。 由于缺乏膜蛋白的三维结构,无法提取主要特征,否则这些特征将产生更好的预测性能。 表3和表4提供了一个基于特征的方法的广泛列表,以及一个简短的描述和这些方法被提出和使用的论文。

2.5 矩阵分解方法

矩阵分解方法已经被证明在预测DTI方面优于其他机器学习方法。给定相互作用矩阵X~n×m~,

DTI预测的主要目标是将矩阵X~n×m~分解为两个矩阵Y~n×K~和Z~m×k~(图3)。这将矩阵X~n×m~分解成两个低阶矩阵(即降秩),从而更容易执行矩阵补全技术来处理丢失的数据。

与大多数用于DTI预测的机器学习方法需要(2D)药物结构相似性不同,某些矩阵分解方法不依赖于化学相似性或药物相似性,而是使用协同过滤算法,其中有概率矩阵分解(PMF)[179]。 其他一些方法是受低秩嵌入(LRE)[180,181]思想的启发,目标是通过一个优化问题找到数据集X的低秩表示R,然后在保持逐点线性重建(原始样本的局部结构)的情况下固定R,使嵌入空间中的重建误差最小化。

在这组方法中,假设药物和靶点位于相同的距离空间,这样药物和靶点之间的距离就可以用它们相互作用的强度来测量药物和靶点之间的距离 。 因此,药物和靶点都可以嵌入到一个共同的低维子空间中,并具有一定的约束条件。

尽管这组方法已经被证明比其他方法更可靠,但与特定药物和/或目标相关的数据的数量和多样性的快速增长远远超过了基于矩阵的数据表示和许多当前分析算法的能力。 第4节提出了解决这一问题的办法。 表5列出了这些因子分解方法以及它们被提出、发展和使用的论文。

2.6 基于网络的方法

基于网络的方法是指那些利用基于图形的技术来执行DTI预测任务的方法(图4)。 其中基于网络的推理(NBI)用于DTI预测,这是最简单但最可靠的推理方法之一,仅使用DT二部网络拓扑相似性[195]。

此外,在某些方法中,蛋白质-蛋白质相似性、药物-药物相似性和已知的DTIS三个网络被集成到一个异构网络中,假设相似的药物通常针对相似的蛋白质[196,203]。 除了进行DTI预测任务外,还可以采用网络的两层无向图形表示,以训练预测直接DTI(通常由蛋白质-配体结合引起)、间接DTI和药物作用模式(结合相互作用、激活相互作用和抑制相互作用)。 文献[204]中提出了一个使用受限玻尔兹曼机(RBM)[123]的相关例子。 表6提供了一个基于网络的方法列表,并对每个方法进行了简短的描述。

2.7 混合方法

混合方法是指基于特征的方法、矩阵分解方法、深度学习方法和基于网络的方法的任意组合。 这可以通过集成不同的信息集来扩展预测算法的能力。 混合方法一般有两个目的; 它们既解决了已知的交互问题,又充分利用了机器学习方法的优势。 例如,作者在[177]中提出了一种综合基于特征和基于相似度的机器学习方法的方法[205,206]。 混合方法通过提取药物和靶点复杂的隐藏特征来优化特征提取过程,优于其他现有方法[134,144,172,173,182,197,201,207,208]。 在DTI预测中集成两种机器学习方法通常在结果方面具有杠杆作用,因为它们同时充分开发了两种方法的潜力。 然而,应该能够处理集成两组方法所引起的高复杂性(计算或操作)。 表7列出了此类方法的简短说明。

2.8 软件和软件包

Sakakibara等人 [222]基于他们以前的工作[127,129]开发了一个称为化合物和目标蛋白质相互作用的综合预测器的Web服务,该服务使用支持向量机作为DTI预测器。 此服务器似乎不再可用。

Cao等人 [223]基于Random Forest[150]开发了一个名为PYDPI的Python包,该包集成了化学信息学、生物信息学、蛋白质化学计量学和化学基因组学用于DTI预测。 所提出的框架涉及分子特征的选择,并使用预定义的词典进行分类。 该软件包可用于构建基于Web的服务器,并为诸如京都基因和基因组百科全书(KEGG)、PubChem、DrugBank和Uniprot等数据库提供接口。 同年[224]的同一小组还基于随机森林预测器开发了一个名为Predpi-ki的基于网络的服务器(它似乎不再可用),该预测器将DT对的结合亲和力考虑在内,以便更好地预测交互作用。

肖等人 [225]建立了一个名为IGPCR-Drug的Web服务器,该服务器可以在IGPCR-Drug上访问。 此外,他们开发了一种基于序列的分类器,也称为IGPCR-Drug。 在预测器中,药物化合物由256D向量的二维指纹图谱组成,由灰色模型理论生成的伪氨基酸组成[226]组成GPCRs,预测引擎由模糊K-最近邻(KNN)分类方法[227]操作。 作者用刀切试验验证了他们的方法[228]。

Yamanishi等人 [229]设计了一个Web服务器DINIES(DTI Network Inference Engine,基于监督分析的DTI Network Inference Engine,DTI Network Inference Engine,DTI Network Inference Based broadision Analysis)用于利用各种类型的生物数据,如化学结构、蛋白质结构域和药物副作用(注意,本文排除了主要针对副作用的研究[59-62])和三种监督算法(BGL[13,143],BLM[101]和两两核回归[9])来预测DTI。 这要归功于Scheiber等人的工作。 [230]这使得能够计算化学空间中任何药物化合物和药理作用之间的相关性。 虽然训练可以使用KEGG药物数据库进行,但他们的Web服务器的主要优势是输入数据的灵活性,只要它是表示相似矩阵或基因/药物概况。

Seal等人[231]开发了一个叫做NetPredictor的独立的R和闪亮的软件包,该软件包基于随机游动和重启(NRWRH)[196,202]和NBI[195,209]来预测药物、蛋白质和药物-蛋白质之间任何单一或双组分之间的缺失环节。 该软件包的主要优点是由软件包安装提供的友好用户界面。

Hao等人 [232]回顾、比较和重新实现了五种最先进的方法(BLM[101]、Kronrls-MKL[158]、DT-Hybrid[209]、Shi et al.[104]和DNILMF[233]),并开源R代码。

3. 相关数据库

为支持上述方法,建立了许多与药物有关的数据库。 这些数据库包含不同类型的药物相关信息,是silico DTI预测的关键资源。 在本文中,我们回顾了与此主题相关的所有常用数据库。 根据数据库的内容,我们将其分为四大类:以药物或靶点为中心的数据库、药物-靶点结合亲和力数据库和支持数据库。

3.1 DTI数据库

DTI数据库是为了收集DTI和其他相关信息而建立的。 本文列出了11个数据库,其中有些不是直接提出的DTI数据库,但所包含的数据可用于DTI研究。 例如,KEGG是一个广泛的数据库,涵盖了从基因/蛋白质到生物途径和人类疾病的许多类型的生物数据。 在KEGG[234]中,两个子数据库KeggDructure[235]和KeggBrite[236]包含可用于DTI预测的数据。 Chembl[237-239]也不是一个专门的“药物靶点”数据库,它是基于收集生物活性化合物而建立的。 然而,结合靶点和其他相关生物信息,该数据库也可用于药物靶点的重新定位和再用途。 与Chembl[237-239]类似,Intact[240]是一个包含分子相互作用的数据库,可用于药物研究。 LINCS不同于前面提到的两个数据库。 此数据门户包含生物化学数据,旨在了解由不同干扰剂引起的基因表达和细胞过程的变化。 LINCS中使用的干扰剂很多是药物,因此这也是DTI研究的一个很好的数据源。 其他数据库包括SuperTarget[241]、Guide to Pharmacology[240]、DrugBank[242-246]、TTD[247]、Stitch[248-252]、Chemprot3.0[253]和DGIDB3.0[254]。 表8概述了这些数据库的一般信息。

(1)ChEMBL

存储在Chembl数据库[237-239]中的数据是从已发表的文献中手工提取的。 该数据库由欧洲分子生物学实验室(EMBL)-欧洲生物信息学研究所于2002年出版。 自2018年最新更新以来,这一数据库包含超过190万种化学化合物。 在这些化合物中,超过1万种药物和超过12000个靶点包含在Chembl中。

(2)ChemProt 3.0

Chemprot[253,255,256]是一个疾病化学生物学数据库,它集成了来自多种化学蛋白注释数据库和疾病相关PPI的数据。 Chemprot的第一次发布是在2011年,它收集了8个公共数据库的数据,即Chembl[238]、BindingDB[257]、PDSP KI数据库[258]、DrugBank[244]、PharmGKB[259]、Pubchem BioAssay[260]、CTD[261]和Stitch[248]以及两个商业数据库 WOMBAT和 WOMBAT-PK[262]。Chemprot的第二次更新是在2012年,将治疗效果和药物不良反应整合到2.0版本中。 最新更新(3.0版)于2015年发布。 第三个版本更新了疾病化学生物学数据。 此外,还结合了几种计算方法,如基于网络生物学的富集分析。

(3)DGIdb 3.0

DGIDB的第一次发布(于2013年)整合了13个数据源,涵盖了与疾病相关的人类基因、药物、药物相互作用和潜在可药性方面的信息[263,264]。 DGIDB最近一次更新是在2017年,3.0版本中总共包含了30个数据源[254]。 增加了6个新的数据源,更新了以前的9个数据源。

(4)DrugBank

DrugBank[242-246]是目前流行的数据库之一,已被广泛用作药物参考资源。 该数据库于2006年首次发布。 DrugBank作为生物信息学和化学信息学的数据库,包含了详细的药物数据和全面的药物靶点信息。 DrugBank中的DTI关系最初是从教科书、发表的文章和其他电子数据库中收集的。 所有数据都可以从DrugBank免费下载。

(5)GtoPdb

该数据库由国际基础与临床药理学联合会/英国药理学会建立。 GTODB[240]包含了从药理学和药物化学文献中收集的配体-活性-靶点关系数据。

(6)IntAct

Intact[265]是一个开放源码的分子相互作用数据库,由来自文献和其他数据源的数据填充。 其中包括AgBASE[266-269]、MINT[270-273]、UNIPROT[274][41]、I2D[275]、MBINFO、MatrixDB[276]、Molecular Connections、InnatedN[277]、IMEX[278]和GOA等11个分子相互作用数据库。

(7)KEGG

KEGG是一个全面的数据库,提供关于基因和基因组的许多类型的知识[234,235]。 整个数据库可以归纳为四大类。 第一个是系统信息,包含三个数据库:Kegg Pathway、Kegg Brite、KeggModule。 第二类包含基因组信息。 该组包括四个数据库:KEGG矫形学数据库、KEGG基因组数据库、KEGG基因数据库和KEGG SSDB数据库。 第三类保存化学信息。 这类数据库有五个:Kegg化合物、Keggglycan、Kegg反应、Kegg rclass和Kegg酶。 最后一类是健康信息,包括四个数据库:Kegg Disease、KeggDructure、Kegg DGroup和Kegg Environon。 KEGG DGROUP数据库包含有关药物相互作用网络的信息,包括DTIS、药物代谢以及与酶和靶基因的间接相互作用。

(8)LINCS

LINCS计划旨在建立一个基于网络的景观来描述不同的干扰因素如何影响细胞过程。 LINCS数据库共收集了398个数据集,包括荧光成像、ELISA和ATAC-SEQ等数据集,其中177个数据集为Kinomescan激酶-小分子结合试验。 本试验用于测量测试化合物之间的结合相互作用。

(9)PROMISCUOUS

PROMISCUOUS成立于2011年,被提议作为一个基于网络的药物重新定位的数据库。 这个数据库包含三种不同类型的数据:药物、蛋白质和副作用。 从Uniprot中提取蛋白质数据,并与蛋白质数据库(PDB)中的三维结构信息相结合。 药物和副作用分别从Superdrug和Sider中提取和合并。 除了DTIS和药物副作用的联系,PROMISCUOUS还包括药物-药物相似性和PPI的数据。

(10)STITCH

Stitch[248-252]是一个数据库,存储蛋白质和小分子之间相互作用的信息。 交互作用数据是从预测结果、其他数据库(例如Pubchem[279])和文献中收集的。 Stitch的第一次发行是在2008年。

(11)SuperTarget

SuperTarget[241]是一个包含药物代谢、途径和基因本体(GO)术语的DTI信息的数据库。 医学适应症和药物不良反应也包括在这个数据库中。 该数据库中的DTIS信息是从PubMed中列出的1500万篇公共文献中从文本挖掘开始提取的。 此外,还从MEDLINE中提取了潜在的药物-靶点关系。 此外,还利用其他数据库(如DrugBank[244]、KEGG[234]、PDB[280]、SuperLigands[281]和TTD[282])中的DTIS关系来获取前两种策略中未包括的任何遗漏的DTIS。 D TTD提供治疗蛋白质、核酸靶点和相应的药物信息[247]。 这一数据库于2002年首次被描述。 TTD中的数据主要是从文献中收集的。 包含DTIS信息的其他数据库(如KEGG)也与TTD交联。

3.2 以药物或靶点为中心的数据库

在这一类别中,包括六个数据库。 它们是Brenda[283]、Pubchem[279]、Superdrug2[284]、DrugCentral[285,286]、PDID[287]、Pharos[288]和Ecodrudic[289]。 在这些数据库中,SuperDrug2和DrugCentral被建议作为“以药物为中心”的数据库。 由于PUBCHEM是一个收集了数以百万计的化合物的数据库,在本文中,我们也把它列为“以药物为中心”的数据库。 PDID和Pharos被归类为“以靶点为中心”的数据库。 我们还将Brenda作为“靶点数据库”。 Brenda中储存的大量酶及相关配体可作为DTI研究的靶点。 此外,我们还将Ecodrug在这里列为以目标为中心的数据库。 与上述数据库不同的是,该数据库包含了非人类模型物种的目标信息。 相关信息见表9。

(1)BRENDA

Brenda[283,290]是1987年首次建立的综合性酶数据库。 此数据库包含约84,000 个酶和它们相应的酶-配体相关信息。 该数据库中收集的所有数据都是基于国际生物化学和分子生物学联盟的酶委员会(EC)分类系统,从约140000篇文献参考中人工评估和提取的。 所有与酶催化反应有关的化合物在Brenda中都被标记为“配体”,如底物、产物、活化剂、抑制剂和辅因子。 总共约有205000个酶配体被收集并存储在相关的配体数据库中。 用户可以通过主页上的搜索框搜索配体数据库。 Brenda还提供下载功能,让用户下载所有Brenda数据。

(2)DrugCentral

DrugCentral是一个专注于药物收集的综合数据库[285,286]。 该数据库于2016年发布,包含MFDA和其他监管机构批准的活性药物成分(药物)。 对于每种药物,结构信息,生物活性和管理记录,以及药理作用和适应症都被纳入。 在这个数据库中,所有药物被简单地分为三类,小分子活性成分,生物活性成分和其他。

(3)ECOdrug

在药物发现研究中,非人类模型物种是重要的,因为它们被用于药物测试。 Ecodrudic[289]是一个包含640个真核生物物种的DTI数据的数据库。 存储在Ecodrug中的数据可以帮助研究人员跨物种调查人类药物靶点的保守性。 药物信息和药物靶点来自前人的研究[291]和DrugBank[244]。

(4)PDID

PDID[287]于2014年发布,涵盖了所有已知的蛋白质-药物相互作用和预测的整个结构人类蛋白质组的蛋白质-药物相互作用。 已知的相互作用分别从DrugBank[244]、BindingDB[257]和PDB[280]中提取。 预测是用三个不同的软件(即ILBIND[292],SMAP[45]和EFindSite[293,294])进行的。

(5)Pharos

Pharos[288]是一个用于在目标中央资源数据库(TCRD)中显示数据的平台。 TCRD是一个综合性数据库,最初是为发现新的可药物蛋白质而开发的。 INTCRD存储的数据来自许多不同的来源。 它包括生物医学文献、表达数据、疾病和表型关联数据、生物活性数据、DTI数据和来自Harmonizome[295]的数据库。

(6)PubChem

Pubchem[279,296]存储化学物质和相应生物活性物质的信息。 该数据库由物质、化合物和生物测定三个子数据库组成。 物质是存储个人数据贡献者提供的化学信息的主要存储库。 化合物数据库包含从物质数据库中提取的独特化学结构。 这些化学物质数据的所有生物相关数据都保存在生物测定数据库中。

(7)SuperDRUG2

SuperDrug2[284]被提议作为一个一站式数据源,提供批准和上市药物的所有关键特征。 SuperDrug2中的药物项目分为小分子和生物/其他药物两类。 药品集采使用了美国FDA、CFDA、EMA等多个公共资源。 从DrugBank[244]、TTD[247]和Chembl[238]中提取了SuperDrug2中的药物靶点信息。 SuperDrug2除了提供这些药物和靶点信息外,还提供小分子药物的二维和三维结构信息、药物副作用、药物相互作用和药物药代动力学参数。

3.3 Binding affinity databases

在这一类别中,包括BindingDB[257,297-299]、PDBBIND[300]和PDSP KI[301]。 所有这些都包含了化学-蛋白质结合亲和力的数据。 BindingDB主要致力于收集药物(类药物分子)与目标蛋白之间的结合亲和力数据。 PDBBIND是基于PDB生物分子复合物的结合亲和力测量而建立的。 PDSP KI类似于BindingDB,在DTIS上也包含大量的结合亲和力数据。 表10显示了这三个数据库的相对信息。

(1)BindingDB

BindingDB[257,297-299]是一个包含实验蛋白质-小分子相互作用信息的存储库。 所有这些数据都是从科学文献和美国专利中提取的。 此外,其他数据库(如Chembl[238]、Pubchem[296]等)也与BindingDB链接。

(2)PDBbind

PDBBIND[300]于2004年首次发布,该数据库的目的是弥合蛋白质结构信息和能量特性之间的鸿沟。 将PDBBIND中存储的数据按PDB中的生物分子复合物数据进行分类。 随着PDB数据库的增长,PDBBIND定期更新。

(3)PDSP Ki

PDSP KI[301]是一个公共数据库,存储了药物/化合物对四种不同类型蛋白质(受体、神经递质转运体、离子通道和酶)的结合亲和力数据。 这个数据库是由北卡罗来纳大学教堂山分校开发和维护的。 提供了药物和靶点的搜索功能。

4. DTI数据库面临的挑战和未来的工作

对DTI进行可靠预测的挑战可以分为两大类:数据库的挑战和计算的挑战。 通常,根据问题的性质,人们可以使用不同的预测方法来克服计算困难。 然而,由于数据库的来源,出现了重大挑战。 在这里,我们提供了第一类的一些挑战,作者在[88,92]中也讨论了这些挑战,然后就如何在未来的工作中处理这些挑战提出了一些建议。

4.1 数据库的挑战和未来的工作

几乎所有用于DTI预测的方法,尤其是基于相似性的方法,都严重依赖于关于相似药物和相似靶点的断言,用于预测的数据库类型起着重要作用。 在数据库方面,缺乏对药物和靶点的统一定义以及对化合物和生物分子的调用和识别的一致方式,与库中至少一个其他来源重叠,采用不同的标识符来代表药物和靶点是其中的挑战[88,92]。 此外,在数据库中合并异构数据是另一个需要指出的挑战。 并不是所有的药物和靶点都有3D结构和GO/PPI序列,这使得相似度得分。 因此,即使使用相同的文献,结果数据也可能不同。

未来的预测应依赖于更全面的内部数据库,这将需要作出重大努力,绘制和管理利用不同方式定义、命名和识别药物和靶点的各种来源的数据。 从数据的角度来看,存在一个数据集是二进制性质的问题; 即给定一个相互作用矩阵X~n×m~,对i=1,. ... n和j=1,. ... m,人们可以定义

这导致了一个重大的问题。 X~n×m~中的一些0可能是尚未发现的交互,这可能会中断不同分类器的训练过程。 另外一点是,实际上DT对的结合亲和力在一个光谱上是不同的(相互作用不是二元开/关的)。 克服这一挑战的一个建议是利用具有表示DT结合亲和力的连续值的数据集。 这是作者以前在[5,131,153,302,303]中提出的。 我们的建议是用连续值参数替换每个X~ij~。 根据相互作用的概率,可以定义X~ij~ = μ,其中μ∈[0,1]。 0表示没有交互,而1表示完全交互。 在(0,1)内的任意数代表药物D~i~和靶点T~j~相互作用的概率。

使用这种连续值数据集的趋势最终可能会流行起来,因为它比以往大多数DTI预测工作中使用的二进制数据集更有用和更有意义,因为它更好地代表了现实。 然而,目前仍有大量的小分子化合物尚未被用作药物,其中大多数小分子化合物与蛋白质的相互作用仍是未知的。 DTI预测的未来工作可以分为两种主要方法。 一般而言,对数据库的修改和建议似乎是不可避免的。 一方面,数据库应该结合在一起,以收集已知的最完整的药物-蛋白质相互作用集。 另一方面,资料来源应定期更新和传播,从而改进和完善。 应该集成更多的源数据库来派生内部数据库。

4.2 DTI预测方法面临的挑战和未来的工作

未来的研究应该集中在组合相似性的方法上。 结合多种相似度的基于集合的模型可能比使用一种相似度的方法提供更准确的结果。 例如,通过回顾性临床分析(如回顾副作用)、药理分析或简单的偶然发现,已确定重新用途的药物。 鉴于早期惊人成功的例子(米诺地尔从高血压到脱发,西地那非从心绞痛到勃起功能障碍,沙利度胺从晨吐到多发性骨髓瘤),研究现在集中在如何最好地采用更全面、系统的方法。 此外,大量的工作被投入到确定疾病发展、进展和治疗耐药性的分子驱动因素,为人类疾病范围内的药物提供了许多候选靶点。 然而,大多数这些分子驱动器没有已知的药物来靶向它们。 因此,一种全面的、改进的预测DTIS的方法将会有很大的好处。 由于4.1节中列出的挑战,目前关于药物靶向哪些细胞分子的知识很少,而且来自各种来源,有时是互补的来源。

根据问题的表述,数据集的适当表示对于获得DTI预测的洞察力和有效性是至关重要的。 在大数据应用中,数据稀疏(大部分为零)和部分丢失是常见的。 因此,缺少数据归算,尤其是在稀疏、噪声数据的情况下,是一个中心问题。 为了从已知的条目中推断出缺失的条目,应该根据数据结构中常见的挑战做出合理的假设。

考虑矩阵因式分解方法在预测DTIS时,一个常见的情况是一个缺失项的矩阵(如著名的Netflix问题),在假设完备矩阵具有低秩的情况下,低秩矩阵完备问题是NP难的、高度非凸的[304],但在一定的数据假设下有各种算法工作。 低秩矩阵完备的一种方法是用核范数作为矩阵秩的凸松弛,并用半定规划找到使核范数最小的完备(参见[305,306])。 尽管Lowrankmatrix完成问题不依赖于任何度量,但大多数方法都使用某种度量(如核范数、欧几里得范数或p范数)。 Suchportraines可能在完成某些矩阵类型时表现良好,但不能涵盖所有类型的矩阵。 此外,数据的结构可能比维数D=2的矩阵更复杂。 为此,我们认为耦合矩阵和张量是在保持结构信息的同时对DT数据进行可视化的强大工具。 对于d≥3,这样的数据集是D阶张量(多维数组)。 张量在大数据中无处不在。 在大数据中使用张量的重要性体现在这样一个事实,即它们保留了数据的结构,并通过在整个过程中结合结构来进行更有效的数据分析。 图5显示了耦合矩阵-矩阵与耦合张量-矩阵完成的说明。