跳转至

TCGA | GEO | 文献阅读 | 数据库** **理论知识 R语言 | Bioconductor | 服务器与Linux




在前面我有文章介绍过生信中各种ID转换【文章:生信中各种ID转换】,我们可以通过各种基因注释包来转换各种基因ID,这里给大家介绍一下miRNA注释包:miRBaseVersions.db。这个包是基于miRbase数据库的。 由于数据库不断的增长和变化,miRNA的名称可能在不同的版本中有不同的名称,甚至不再被列为有效的miRNA。这个注释包作为一个存储库,可以用于快速查找成熟的miRNA名称。 如果没有安装包先安装:

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("miRBaseVersions.db")
如果安装出错,参考下面文章。 R包安装时安装程序包****时退出的状态不是0,或者版本不适的一种解决方法。 我们可以使用使用keytypes这个函数来查看可以检索数据的版本,最新版本是22。键类型“MIMAT”是主表,包含所有支持的miRBase版本的所有记录。以前缀“VW-MIMAT”开头的键类型被称为SQL views。你可以理解为不同的版本,例如,键类型“VW-MIMAT-22.0”是来自“MIMAT”表的SQL views,它只保存来自miRBase版本22.0的记录。
keytypes(miRBaseVersions.db)
使用columns函数来检索关于你可以在最终输出中检索的变量类型的信息:
columns(miRBaseVersions.db)
keys函数返回指定keytypes的所有可行的key。以下示例检索miRBase版本22.0的所有可能key。
head(keys(miRBaseVersions.db, keytype = "VW-MIMAT-22.0"))
select函数用于提取数据。作为输入值,该函数接受从其他三个函数(键、列和键类型)接收的输出。 例如,要提取关于成熟accession' MIMAT0000092 '的所有信息,我们可以运行以下命令:
result <- select(miRBaseVersions.db, 
                keys = "MIMAT0000092", 
                keytype = "MIMAT", 
                columns = "*")
result;
我们可以看到,结果返回了不同miRBase版本中加入的所有miRNA名称。参数columns = ""表示返回所有列。例如,如果我们只想提取' accession ', ' name '和' version '的字段,我们只需运行以下命令:
result <- select(miRBaseVersions.db, 
                keys = "MIMAT0000092", 
                keytype = "MIMAT", 
                columns = c("ACCESSION", "NAME", "VERSION"))
result;
与前面的参数columns = "
"的输出相比,这次只返回选定的列。 当然,除了用注释包以外,我们可从数据库找那个下载所有的miRNA信息文件,下面是地址:
ftp://mirbase.org/pub/mirbase/CURRENT/
下载后打开文件是这样的。这里有很详细的信息,包括序列等。 你可以很清楚的看到一个前体可以对应多个成熟体。好了,关于这个包就介绍到这里了。


参考: 【1】.miRBaseVersions.db帮助文档


经    典    栏    目