DNA条形码数据库的可靠性是中药材DNA条形码鉴定的关键。目前已有的公共数据库,如GenBank,EMBL等,由世界各地的研究者进行独立提交,缺乏相互之间的验证,数据质量参差不齐,中药材数据的系统性和代表性尚显不足。
为保证中药材DNA条形码数据库的可靠性,首先需要在基原上保证物种鉴定的可靠性,然后采用严格的序列校对机制确保获得序列和基原样品的一致性,最后规范管理数据库,确保数据库的安全维护和有序增减。
一、获得可靠的基原样品
1、代表性
实验样品需采集自药材的原产地和其主要分布区。通过调查和文献检索了解药材的产地和分布信息,每个产地需采集3份以上的样品,每种药材采集的样品总数原则上需在20份以上,并且至少覆盖该药材80%以上的产地和分布区。
2、准确性
所有采集的药材样品均需经中药材鉴定领域的权威专家根据经典分类学方法确定采集样品基原的准确性。采集的药材样品先经中国医学科学院药用植物研究所标本馆馆长林余霖和英国皇家植物园(KEW)Christine Leon进行联合鉴定。然后根据药材的分类信息请相应科属的的专家进行核对,例如:中国医学科学院药用植物研究所张本刚、郭宝林、张昭,中国科学院植物研究所李安仁,北京师范大学生命科学学院刘全儒,北京中医药大学中药学院刘春生,湖北中医药大学药学院陈科力等。
3、规范化
采集的药材样品及其提取的DNA样品进行规范化管理,以避免真菌污染和样品交叉污染。采集的药材样品经专家鉴定后,根据样品编码规则对采集样品进行标准编码,并进行专门存放。样品DNA经专人按标准流程提取,统一编码后存放于专门的-20℃冰箱中。对存放的药材样品和药材DNA样品需有专人进行定期检查和维护。
二、保证序列和基原样品的一致性
除实验过程规范操作外,采用严格校对机制,即BLAST分析防错、系统树分析防错、Barcoding Gap检验防错,确保实验获得的序列和基原样品的一致性,避免在实验过程中由于操作不当引入的真菌污染和样品交叉污染。
1、BLAST分析防错机制
BLAST,即Basic Local Alignment Search Tool,基于局部序列比对,对数据库进行快速搜索,其特点是仅搜索序列之间高度相似(HSP)的区域,可以兼顾搜索的精确性和搜索的速度,是目前应用最广泛的序列相似性搜索工具之一。
利用BLAST工具,在一定的E值下(通常是E-20),在GenBank公共数据库或者本地数据库进行序列相似性搜索,确保查询序列和基原样品的一致性。
2、系统树分析防错
收集查询序列同物种序列和同属其他物种序列,以及2-3条与查询序列同科但不同属的物种的序列。利用MEGA5软件(版本:V5.1Beta2),采用K-2P遗传距离,构建这些序列的NJ(neighbor-joining)系统发育树,查询序列应与同物种序列聚为一支。
3、Barcoding Gap检验防错
收集与查询序列同物种和同属其他物种的序列,分别计算查询序列与其他序列的K-2P遗传距离,查询序列与同物种其他样品序列的最大遗传距离应该不大于该序列与同属其他物种样品之间的遗传距离。
三、确定序列质量判定标准
Q值,即Quality score,是评价测序过程中碱基可靠性的一个重要参数,其计算公式为
表1 Q值和碱基可靠性的相互关系
Q值 |
错误率 |
可靠性 |
Q值 |
错误率 |
可靠性 |
10 |
10% |
90% |
40 |
0.01% |
99.99% |
20 |
1% |
99% |
50 |
0.001% |
99.999% |
30 |
0.1% |
99.9% |
60 |
0.0001% |
99.9999% |
序列质量判断标准采用国际DNA条形码协会(CBOL)通用的标准[61],即:以20bp的窗口分别从序列5’端和3’端进行滑动,如果窗口内有多余2个碱基的Q值小于20,则删除一个碱基,窗口继续滑动一个碱基,如果窗口内碱基Q值小于20的数目小于或等于2个,窗口停止滑动。测序结果的剩余部分需大于150 bp,且平均Q值大于等于30。
四、BLAST判定标准
采用BLAST方法对物种进行鉴定是国际DNA条形码研究常用的鉴定方法[62,63],其标准采用国际DNA条形码协会(CBOL)的通用标准,即:首先构建标准的参考数据库,参考数据库需包含要鉴定物种的样品,在一定的E值下(通常是E20)采用BLAST工具对数据库进行BLAST搜索,如果查询序列的最佳匹配均为目标物种的不同样品,不包含其他物种的样品,则认为该查询序列最接近的物种是目标物种。