应用数学与交叉科学研究中心生物信息学团队于2024年4月第3次组会按期举行,小组全体成员和各位导师共同参加。在这次组会上,由两名研一学生和一名研二学生分别汇报自己的研究进展,然后老师与同学们对汇报内容进行学术探讨,并对存在的问题给出相应的指导和建议。
李莎莎:本次汇报了近期的工作进展:RNA分子在生物体内有着非常重要的功能,而这些功能和它的三维结构有紧密的联系,RNA多分支环是RNA分子中常见并且比较特殊的一类结构单元,分子间的各种相互使得它的不同分支之间会发生共轴堆积相互作用,因此RNA多分支环中哪两个分支会发生共轴堆积成了我们关注的问题之一。因此为了对多分支环共轴堆积进行预测,我们从已知三维结构的非冗余RNA中提取了三分支环、四分支环以及高阶分支环所拆分得到的二分支数据,以分支环的二级结构信息作为特征,共轴堆积情况作为标签构建数据集。并通过随机森林、SVM、KNN、xgboost、lightGBM、GBDT、Adaboost等算法对数据集进行训练并测试,三分支环的测试精度可达到0.86、四分支环的测试精度可达到0.93,对于更高阶的分支所拆成的二分支数据的预测精度也可以达到0.9以上,相较于Scklick的三分支81%、四分支77%、高阶分支60%,在我们新增数据量和新增特征之后预测精度有一定的提升。
和琰:本次组会汇报了一篇文献《A relay velocity model infers cell-dependent RNA velocity》。RNA速度提供了一种从单细胞RNA测序(scRNA-seq)数据推断细胞状态转变的方法。传统的RNA速度模型在scRNA-seq实验中推断出所有细胞的普遍动力学,导致在细胞状态的多阶段和/或多谱系转变的实验中表现不可预测,因为所有细胞的相同动力学速率的假设不再适用。在这里,我们提出了cellDancer,这是一个可扩展的深度神经网络,它局部推断每个细胞的速度,然后接力一系列局部速度,以提供速度动力学的单细胞分辨率推断。在仿真基准测试中,cellDancer在多动态状态、高失分率数据集和稀疏数据集上表现出鲁棒性。我们发现cellDancer克服了现有RNA速度模型在模拟成熟红细胞和海马发育方面的局限性。此外,cellDancer提供了细胞特异性的转录、剪接和降解率预测,我们认为这是小鼠胰腺细胞命运的潜在指标。
柯璐:本次汇报了一篇文献《A topological approach for protein classification》,探讨了使用持续同源作为蛋白质分类的独立工具的潜力。为此,提出一种基于分子拓扑指纹的支持向量机(MTF-SVM)分类器。具体来说,仅根据蛋白质拓扑指纹构建机器学习特征向量,蛋白质拓扑指纹是过滤过程中生成的拓扑不变量。为了验证当前的 MTF-SVM 方法,考虑四种类型的问题。首先,利用甲型流感病毒的 M2 通道蛋白研究蛋白质-药物结合。在区分药物结合和未结合的 M2 通道方面实现了 96% 的准确度。其次,研究了使用 MTF-SVM 对松弛和拉紧形式的血红蛋白分子进行分类,并获得了约 80% 的准确度。案例1和案例2检验了基于拓扑指纹的分类方法在区分相同蛋白质不同构象方面的性能。第三,使用900个蛋白质进行所有α、所有β和α-β蛋白质结构域的鉴定。发现该鉴定的成功率平均为85%,这验证了该方法在捕捉局部二级结构差异方面的有效性。最后,将本技术应用于1357个样本的蛋白质超家族的55个分类任务和11944个样本的246个分类任务。平均准确率达到82%和73%。检验了该方法局部和全局拓扑特征的结合用于区分不同蛋白质超家族的能力。本研究将计算拓扑确立为蛋白质分类的独立且有效的替代方案。
— 学生汇报照片展示 —