复杂性状的多组学解析方法的专题研讨会

2023.10.22

“复杂性状的多组学解析方法”专题研讨会

暨“精准医学多尺度因果理论与方法”项目年度研讨会

召集人：王勇、陈洛南、李雷、李华婷

研讨会邀请专家报告：

糖尿病

吴量上海六院

队列建设与统计分析

李文然中科院营养健康所

彭倩倩中科院营养健康所

汪敏先中科院基因组所

李子林东北师大

动力系统与因果

王冠宇香港中文大学（深圳）

刘锐华南理工大学

人工智能与大模型

盛斌上海交大

王光宇北京邮电大学

刘丙强山东大学

调控网络构建、机理与数据融合

张贺晔中山大学

汪小我清华大学

复杂性状进化解析

吴仲义中山大学

施鹏中科院昆明动物所

宿兵中科院昆明动物所

和耀喜中科院昆明动物所

吕雪梅中科院昆明动物所

项目组参加人员报告

课题一：

中国科学院数学与系统科学研究院：李雷、万林、邓明洲、孙小雅、王霖霆，王珂，李佳忱，刘益通

山东大学：刘福强、刘治平

课题二：

中国科学院分子细胞科学卓越创新中心：陈洛南、戴昊、李琳、王家豪、王蕙、朱俊超、吴展清

杭高院：张传超、陶鹏、王嘉堔、焦铭琦

课题三：

中国科学院数学与系统科学研究院：王勇、吴凌云、尚盼、路雨润、巴特尔、邓芷芸、梁中明、史欣怡、孙睿、任涛、袁藩、田晓云

北京交通大学：孔令臣、倪旭敏、冯宇轩、吴佳梅、马义婷、

王永翠（昆明植物所），张利绒（内蒙古大学）

课题四：

上海交大：李华婷、于祥田、黄哲、刘丹、程棣、倪岳琼、龙晓雪、陈安然

中国科学院数学与系统科学研究院：张俊华、

“精准医学多尺度因果理论与方法”项目简介

本次会议为国家重点研发计划“数学和应用研究”重点专项“精准医学的多尺度因果理论与应用”（2022YFA1004800）项目年度总结研讨会。由中国科学院数学与系统科学研究院作为项目牵头单位，联合中国科学院分子细胞科学卓越创新中心、上海交通大学、山东大学、国科大杭州高等研究院、北京交通大学共5 家单位共同申报的2022年国家重点研发计划“数学和应用研究”重点专项项目“精准医学的多尺度因果理论与应用”已于2022年12月获得国家科技部立项支持。

本项目以发展面向精准医学的基因型到表型的多尺度数学理论与方法为目标，基于精准医学本质是融合组学大数据和传统医学来变革医疗健康的认识，提炼出建立基因型到表型的定量规律的核心科学问题，发展数学方法从数据来反向推断“分子-细胞-组织-表型”的跨尺度因果链条，建立描述基因型到表型的多尺度因果方程组。基于该定量方程组，解析包括糖尿病及心血管疾病等的复杂重大慢性病调控失衡机理，实现对生物系统状态转化的精准追溯、预测和干预。

根据项目管理要求，为推动项目高效有序开展，保障项目顺利实施，特召开此次年度总结研讨会，重点讨论项目及各课题的进展事宜，听取多学科专家意见和建议，促进合作交流，推进下一阶段工作。

报告安排（长报告1小时（报告30分钟，讨论30分钟），短报告30分钟（报告20分钟，讨论10分钟）；日程动态调整。

12月4日

上午 9:00-12:00 主持：王勇

王勇

宿兵

和耀喜

下午 14:00-17:00 主持：万林

万林

陶鹏

张传超

李琳

戴昊

李文然

晚上 19:00-21:00 主持：巴特尔

郑澍乔

梁中明

巴特尔

朱俊超

王霖霆

12月5日

上午 9:00-12:00 主持：王勇

施鹏

汪敏先

李子林

下午 14:00-17:00 主持：吕雪梅

倪旭敏

彭倩倩

吴仲义老师座谈会 15-17点

晚上 19:00-21:00 主持：刘展昕

邓芷芸

刘展昕

史欣怡

王家豪

王珂

李佳忱

任涛

12月6日

上午 9:00-12:00 主持：李华婷

盛斌

刘锐

李华婷

下午 13:00-17:00 参观

12月7日

上午 9:00-12:00 主持：李华婷

汪小我

刘丙强

吕雪梅

下午 14:00-17:00 主持：吴凌云

倪岳琼

路雨润

刘丹

吴凌云

张俊华

刘治平

晚上 19:00-21:00 主持：田晓云

田晓云

孙小雅

孙睿

吴展清

刘益通

12月8日

上午 9:00-12:00 主持：李雷

王冠宇

吴量

张贺晔

下午 14:00-15:00 主持：孔令臣

刘福强

黄哲

于祥田

孔令臣

王永翠

张利绒

晚上 19:00-21:00 主持：尚盼

尚盼

袁藩

谭博文

邓明洲

吴佳梅

马义婷

12月9日

上午 8:00-11:00 主持：陈洛南

王光宇

李雷

陈洛南

汇报人	工作单位	报告题目	报告摘要
12月4日
王勇	中国科学院数学院系统科学研究院	跨尺度因果调控网络建模	我们将介绍最近的一些思考，如何通过调控网络耦合分子和细胞两个尺度，更为精确的定义离散的细胞类型和连续的细胞状态，建立最优的单细胞多层次组学数据集成模型，发展推断细胞类型特异的基因调控网络的方法。
和耀喜	中国科学院昆明动物研究所	高原低氧环境下的人类复杂性状	人群对高海拔低氧环境的适应为研究人类复杂性状提供了天然的研究模型。基于高原生活时间以及适应程度，人类对高原低氧环境的适应可以分为高原习服和高原适应两类复杂性状。特别是世居青藏高原的藏族人群可以作为研究人类高原遗传适应的理想对象。我们对人类在哪些方面适应高原，如何适应高原，以及为什么能适应高原的关键问题，利用表型组学、遗传学、以及实验生物学等手段，从适应表型、遗传变异和分子机制等方面进行了较为系统的研究。识别到多个高原习服和高原适应在生物学表型上的异同点，并鉴定到与高原适应相关的关键基因及调控网络；初步阐明了藏族人群在高原适应中一氧化氮和出生体重等关键表型的适应模式和遗传机制。同时，我们发现钝化效应是高原人群适应低氧的普遍机制，具有性别差异；钝化效应及其性别差异贯穿胎儿从出生到成年的低氧环境生活史，受母亲和胎儿多基因适应性的影响。这些基于高原适应的表型和遗传学研究将为解析人类复杂性状体系提供一些新的思路。
万林	中国科学院数学与系统科学研究院	基于单细胞组数据的糖尿病分子机制研究初探	本报告将介绍我们近期对糖尿病相关单细胞组学数据的初步分析结果。
陶鹏	国科大杭州高等研究院	Detecting dynamical causality by intersection cardinal concavity	Discovering causality from observed time series data is of great importance in various disciplines but also a challenging task. In recent years, cross-mapping methods have been developed to solve the non-separability or false-negative problem that traditional methods, e.g., Granger causality or transfer entropy, cannot handle. However, these cross-mapping methods suffer still from nonlinearity and robustness problems on the noisy data. Here, we propose cross-mapping cardinality (CMC), which detects direct causality in a robust and nonlinear manner by quantifying the intersectional cardinality (IC) from the neighbors of the cause variable to the cross-mapping neighbors of the effect variable in the delay embedding space. We theoretically and computationally show the new causal concept “IC concavity”, i.e. concave IC curve against the neighbor size implies causality in the sense of dynamical causality, in contrast to the non-causality of linear IC curve. Thus, the causal strength is measured reliably by the IC curve, which exploits both IC continuity and information transfer of the cross mapping function from effect to cause variables. Through verification on various simulated and real-world datasets, the accuracy and robustness of CMC are demonstrated significantly better than existing methods. In particular, we validated CMC with the pulse data from motor cortex neurons by training a rhesus monkey to conduct a flexible manual interception experiment. CMC effectively identified the causal relations between neurons while the traditional methods failed. In summary, our approach with the new concept of IC concavity provides a powerful data-driven tool for detecting dynamical causality in complex systems.
张传超	国科大杭州高等研究院	人工智能助力的时空组学研究	空间组学技术在2020年被Nature Methods评选为年度技术，是当前生物信息领域最前沿的技术，为组织在空间上研究生命运转机制提供了数据支撑。而几何深度学习、迁移学习是当前人工智能比较重要的研究方向。如何将几何深度学习、迁移学习与空间组学数据进行深度绑定，解决生物信息领域前沿的实际问题是当前研究亟需解决的问题。针对空间组学数据面临着捕获率低与噪音巨大等技术限制，如何构建空间深度学习模型解析组织功能结构；针对单细胞数据的调控网络推断方法满足不了空间组学诉求，如何利用数据拓扑分析理论构建空间几何深度学习模型；如何利用对比策略构建多模态时空组学数据整合的深度学习框架等等。本报告从空间组学的数据特性与深度学习理论出发，阐述了针对空间组学的实际问题构建全新的空间深度学习框架，为当前人工智能技术在空间组学上落地使用提供了一个范式。
李琳	中科院分子细胞科学卓越创新中心	单细胞因果网络的构建与应用
戴昊	中国科学院分子细胞科学卓越创新中心	基于细胞间基因关联网络推断细胞通讯	细胞通讯的推断为理解许多重要生命过程的机制提供了重要信息，如细胞增殖、细胞分化和免疫反应。近年来，随着空间转录组学的兴起，出现了许多利用细胞空间信息预测细胞通讯的方法。然而，大多数现有方法需要已知的配体-受体对作为构建细胞通讯预测模型的先验信息，并且也没有提供关于其上下游通路的信息。在此，我们提出了一种新的方法来推断细胞通讯，称为细胞间基因关联网络（IGAN）。该方法首先估计两个空间相邻的细胞之间所有基因的关联，基于对有关联基因的功能富集分析，我们不仅可以准确推断出细胞通讯，还可以从网络角度推断其上下游通路，最终表现为一个全景的细胞相互作用通路图。我们还发现特定细胞类型的细胞通讯模式与其空间微环境模式高度一致，这可以进一步用于揭示微环境特异性的细胞通讯。对几个公共数据集的分析验证了我们方法的优势，包括细胞相互作用通路的全景展示、细胞通讯空间异质性的发现以及单细胞水平上细胞通讯活性的测量。
李文然	中国科学院上海营养与健康研究所	整合多组学数据的糖尿病机制分析	基于中国人群体质特征队列数据，根据问卷结果以及空腹血糖水平等获取糖尿病相关信息，结合血液甲基化数据、血浆蛋白质数据、血清代谢物数据，对各组学进行糖尿病的全表观组/蛋白组/代谢组联合分析（EWAS/PWAS/MeWAS）,寻找潜在的糖尿病相关分子标志物。通过功能富集分析、网络通路分析、表达特异性分析、双向中介分析等手段解析分子标志物所参与的信号通路。构建多分子网络整合多种组学分析结果，建立串联中介模型联合表观组、蛋白组、代谢组探索糖尿病的分子调控机制。结合不同组学的分子标志物和临床表型，建立糖尿病风险的预测模型，辅助糖尿病的临床诊断。
梁中明	国科大杭州高等研究院	LLMs in life sciences
巴特尔	中国科学院数学与系统科学研究院	单细胞转录组数据的多尺度聚类和比对	单细胞转录组测序（scRNA-seq）数据的无监督聚类在各种生物学和临床背景下有望实现已知和新型细胞类型的表征。然而，由于数据来源不同的可变性，对处理高维和高噪声特点以及批次效应和内在的多尺度聚类分辨率带来了挑战。在这里，本报告提出了 ClusterMatch，一种稳定匹配最优化模型，通过在簇水平上对 scRNA-seq 数据进行比对，考虑了统计不确定性。一方面，ClusterMatch 通过典型相关分析（CCA）和多尺度 Louvain 聚类算法利用相互对应关系来确定簇的最优分辨率。另一方面，它利用稳定匹配框架在潜在空间中比对 scRNA-seq 数据，同时利用重叠的标记基因集保持可解释性。通过大量的实验，本报告证明了 ClusterMatch 在数据整合、细胞类型注释和跨物种/时间点比对方面的有效性。本报告的结果表明，ClusterMatch 能够利用 scRNA-seq 数据的全局和局部信息，设置适当的多尺度聚类分辨率，并通过利用标记基因提供解释性。
朱俊超	上海生化细胞所	DSP空间转录组测序分析
王霖霆	中国科学院数学与系统科学研究院	双重特征分析在2型糖尿病表达数据中的应用	为了更深入地了解2型糖尿病中胰岛的分子病理学，我们开发了一种基于双重特征分析的计算方法，将GK和WST大鼠在对照实验中的胰岛表达谱与一项人类观察性研究中的胰岛表达谱相结合。我们观察到了一个在两个物种中保守的基因特征向量，其特征是血管生成通路上调和氧化磷酸化通路下调。在GK和WST大鼠的胰岛中，这种基因表达的变化特征可以通过在每个时间点的对照检验直接验证，并与通过胰岛显微图所观察到的α/β细胞分布的变化相对应。通过对样本特征向量和基因特征向量之间的对应关系的进一步分析，我们观察到了更微妙的结构。在大鼠中，前两个特征向量分别对应于第8周前后胰岛素mRNA水平的上升和下降趋势。而在人类中，前两个特征向量分别对应于晚期和早期糖尿病。通过整合两个物种基因特征向量，我们发现参与缺氧诱导因子信号通路的基因在两个物种中均显著上调。这一通路能够激活与血管生成相关的基因的转录。此外，在整合结果中，抗血管生成基因THBS1和PEDF排名较高，表明胰岛内存在抑制血管生成的对抗机制，这与在糖尿病胰岛中观察到的毛细血管增厚和碎片化一致。综上所述，基于双重特征分析的数据整合方法揭示了2型糖尿病发展中的胰岛形态以及胰岛素分泌恶化的主要转录改变。
12月5日
汪敏先	中国科学院北京基因组研究所（国家生物信息中心）	六十万人基因组大数据及多维组学数据联合解析冠心病遗传机理与预测疾病风险	在所有疾病导致的死亡中，每五人就有一人归因于冠心病。冠心病的发生发展受遗传因素的影响显著，其遗传力约为40%~60%，对疾病遗传机制的解析是开发治疗新措施与预防新方案的重要突破口，比如对PCSK9的遗传机制研究促成了长效降脂药乐可为的问世。为此，实验室利用近六十万人的基因测序数据（冠心病患者约5万人）、冠心病极端表型队列、家系数据、多维中间分子表型调控关联数据及冠心病GWAS研究数据，多维度系统性发掘冠心病致病新基因及解析致病机制，从大人群规模阐释候选靶标的有效性与安全性，推动治疗新靶标的开发。在疾病精准预防方面，利用人群基因组大数据及可便捷采集的影像学数据，提取疾病先天及后天风险特征，开发人工智能新模型量化疾病终身及近期患病风险，开发依据疾病风险评估的防控新模型，从而促进对冠心病等慢性复杂疾病的精准干预和预防。
李子林	东北师范大学	全基因组罕见变异一体化分析工具STAARpipeline	针对海量全基因组测序数据，我们发展了全基因组一体化和自动化分析工具STAARpipeline，为基因组大数据提供了一个可扩展、灵活、简化的分析框架。STAARpipelinet实现了从基因组数据预处理到全基因组功能注释、变异关联分析及结果的汇总和可视化的全过程自动化。STAARpipeline通过STAAR框架整合了多组学功能注释数据，实现了功能知情关联分析。本研究为全基因组数据提供了一个高效、高性能的分析工具，突破了基因组大数据分析的运算和功效瓶颈，有助于加速新药物标靶的发现和精准健康的研究进程。
倪旭敏	北京交通大学	复杂混合人群历史推断的模型和方法	遗传混合是人类演化的重要驱动力之一。现在世界上绝大多数人群都呈现出不同程度的遗传混合。随着时间的推进，这种混合过程会变得愈加复杂，如何快速有效地利用全基因组数据重构复杂混合人群历史变得非常具有挑战性。本次报告主要介绍下基于祖源片段推断复杂混合人群历史的模型和方法。
邓芷芸	中国科学院数学与系统科学研究院	Generate cell-type-specific regulatory network in pancreas to explore the mechanism of T2D
刘展昕	国科大杭州高等研究院	causal T2D—从分子层面探究二型糖尿病机理的研究进展
史欣怡	国科大杭州高等研究院	2型糖尿病遗传变异的多尺度异质网络平台构建
12月6日
盛斌	上海交通大学	Foundation Model for Detecting DR from Ultra-wide OCTA Images
刘锐	华南理工大学	复杂系统临界状态的识别与预警方法	许多复杂系统的发生发展过程中存在状态的突然转变现象，例如，从健康状态到疾病状态间存在一个“临界状态”，在该临界状态时期或之前，通过改变生活方式和积极的医疗介入通常可以有效遏止病情的发展（可逆转）。因此，基于高维数据，开发数据驱动的系统动力学预测与分析算法是有现实意义的。在这个报告中，将介绍我们基于高维数据对复杂系统的临界状态进行识别与预警的一些努力和结果。
李华婷	上海交通大学医学院附属第六人民医院	抗性淀粉靶向肠道菌群对脂肪肝的干预作用
12月7日
王冠宇	香港中文大学（深圳）	胰岛素抵抗的本体定义及动力学刻画	当前流行的胰岛素抵抗的定义定量（例如HOMA-IR）都是通过血糖血胰岛素间接地进行，虽然有用，但没有触及到事务的本质。胰岛素抵抗是细胞内胰岛素信号通路的性质，其本体定义应该反映胰岛素信号通路在系统层面上的涌现性质。通过对胰岛素信号通路进行数学模拟和分析，我们发现该信号通路在胰岛素刺激下可产生三种响应模式：缓变曲线，双稳开关，不可逆开关。那么，这三种响应模式哪一种是多数细胞通常使用的呢？为了回答这个问题，我们对血糖-血胰岛素负反馈调控系统进行了数学模拟，并利用最优控制理论探究机体是如何协调高血糖和低血糖的，最终发现双稳是机体对胰岛素响应的最优模式。有趣的是，双稳调控并不是对低血糖和高血糖的折中妥协，而是一个非凡的双赢策略（鱼和熊掌可兼得）。为了验证细胞双稳响应这一理论预测，我们用胰岛素刺激C2C12肌管单细胞，由此诱导细胞的多方面的响应，包括Akt的磷酸化，它可通过荧光共振能量转移技术观测到。我们发现C2C12细胞确实以双稳的形式响应胰岛素刺激，其开阈值和关阈值分别在Ion = 300 pM和Ioff = 100 pM附近。重要的是，开阈值Ion具有自然的“抵抗”内涵，是直接定义胰岛素抵抗的自然选择。为了能够简单快捷地估计胰岛素抵抗，我们研究了胰岛素抵抗与身体组成成分之间的关系，并从大量临床数据的分析过程中获得了一个定量关系，称作LIFE（Lean-Insulin resistance-Fat-Equation）方程。LIFE产生了很多有趣的洞见，包括胰岛素抵抗随衰老不断增加的自然规律。
吴量	上海市第六人民医院	e-Endo系统辅助胰岛素泵强化治疗方案和血糖波动预测研究
倪岳琼	上海市糖尿病研究所，上海六院	肠道微生态与代谢疾病
路雨润	中国科学院数学与系统科学研究院	连续血糖监测（CGM）数据预训练模型	连续血糖监测（CGM）通过连续、动态地监测受试者的血糖水平，呈现血糖调控信息。基于上海多中心CGM数据，我们构建并训练了预训练模型CGMformer，其能够捕获个体的血糖稳态维持、动态调控等多维信息，反映个体临床特征，并可应用于分型、诊断、治疗等临床需求。
刘丹	上海市第六人民医院	CGMformer
张俊华	中国科学院数学与系统科学研究院	细胞通讯及血糖控制的研究进展	基因的异常会影响信号通路的准确应答，从而导致信号在细胞之间无法正常传递。组织的生理功能的完成依赖于细胞间的相互作用，细胞通过配体受体的感应和结合，调节细胞内下游基因以维持稳态，当这一过程中任何环节出现问题，就可能导致细胞功能异常，从而引起糖尿病等疾病的发生。对正常人、糖尿病前期及糖尿病人的多种细胞类型，从细胞通讯的角度进行了一些初步的对比研究和分析。血糖控制对糖尿病人至关重要，基于动态血糖监测的CGM数据，充分利用病人的血糖、饮食及用药信息，利用强化学习的思想，对血糖控制开展了一些研究，得到了一些初步结果。
孙小雅	中国科学院数学与系统科学研究院	基于竞争过程的局部错误发现率估计及其在生物标记物发现中的应用	多重假设检验已广泛应用于处理高维数据的问题，例如在控制错误发现率的同时从大量候选变量中选择重要的变量。在多重假设检验中，最常用的错误率度量是错误发现率（false discovery rate，FDR）。近年来，局部错误发现率（local false discovery rate，fdr）因其能够评估单个假设的置信度而受到广泛关注。然而，大多数方法通过P值或已知零分布的统计量来估计fdr，但这些信息有时无法获取或不可靠。本文基于创新的竞争过程（例如knockoff filter），提出了一种估计fdr的新方法TDfdr，而不依赖于P值或已知零分布。模拟实验表明，TDfdr能够通过两种竞争过程准确估计fdr，且在fdr导出的FDR上达到较好的控制效果和功效。另外，将TDfdr方法应用于糖尿病蛋白组学数据，针对不同器官的蛋白表达数据筛选出与糖尿病前期及糖尿病相关的蛋白，并通过pathway分析等验证了方法的有效性。
孙睿	中国科学院数学与系统科学研究院	回声定位性状的多尺度解析
12月8日
汪小我	清华大学	基因调控序列的逆向设计	随着基因测序、编辑、合成技术的不断进步，以及对基因调控规律的深入理解，下一步能否可以从所需的生物功能和表型性状出发，尝试“逆向”设计生物大分子序列来按需构建人工的基因调系统？要实现这一目标，破解DNA序列-功能之间的复杂映射关系是其关键。我们尝试利用人工智能强大的学习能力，通过解析神经网络从海量基因型和表型数据中学习到的关键模式来挖掘可理解的结构化知识，进而构建知识数据融合的生成式AI模型，尝试按照功能需求来生成人工的基因调控序列，并结合高通量合成生物技术对人工设计的基因调控序列进行生物实验测试，以评估模型设计的结果，并根据这些数据来改善模型。我们希望通过这种在物理-虚拟-物理世界的循环迭代，加深对基因调控规律的认识，并获得按需定制的全新基因调控序列。
刘丙强	山东大学数学学院	基于多组学数据的细胞特异性及其调控网络研究	利用多组学数据研究生物体生命活动过程以及疾病发生发展过程已成为重要途径。RNA-seq定量反映样本的表达水平，为转录调控研究奠定了基础。单细胞测序技术的出现，加速了转录组学的发展，为刻画细胞异质性调控提供了方向。特别是单细胞多组学的综合运用，可以充分捕捉复杂的分子调控机制和细胞异质性。我们与合作者开发了整合多组学数据的异质图模型算法框架以研究细胞异质性及其调控网络，为复杂疾病异质性的识别与调控机制的分析提供算法支持。其中的基于二部和多部异质图转换的模型可以从单细胞多组学数据中更好的推断特定细胞类型的调控网络以及同时识别稀有细胞类型与主要细胞类型。在生物数据集上的测试表明新方法在大多数情况下优于现有的各种工具。在肺肿瘤白细胞CITE-seq数据、匹配弥漫性小淋巴细胞淋巴瘤scRNA-seq和scATAC-seq数据上的应用显示了新方法在细胞聚类方面的优越性能，成功预测出了生物学上有意义的基因网络，在模拟数据集和真实数据集上的基准测试表明新方法在稀有细胞识别方面具备优势。
张贺晔	中山大学	心脏疾病无创诊断：逆问题、优化和数据处理	心血管疾病一直危害我国人民生命健康，因此运用医学影像是精准诊断心血管疾病是临床重要需求。现今运用机器学习方法进行心血管无创疾病诊断一直是研究热点，但是依然需要克服心血管医学图像分析中存在的样本少、标注难和逆问题求解等技术挑战。在报告中，张贺晔老师将讲解心血管医学图像分析中的逆问题求解，并展示他的团队运用不同机器学习技术进行心血管图像分析的结果；然后他在展示通过结合计算建模和机器学习方法，建立一系列的健康信息学定量分析技术，解决医学信息检测中的逆问题，完成临床应用转化。
刘福强	山东大学齐鲁医院	a细胞与线粒体功能	a细胞与线粒体功能
黄哲	上海交通大学生命科学技术学院	GPCR在营养感应和代谢调控中的作用
于祥田	上海市第六人民医院	妊娠糖尿病不良妊娠结局研究
孔令臣	北京交通大学	Differential Privacy Learning in Regression and Clustering	Statistical machine learning technology has rapidly developed and made significant breakthroughs in application fields. However, an attacker's intrusion can easily disrupt the learning process, leading to the system becoming unreliable. For example, in the field of precision medicine, attacks can lead to serious side effects in patients' treatment plans and leak their personal information. Trustworthy machine learning has gradually become a new and popular research direction in artificial intelligence, committed to making machine learning and trustworthy, including security, robustness, privacy, fairness, and interpretability. At present, privacy-preserving is gradually receiving attention and attention from experts and scholars in fields such as machine learning and statistics. Considering that regression and clustering are the fundamental positions of machine learning methods, this report will briefly outline the research progress of differential privacy techniques in regression and clustering, and introduce our new noise mechanism proposed in distributed learning to achieve privacy protection.
王永翠	中国科学院昆明植物研究所	基于图神经网络的药物协同作用预测	耐药性是限制肿瘤治疗效果的重要因素之一。肿瘤通过多种方式对药物治疗产生耐药性。引起肿瘤耐药性的机制主要分为肿瘤细胞的异质性、获得性抗性和原初性抗性。临床试验表明，药物组合治疗策略是解决肿瘤耐药性的有效途径之一，同时协同的药物组合能减少用药剂量，降低副作用发生风险。然而，筛选有效药物组合需要搜索巨大的药物-药物-肿瘤细胞组合空间，并且大规模的分子生物学实验耗时且费用昂贵。计算方法通过对已知药物组合的实验数据进行建模分析，实现协同药物组合大规模筛选。近些年来，算力的提升使得以机器学习为基础的人工智能技术迅速发展并广泛应用于生物医学各个领域。深度学习通过神经单元模拟输入和输出之间的非线性关系。使用计算方法预测具有协同作用的抗肿瘤药物组合需要将药物分子和肿瘤细胞转化成数值向量。研究表明，药物组合的有效性依赖于细胞的分子环境，因此药物的靶点信息是预测的关键。目前，很少有研究学习药物分子表示时同时整合药物结构和靶点信息，大部分只有药物化学结构信息。本文提出了一个新的预测协同药物组合的计算框架，包括整合药物-靶点关系并利用带有注意力机制的图神经网络用于药物分子的数值表示以及引入S-kernel计算药物组合表示。标准数据集验证结果表明新模型预测结果优于仅依赖药物分子结构的方法，并且获得了媲美现有基于图神经网络预测模型的预测精度。进一步，模型被应用于预测非小细胞肺癌的协同药物组合，结果表明，预测模型通过利用分子表示的药物-靶点关系，不仅能够准确推断已知的协同药物组合，还能发现潜在的新组合，文献及数据库搜索表明新预测有望成为非小细胞肺癌的有效治疗策略。未来将通过整合癌症细胞的多组学数据，更多的药物-靶点联系，疾病-靶点联系，实现更精准的临床水平的协同药物组合预测。
张利绒	内蒙古大学	基于卷积神经网络预测基因表达和CTCF结合位点	转录因子（TF）是基因表达调控的主调节因子，通过与顺式调控元件共价结合，调控目标基因在特定时间和空间以特定强度表达。转录因子往往以组合的方式调控基因的表达，解析转录因子驱动基因表达的相互作用模式仍然是一项具有挑战性的任务。在GM12878和K562细胞系中，根据转录因子的ChIP-seq数据构建了基因表达相关的TF相互作用网络，并鉴定出12个与基因表达相关的TF模块。然后，根据靶基因启动子区域这些TF模块中TF的富集特征，建立了卷积神经网络模型TFCNN识别基因的表达水平，获得了较高的预测精度。通过比较发现，TFCNN模型可以更好地提取TF之间的相互作用信息，预测结果优于基于支持向量机（SVM）和线性判别分析（LDA）构建的模型。结果表明，主调控TF控制靶基因的表达水平，TF之间的协同作用对基因表达水平具有微调作用，不同的TF组合对基因表达具有非线性调控能力，该结果有助于解码TF组合调控基因表达的机制，并为解析转录因子协同作用在基因表达调控中的功能提供了理论参考。其次，基于67个细胞系的CTCF结合峰数据，构建了细胞系特异的CTCF性结合位点集合，利用 DNase-seq、12种组蛋白修饰、转录因子RAD21和SMC3结合信号，应用卷积神经网络（CNN）和SVM方法预测了CTCF细胞系特异的结合位点。结果表明，DNase-seq、转录因子RAD21和SMC3对CTCF的细胞系特异性结合位点具有较强的调控，而序列模体和组蛋白修饰信号对识别细胞系特异的结合位点的贡献较小，这些结果为解码CTCF的调控功能，分析CTCF的相互作用机制提供了理论参考。
12月9日
李雷	中国科学院数学与系统科学研究院	数据整合方法揭示大鼠和人胰岛中2型糖尿病进展的转录标志	基于表达谱的双重特征结构，整合分析识别出了在大鼠和人类胰岛中保守的2型糖尿病发展的主要基因特征向量，它的特征是上调的血管生成和下调的氧化磷酸化。在转录组层面的血管生成的改变与α/β-细胞分布的改变同步发生，它们早于氧化磷酸化的下调，而后者与胰岛素分泌逐步恶化同步。此外，在GK大鼠中，在胰岛素分泌恶化之前可以观察到显著的高胰岛素血症。α/β-细胞分布的改变和高胰岛素血症早于胰岛素分泌恶化的观察结果支持了课题组先前的提出的观点：即对糖尿病前期的筛查除了测量血糖水平以外，还应该包括空腹和餐后血胰岛素水平；此外，为了防止胰岛形态的改变进入不可逆的阶段，或者防止2型糖尿病的病理进展变得不可逆，在高胰岛素血症阶段，甚至在血糖水平尚未出现明显异常的情况下，就应该采取积极的干预措施。