华东师大推出化学领域大模型ChemGPT 1.0

发布者:张金玉发布时间:2023-12-04浏览次数:10


   12月2日,2023国际产学研用合作会议(上海)分子科学与生命健康论坛在华东师大举行。论坛上,华东师大举行了ChemGPT 1.0发布会。上海市教委副主任孙真荣、华东师大副校长施国跃和研发团队负责人、化学与分子工程学院何晓教授以及与会嘉宾共同启动ChemGPT 1.0,标志着人工智能与分子科学的结合取得重要进展。

图片16.png 

化学领域大模型 ChemGPT 1.0 正式发布

  研发团队负责人何晓介绍,ChemGPT 1.0是一个集成了先进人工智能技术的化学合成工具。在上海市教委的大力支持下,华东师大于2021年成立了分子智造上海市前沿科学研究基地,由化学与分子工程学院和计算机科学与技术学院组建了联合研发团队,开展了AI4ChemicalScience探索,致力于人工智能驱动的化学研究,将机器学习技术与化学合成相结合,以提高合成的效率和精度。两年来,研究团队通过深入研究化学性质数据库、创新性引入物理描述符以及全新泛函CF22D的开发,成功构建了ChemGPT 1.0,为人工智能时代的分子智造提供了新工具。

图片17.png 

研究团队负责人何晓介绍ChemGPT 1.0

  何晓介绍,ChemGPT 1.0具有三大亮点:第一,高质量化学对话数据集的构建。ChemGPT 1.0整合了超过39万条高质量对话数据,包括734种化学性质问答类数据、11679种科学类(含化学)问答类数据和658种化学类问答类数据以及超过一万条百科词条,转化成了超过207万条问题数据集。基于对化学领域专业知识的广泛收集和深入理解,构建的数据集为全面、准确地完成化学知识问答提供了强大支撑。第二,化合物逆合成数据库的创建。针对化合物逆合成的难题,团队通过数据拼接、叠加、加权和合成方式筛选,构建了一个全新的逆合成数据库。该数据库规模宏大,提高了模型的鲁棒性和反应性,且具有高质量的标注数据,提升了模型的准确性和可靠性。通过更好的数据平衡,显著提高了模型对各类反应的预测能力。在 USPTO-50K测试任务中,经过新数据集训练的大模型ChemGPT达到了74.4%预测精度,位列第一。第三,对话模型和逆合成模型的创新改进。ChemGPT 1.0的对话模型和逆合成模型分别基于ChatGLM模型和LLaMA模型。通过全量微调以及在A800 GPU集群上两个月的训练,性能显著提升。此外,通过多模型多模块融合技术的实施,使得ChemGPT 1.0无需安装任何插件,就能支持化学专业知识、化学逆合成、生物医药以及通用领域的知识问答。此外,ChemGPT 1.0还支持自动上网查资料,帮助模型返回高质量的实时回答并具备绘画功能。

图片18.png 

ChemGPT 1.0发布会现场

  在此基础上,研发团队成功完成了自动化学合成反应技术体系的整体构建和框架设计。结合超限制造成果,以微流控芯片为基础的化学合成节省了80%的实验时间。由AI化学家—“小华”驱动的微缩合成工厂,实现了化合物的自动化合成,为化学合成领域带来了革命性的变化,展示了人工智能在生物医药领域的巨大潜力。

    ChemGPT 1.0是华东师大在AI4Science领域的又一重要成果,研发团队将在此基础上,进一步优化提升拓展功能,助推上海人工智能和生物医药重点领域加速向全球创新链、产业链、价值链的高端迈进。

 

 

来源|化学与分子工程学院 编辑|邓安之 编审|郭文君