在日常实验室操作中,广泛和成功应用机器学习的主要障碍是数据质量。机器学习对数据有严格要求,不正确的数据会降低经过训练的预测模型的性能,并最终降低用户体验。
为了有效地训练预测模型,过往的化学数据必须满足极其广泛和严格的质量标准。首先,数据必须正确、准确标记并去重。此外,复杂的推理任务,如逆合成路线或实验程序的预测,数据不仅需要足够多,还需要更加多样化和详细,并且在开发预测模型的整个输入范围内没有偏差。
在过去的四年多里,IBM Research致力于开发基于语言模型的数据驱动的化学解决方案。团队依靠源自专利的化学反应记录,并逐渐认识到这些可免费访问的数据库的优点和缺点。Science of Synthesis (sos.thieme.com) 和 Synfacts在商用数据库中提供了前所未有的人工管理水平,将它们确立为化学反应记录的黄金标准。
本次网络研讨会,IBM Research和Thieme团队将展示他们的合作成果。团队将比较在最高质量的商用数据库(Science of Synthesis和Synfacts)上训练的语言模型的性能与公开可用的专利反应记录的性能,特别关注逆合成和化学预测任务。
在IBM Research和Thieme 团队合作期间,Margaret Brimble教授、Cristina Nevado教授、Alois Fürstner教授、Karl Gademann教授、李昂教授、Richmond Sarpong教授、Dirk Trauner教授等七位来自中国、德国、新西兰、瑞士和美国的著名合成化学专家(及其团队)提供了有见地的反馈,为机器学习专家和合成有机化学社区之间的交流创造了一个独特的论坛。他们的宝贵工作也将得到说明。
讲座时间:
2021年12月1日 / 周三 17:00 (北京时间)或
2021年12月2日 / 周四00:00 (北京时间)
(两个时间的讲座内容一样,请选择方便的注册参加)
您也可以点击以下链接至浏览器注册:
https://try-sos.thieme.com/tdm/webinar-powering-molecular-transformers-with-high-quality-data/