[分析示例] 通过机器学习估计 χ 参数

从两个分子的描述符中创建特征,学习与相互作用参数 χ 的关系

目标和方法

使用 J-OCTA 机器学习功能(MI-Suite)来估计 χ 参数。使用的数据来自 Flory-Huggins Chi 数据库。获取的数据包括两个化合物 A 和 B 的名称以及它们之间的 χ 参数值。数据量为 263。学习/预测 χ 参数的过程如下:

χ 参数学习/预测过程

1. 从公共化合物数据库 PubChem 获取每种化合物的 SMILES 表示法。 使用 MI-Suite 的数据获取功能 DB-Explorer 获取。使用 MI-Suite 的数据采集功能 DB-Explorer 获取数据。只有同时获得 A 和 B 的 SMILES 表达式的化合物对(169 个)才会被使用。

2.  使用描述符计算功能 ChemDC 计算每个化合物的描述符值和 AutoCorr2D。

3. 根据原始数据中对化合物的描述,将计算出的描述符值进行混合,以创建单一特征。

4. 使用的混合方案是定量地理学中使用的混合方案,因为描述符(AutoCorr2D)可视为空间自相关量。

5. 训练以混合计算的特征为输入值,以每对化合物的 χ 参数为目标值。

学习的设置如下:

l 在 MI-Suite 的学习功能所支持的学习方法中,我们使用了 XGBoost,这是一种基于提升的学习方法。XGBoost 的超参数设置基于 GP(高斯过程),以获得最佳参数设置。

l 离群点的去除是在第 90 个百分点(两侧)进行的。

l 在训练过程中,训练集和测试集的数据比例为 8:2。

结果

以下是训练结果。

对于通过训练获得的预测模型(即学得的模型),使用训练集时的预测准确率为 R^2=0.937,而使用测试集时的预测准确率为 R^2=0.778。

[分析示例] 通过机器学习估计 χ 参数的图1

(文章来源:转载自J-Octa官网)

相关产品链接:http://www.anscos.com/jocta.html

如需更多技术咨询,请随时与我们联系:

全国热线:400 633 6258

官方邮箱:info@anscos.com

登录后免费查看全文
立即登录
App下载
技术邻APP
工程师必备
  • 项目客服
  • 培训客服
  • 平台客服

TOP