本数据的核心应用在于加速新型碘化造影剂及类似复杂多官能团分子的研发。 企业内部应用:因三碘苯类造影剂整体结构都比较相近,因此在药物发现的早期阶段,研发团队可利用此数据训练的精准模型,对海量虚拟候选化合物进行高通量虚拟筛选,在无需化学合成的前提下,快速预测其水溶性。这能有效剔除溶解性差的分子,集中资源优化高潜力候选物,从而显著缩短新型造影剂的研发周期并降低失败风险。此外,它还可用于指导已有先导化合物的结构修饰,以数据驱动的方式定向提升其成药性。 外部及行业应用:本数据集可作为化学信息学领域的专业基准,用于开发和验证针对多卤代、多羟基等复杂分子的新预测算法。同时,训练好的模型可以作为技术服务,授权给其他进入医学影像领域的制药或化工企业,帮助其建立快速、低成本的分子溶解度评估能力,推动整个高端医疗材料行业的智能化发展。
本项目基于线性回归(Linear Regression)算法构建了分子溶解度预测模型。该模型通过学习已知化合物的分子指纹及其对应的溶解度数据,建立了一个线性的数学预测规则,从而实现对全新分子结构溶解度的快速评估,并取得溶解度评估数据。 1. 数据收集与特征加工:收集现有已知造影剂化合物的分子结构(以SMILES 字符串形式表示)、实验测定的溶解度对数值(logS),并采用166 位 MACCS(Molecular ACCess System)分子指纹作为特征表示,用于机器学习预测模型的构建。 2. 特征工程与模型构建 (1)特征工程:针对每个造影剂小分子(以碘海醇类结构为代表)的 SMILES 字符串,通过 MACCS 结构密钥算法将其转换为166 位二进制特征向量(即 MACCS 指纹),作为模型的输入特征矩阵X;以对应的(logS)实验值作为模型的预测目标(输出变量Y)。 (2)模型构建:采用线性回归算法构建预测模型。通过对训练数据(矩阵X和向量Y)执行拟合(fit)操作,算法通过最小二乘法计算出两组核心常数: 回归系数 (Coefficients):一个包含166个数值的向量。其中每一个系数都对应MACCS指纹中的一位,量化了该位所代表的化学亚结构对最终logS值的贡献大小和方向(正贡献或负贡献)。 截距 (Intercept):一个单独的数值,作为预测公式的基础偏移量。 (3)预测规则:模型训练完成后,就拥有了一套固定的回归系数和截距。对于任何一个新的未知分子,其溶解度的预测规则如下:首先,将该分子166位MACCS指纹中的每一位(其值为0或1)分别乘以模型学到的、与之对应的回归系数;接着,将这166个相乘得到的结果全部加起来,得到一个总和;最后,再将这个总和加上模型学到的截距项。这个最终计算出的数值,就是该分子的溶解度(logS)预测值。 3. 预测结果的分类 判定规则模型直接输出的溶解度预测值为连续型浮点数。 为便于成药性评估与决策,将预测值进一步转化为分类标记,规则如下:若溶解度预测值> -4.0,标记为“高溶解度”,提示该分子成药潜力较高;若溶解度预测值在[-5.5, -4.0]范围内,标记为“中等溶解度”,提示分子性质可接受,可作为结构优化的候选对象;若溶解度预测值 < -5.5,标记为 “溶解性差”,提示该分子存在较高的成药性风险。
| 字段名 | 类型 | 描述 |
|---|---|---|
分子量 |
-- | -- |
分子式 |
-- | -- |
国际化学标识符密钥 |
-- | -- |
LogP(辛醇-水分配系数) |
-- | -- |
氢键供体数 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 分子量 | 2245.2649999999994,821.1410000000001,777 |
| 分子式 | C52H64I9N9O18,C19H26I3N3O9,C17H22I3N3O8, |
| 国际化学标识符密钥 | NTOKZQYJUYIVIU-UHFFFAOYSA-N,NTHXOOBQLCIO |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/8405500