返回数据集列表
数据集 浙江司太立制药股份有限公司

基于碘帕醇结构的小分子溶解度预测数据

价格待定
数据描述

本数据的核心应用在于加速新型碘化造影剂及类似复杂多官能团分子的研发。 企业内部应用:因三碘苯类造影剂整体结构都比较相近,因此在药物发现的早期阶段,研发团队可利用此数据训练的精准模型,对海量虚拟候选化合物进行高通量虚拟筛选,在无需化学合成的前提下,快速预测其水溶性。这能有效剔除溶解性差的分子,集中资源优化高潜力候选物,从而显著缩短新型造影剂的研发周期并降低失败风险。此外,它还可用于指导已有先导化合物的结构修饰,以数据驱动的方式定向提升其成药性。 外部及行业应用:本数据集可作为化学信息学领域的专业基准,用于开发和验证针对多卤代、多羟基等复杂分子的新预测算法。同时,训练好的模型可以作为技术服务,授权给其他进入医学影像领域的制药或化工企业,帮助其建立快速、低成本的分子溶解度评估能力,推动整个高端医疗材料行业的智能化发展。

算法/方法论

本研究基于支持向量回归(Support Vector Regression, SVR)算法构建了分子溶解度预测模型,该模型通过学习已知数据,实现对全新分子结构溶解度的预测。 1. 数据收集与特征加工:收集现有已知造影剂化合物的分子结构(以SMILES 字符串形式表示)、实验测定的溶解度对数值(logS),并采用166 位 MACCS(Molecular ACCess System)分子指纹作为特征表示,用于机器学习预测模型的构建。 2. 特征工程与模型构建 (1)特征工程:针对每个造影剂小分子(以碘帕醇类结构为代表)的 SMILES 字符串,通过 MACCS 结构密钥算法将其转换为166 位二进制特征向量(即 MACCS 指纹),作为模型的输入特征矩阵X;以对应的(logS)实验值作为模型的预测目标(输出变量Y)。 (2)模型构建:采用支持向量回归(SVR)算法构建预测模型,核心参数与结构如下:核函数:选用非线性径向基函数(Radial Basis Function, RBF),以适配分子特征与溶解度之间的复杂非线性关系;关键超参数:正则化参数C设为2.0(平衡模型拟合能力与泛化能力),核系数(gamma)设为(0.01)(控制径向基函数的局部影响范围); (3)预测规则:模型训练完成后,生成623个支持向量及其对偶系数(权重),并得到截距项。对于新分子,其溶解度预测值通过如下方式计算:溶解度预测值=支持向量与新分子 MACCS 指纹的相似度加权和+截距(其中 “相似度” 由 RBF 核函数定义,加权和由支持向量的对偶系数决定)。 3. 预测结果的分类 判定规则模型直接输出的溶解度预测值为连续型浮点数。 为便于成药性评估与决策,将预测值进一步转化为分类标记,规则如下:若溶解度预测值> -4.0,标记为“高溶解度”,提示该分子成药潜力较高;若溶解度预测值在[-5.5, -4.0]范围内,标记为“中等溶解度”,提示分子性质可接受,可作为结构优化的候选对象;若溶解度预测值 < -5.5,标记为 “溶解性差”,提示该分子存在较高的成药性风险。

字段定义
字段名 类型 描述
分子量 -- --
分子式 -- --
国际化学标识符密钥 -- --
SMILES -- --
MACCS -- --
样本数据
fieldName exampleValue
分子量 875.189,1520.1620000000003,685.038000000
分子式 C22H28I3N3O10,C34H42I6N6O14,C15H18I3N3O4
国际化学标识符密钥 ARFZAIHMTRWRDS-UHFFFAOYSA-N,YWCIPMHGEOTR
调用API获取完整数据
基本信息
数据格式
csv
数据类型
企业数据
记录数量
2359
所属行业
制造业
登记企业
浙江司太立制药股份有限公司
数据单位
V6 评分明细
描述质量 0.0 / 20
结构规范 0.0 / 20
规模时效 0.0 / 15
安全合规 0.0 / 20
认证标注 0.0 / 15
商业价值 0.0 / 10
API 调用示例
curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/8405506
认证信息
证书编号
20251033000019735
登记编号
SZ2025120019735.4