采用svm在候选属性子集上构建分类模型,利用svm的7倍交叉正确率作为度量候选属性子集的标准。交叉验证的正确率越高,对于候选子集的评价越好。d.更新概率分布模型
l-eda给出了一种新的更新概率分布模型的策略。从当前一轮的候选属性子集中选出一定比例的评价最优的候选子集,新的策略采用单个属性在这些评价最好的候选集合中出现的频率作为评价属性优劣的度量。设属性i在评价最好的若干个候选集合中出现的频率为f[i],所有属性平均的出现频率为average,则在更新属性i的概率分布时,如果 f[i] >average,采用公式(1),否则,采用公式(2 )。ρ [i] = (l-r)*p[i] r*(l-p[i])*(f[i]-average)(1) ρ [i] = (l_r) [i] r*p [i] * (f [i] -average) (2)
其中,r是概率分布模型从当前候选子集集合中学习的比例。从公式(1)、(2)可以看出,在概率分布模型更新时,只有具有竞争力的属性才可能被奖励,否则,将被惩罚。l-eda算法流程如下首先,按照a中的方法初始化概率分布向量。之后,进入迭代搜索过程按照参数设定,按照b中的方法生成t个候选属性子集;对于每一个候选子集, 按照c中的方法进行评价。选出评价最优的若干个候选子集,按照d中的方法更新概率分布向量。至此,第一轮的迭代搜索结束,进入下一轮的搜索过程。当迭代搜索进行到预先设定的最大搜索轮数时,算法终止搜索过程。最后,算法按照概率分布向量值的降序将所有的属性进行排序,并输出属性排序表。由l-eda算法中概率分布向量的含义可以看出,被l-eda排在前面的属性是与类别信息最为相关、区分能力最强的属性,可以根据具体需要,筛选出前面一定比例的属性进行分析、研究。本发明具有的效果是
1、体液的处理均为离体完成,步骤简单,操作方便,处理速度快,适用于大规模样本的处理和筛选。2、液相色谱质谱联用方法重复性、可靠性高。样品分析时间短,分析通量大。3、算法对于参数的设置具备稳定性,在不同的参数设置下,能够取得一致的属性排序结果。4、算法对于属性的评价精确,被算法排在前面的属性能够体现样本集合的特征。5、算法的执行效率高、节约时间、适于应用。
图1是实施例中血清代谢组轮廓图。其中(a)健康妇女血清液相色谱质谱总离子流图,(b)卵巢患者血清液相色谱质谱总离子流图,(c)卵巢术后未复发妇女血清液相色谱质谱总离子流,(d)卵巢术后复发患者血清液相色谱质谱总离子流。图2是对l-eda排名靠前的属性集合进行7倍交叉验证的正确率变化曲线图。图3是l-eda与传统的eda的运行时间对比图。图4是对原始的代谢组轮廓数据构建pls-da模型的得分图。图5是对l-eda对代谢组轮廓数据筛选出的排名前20%属性构建pls-da模型的得分图。
具体实施例方式下面结合附图对本发明的实施例作详细的说明;本实施例在本发明技术方案的指导下实施,但本发明的保护范围不限于下述的实施例,本发明的下述实施例仅作为本发明的事例而不是限制。在不违反本发明主旨及范围的情况下,可对本发明进行各种改变和改进,但所有这些改变和改进,均应在本发明保护范围之内。实施例基于血清代谢组轮廓的卵巢癌预后标记物筛选。( 1)人血清样本的收集和预处理。采集前,纳入者签署知情同意书,在相同采样条件下采集,采集的血清样本立即储存于一 80 !冰箱中。本实施例中共采集人血浆样本106份,其中收集了 m例健康妇女、21 例卵巢癌患者、36例卵巢癌术后复发患者以及25例卵巢癌术后未复发妇女。代谢物分析前,将血浆样本从超低温冰箱中取出并于室温条件下解冻。解冻后震荡30秒混勻。分别取106份血浆样本,在每份180 μ l血清加入4倍体积(720 μ l)乙腈,乙腈中含有亮氨酸脑啡肽和lyso pc (12:0)作为内标,充分震荡30秒,然后在4° c下15000g离心10分钟,取上清液冻干。分析前重溶于150μ l水乙腈(1/4,ν/ν)中。此时,内标亮氨酸脑啡肽浓度为3 ng/yl和lyso pc (12:0)浓度为3 ng/yl。(2)液相色谱质谱联用技术分析血清中的代谢物。色谱分析采用的是安捷伦1200系列快速分辨液相色谱(rapid resolution liquid chromatography,rrlc),色谱柱采用 50mm x 2. 1 mm 1. 7 ym waters beh c18 柱。柱温度保持在50° c,流量为0. 35ml/min。流动相a是高纯水含有体积百分数0. 1%甲酸和1乙腈,流动相b为乙腈。洗脱梯度为5%b起始,在第4分钟时升至35%b,在第22分钟时变化至80%b,第m分钟时达到100%b,保持5分钟后进行柱平衡5分钟。自动进样器保持为4° c,进样体积为5 μ l。质谱分析采用的是安捷伦6510四极杆-飞行时间质谱ο -tof ms,agilent, usa)。质谱在正离子模式下进行数据采集。质谱毛细管电压设为4000v,fragmentor电压和skimmer电压分别设为230 v和65 v。干燥气流量为11 l/min,喷雾压力设为45 psig, 温度为350°c。采用嘌呤和六膦嗪(hexakis phosphazine)的混合物作为校正液用来保持质量数测量的精度以及稳定性。在正离子模式下它们分别产生质荷比为121.0508以及 922. 0097的离子。数据采集范围是质荷比80-1000,以质心模式采集。采集速率为500毫秒。(3)代谢组轮廓数据的生成。采集的原始代谢组轮廓数据由molecular feathers extraction (mfe,安捷伦) 软件提取化合物信息,并计算准确分子量。随后,采用genespring (安捷伦)软件进行色谱峰匹配。质谱质荷比窗口设为0. 01,保留时间窗口设为0. aiiin。匹配后的数据经过面积归一化以减少系统误差,归一化后每个样本中所有峰面积的总和等于10000。然后使用80%规则减少缺失值对数据集的影响,即当一个离子在某一类 80%的样品里都大于1时,才能够被采用。(4)对代谢组轮廓数据进行标准化与处理,可供优化和选择的数据预处理方法有 centering, autoscaling, pareto scaling, range scaling, sk^ji^iem^isfll^ ,^ 实施例采用pareto scaling的标准化方法。对l-eda算法的参数进行设置最大的迭代搜索轮数设为100,每一轮生成的候选属性子集数取值集合{400,700, 1000},候选属性子集包含的属性个数取值集合{40,70,100},每一轮选取评价最优的候选子集的比例设为0. 2, 概率分布模型从当前最优候选子集集合中学习的比例设为0. 3。(5)按照属性个数构建概率分布向量并初始化,根据(4)中设定的每一轮生成的候选属性子集数和候选属性子集包含的属性个数和当前的概率分布向量生成第一轮搜索的候选属性子集集合。(6)采用支持向量机构建分类模型,对每一个候选属性子集进行7倍交叉验证,记录交叉验证的正确率,并对候选属性子集按照交叉验证正确率有高到低的顺序排序。在执行交叉验证时,样本被划分为7个子集。每次抽取其中1个子集,用剩余6个子集的样本建立svm模型,并用抽取的子集作为验证集来验证分类的准确性。该过程不断重复,直到每个子集至少被用作预测集1次,然后计算总的交叉验证准确率。(7)按照(4)中设定的最优的候选子集的比例,选出最优候选子集集合。统计每一个属性在最后候选子集集合中出现的频率,并计算平均的属性出现频率。(8)根据(7)中统计的信息,对概率分布向量采用提出的更新策略进行更新,得到新的概率分布向量。(9)根据(4)中设定的每一轮生成的候选属性子集数和候选属性子集包含的属性个数和新的概率分布向量生成第一轮搜索的候选属性子集集合。(10)反复执行迭代搜索步骤(6)到(9),直到已经达到(4)中设定的最大的迭代搜索轮数为止。最终得到l-eda对属性进行排序后的顺序表。(11)本实验中,选取l-eda输出的排序表中前20%的属性进行分析(78个属性)。 表1给出了在不同的参数设置下,l-eda排序在前20%的属性集合利用支持向量机进行7倍交叉验证的正确率,结果表明在不同参数下,l-eda所筛选的属性都能够对样本进行准确的分类。表2给出了在不同的参数设置下,l-eda排序在前20%的属性集合之间的percentage of overlapping genes- related (pogr)值(文献 7. zhang μ. ; zhang l. ; zou j. ; et al. bioinformatics2qq9, 1:1662-1668.),可以看出,在不同参数下,l-eda所筛选的属性都具有较高的相似程度(p0gr值越大,两个属性集合的相似程度越高)。综合表1、表2可知,l-eda对于每一轮生成的候选属性子集数和候选属性子集包含的属性个数两个参数具有稳定性。鉴于l-eda算法对于参数并不敏感,接下来的分析过程选用将每一轮生成的候选属性子集数和候选属性子集包含的属性个数分别设定为700、70时l-eda选出的排名前 20%的属性子集。(12)图2给出的是按照l-eda的排序,依次分别选用前若干个属性时,支持向量机的7倍交叉验证的正确率变化曲线。从正确率曲线的变化可以发现,当属性个数很少时 (少于10个)正确率曲线迅速上升,表明l-eda排名最靠前的属性具有很强的区分能力;同时,随着属性个数不断增加,正确率曲线保持在很高的水平上且波动很小,表明l-eda排名靠前的属性都是与类别信息相关的、能够体现样本集合特征的属性。(13)对候选属性子集的评价是分布估计算法最为耗时的部分,候选属性子集包含的属性越多,分类算法构建模型时需要的时间就越长,因此,l-eda对候选属性子集的容量加以限定,提高算法的执行效率。图3给出了传统的分布估计算法和l-eda在时间消耗上的对比。从图3中可以看出,相对于传统的eda,l-eda能够节省约50%至65%的时间。同时须注意到,图3中给出的l-eda的运行时间是在候选属性子集包含的属性个数设为70时测定的,如果这个参数设置成更小的值,可以预期l-eda还能够节省更多的时间。(14)图4和图5分别是使用多元统计分析工具simca (soft independent modeling of class analogy)对l-eda筛选前、后的代谢组轮廓数据进行pls-da建模, 得到的得分图显示。在图4中,pls-da没有能够将术后非复发组的样本与术后复发组及卵巢癌组区分开来,说明术后复发与非复发的差异被掩盖。同时,作为一种有监督学习方法, pls-da构建的模型可能对数据过拟合,导致模型不可信。对于pls-da构建的模型,进行200 次的置换有效性检验,得到模型的r2截距和q2截距分别是0. 419和-0. 678。根据之前的研究(文献 8. l eriksson ;ε. j. ;n kettaneh-ffold ;et al. vffleiric1^ool. ),r2 截距应小于 0. 4、q2截距应小于0. 05,置换有效性检验所得的参数表明pls-da构建模型时,过度依赖当前的数据和类别信息,出现了过拟合现象。而l-eda提取变量构建的pls-da模型中,可以发现术后非复发组的样本有明显的靠近正常组的趋势(图5),且有别于术后复发组和癌症组。由置换响应检验结果证实,该模型不存在过拟合现象。这表明l-eda找出的属性很好的体现了术后是否复发的特征,这些属性可以作为潜在的预后标记物来进行分析。(15)根据临床应用的需求,潜在的标记物需要在不同类别之间有显著性差异。对 l-eda筛选的到的78个属性进行wilcoxon秩和检验(ρ < 0. 05),得到了 6个属性(5种代谢物)满足在不同类别之间有显著性差异的要求(p < 0. 05),表3中给出了这5种代谢物的具体信息。(16)利用(15)中得到的5种代谢物,分别对术后复发组与术后非复发组以及“无病组”(正常组和非复发组)与“带病组”(复发组和卵巢癌组)构造支持向量机(svm)分类模型,进行7倍交叉验证,正确率分别是86. 9%和88. 7%。分别对两个模型进行200次的置换检验,得到模型参数r2截距、q2截距分别是-0. 601、-1. 079和-0. 729,-1. 172。由此可以得出结论,使用本方法筛选出来的标记物具有优异的区分能力且模型可靠,具备应用前景。表1不同参数设置下,l-eda排序前20%的属性子集的交叉验证正确率
权利要求
1.利用l-eda筛选卵巢癌体液预后标记物的方法,其特征在于采用液相色谱质谱联用仪分别对健康妇女、卵巢癌患者、卵巢癌术后未复发妇女、卵巢癌术后复发患者的体液代谢物进行分析得到代谢组轮廓,将代谢组轮廓利用l-eda算法构建变量的概率分布模型, 通过迭代抽取2个或3个以上属性集合、交叉验证来更新该分布模型,最终得到其属性重要性排序列表,并根据该列表进行wilcoxon秩和检验筛选出潜在卵巢癌预后标记物集合。
2.根据权利要求1所述的方法,其特征在于采用液相色谱质谱联用仪对体液代谢物进行分析得到代谢组轮廓,包括如下步骤1)体液样本的收集和预处理取于<一 60 ° c下保存的,健康妇女、卵巢癌患者、卵巢癌术后未复发妇女、卵巢癌术后复发患者的体液样本;将样品从冰箱取出室温解冻,加入3-5倍体积乙腈,充分震荡10-40秒,然后在4-8 ° c下,取10000-20000 g离心5-20分钟,取上清液冻干;分析前重溶于水乙腈=1/4 (ν/ ν)的混合溶液中;2)液相色谱质谱联用仪分析血清中的代谢物色谱柱采用50mm x 2. 1 mm,1. 7 μπι waters beh的cw柱;柱温度保持在 35-60° c,流量为0. 3-0. 4ml/min ;流动相a是含有体积百分数0. 1-1%甲酸和0. 1-5%乙腈的高纯水,流动相b为乙腈;自动进样器保持为4-8° c,进样体积为i-ioyl;质谱分析采用的是安捷伦6510四极杆-飞行时间质谱ο -tof ms, agilent, usa); 质谱在正离子模式下进行数据采集;数据采集范围是质荷比80-1000。
3.根据权利要求1所述的方法,其特征在于将得到的代谢组轮廓运行l-eda算法对代谢组数据进行分析,算法中的一个属性对应代谢组轮廓中的一种代谢物;1)抽取候选属性子集通过迭代抽取2个或3个以上属性集合每个属性集合为一个候选属性子集;l-eda将候选属性子集包含的属性数统一限定为g个,g为正整数,通常为属性总数的5-20% ;2)更新概率分布模型对l-eda算法的参数进行设置每一轮选取评价最优的候选子集的比例设为0. 1-0. 3, 概率分布模型从当前最优候选子集集合中学习的比例设为0. 2-0. 4 ;将属性在最优候选属性子集集合中出现的平均频率这一平均标准来体现所有属性的平均表现;3)构建概率分布模型,反复执行以下步骤,直到搜索过程执行了预先定义的次数按照步骤1)的方法抽取候选属性子集集合,评价每一个候选属性子集,按照2)的方法更新概率分布模型,进入下一轮搜索过程;算法运行结束之后,输出算法对于所有属性的排序列表;4)筛选潜在的卵巢癌预后标记物集合依据步骤3)最终输出的所有属性的排序列表,对排名靠前的10-30%的属性进行分析;如果属性在代谢组数据要求的各组别之间在wilcoxon秩和检验中具有显著性差异 (p<0. 05),则找出该属性对应的代谢物;最终,将该代谢物作为潜在的卵巢癌预后标记物。
全文摘要
本发明公开了一种利用改进的分布估计算法(l-eda)从体液代谢组轮廓筛选卵巢癌预后标记物的方法。采用液相色谱质谱联用仪对体液代谢物进行分析得到代谢组轮廓,构建概率分布模型对代谢组轮廓进行分析,筛选潜在的卵巢癌预后标记物。不同于传统的分布估计算法,l-eda对迭代搜索过程中生成的候选属性子集的大小加以限定,并给出一种新的概率分布模型更新策略,使得对于属性的评价更为精确、合理,同时提高了算法的执行效率。l-eda筛选出的属性子集能够体现代谢组轮廓数据各个组别之间的特征,构建支持向量机(supportvectormachine,svm)分类模型进行交叉验证分析,正确率达到99.06%。
文档编号g01n30/88gk102478562sq20101055838
公开日2012年5月30日 申请日期2010年11月25日 优先权日2010年11月25日
发明者张洋, 林晓惠, 许国旺, 路鑫, 陈世礼, 陈静, 黄强 申请人:中国科学院大连化学物理研究所, 大连理工大学