卵巢癌的预后及分层方法
【技术领域】
[0001] 本公开涉及一种用于卵巢癌预后的方法和系统,还涉及一种用于在预后方法和预 后试剂盒中所使用的用于识别候选基因的系统和方法。
【背景技术】
[0002] 卵巢癌是异质性很高的疾病,其缺少可靠的诊断、预后和预测性临床生物标记物。 传统的临床生物标记物(分期、分级、肿块等)和分子生物标记物(ca125、kras、p53等)都 不适用于个体患者的早期诊断、特异性诊断、预后和疾病结果的预测。人类卵巢癌的最常见 类型是人类上皮性卵巢癌(e0c)。这一卵巢癌的特征是:在所有癌症中,其生存率为最低之 〇
[0003] 在过去30年里,尽管为上皮性卵巢癌(e0c)疾病付出了相当多的努力,但卵巢癌 的死亡率一直居高不下(西格尔(siegel)等,2012)。这是因为e0c患者通常在5年生存 率只有30%的晚期才被诊断出(丘(cho)等,2009 ;卡斯特(karst)等,2011 ;金姆(kim) 等,2012)。高级别上皮性卵巢癌(hg-e0c)不管其组织学亚型和分子亚型是怎样的,都作为 一个单独的整体被处理。然而,hg-e0c经常存在非常高的肿瘤异质性、基因组不稳定性和 改变的基因表达(莱瓦诺(levanon)等,2008 ;施(shi)等,2011),而这些均使得hg-e0c正 确亚型的识别和标记的发现成为一项必要的任务,以促进开发更有效的治疗方法。
[0004] 卵巢癌0c标记发现的前期研宄集中在0c癌样本或细胞系的基因表达谱相对于正 常卵巢组织样本的差异(纳姆(nam)等,2008 ;达西亚(dahiya)等,2008 ;张(zhang)等, 2008;王(wang)等,2012)上。由于在0c病因和分子分型的范式转变的基础上,不能够容 易地解释基于细胞系的研宄,因此,一些细胞系可能不代表实际的病理-生物复杂性和肿 瘤的克隆进化(沃恩(vaughan)等,2011)。最近的研宄表明大多数的hg-e0c起源于输卵 管伞,或来源于乳房、结肠或其他组织的癌症的转移(图马(tuma),2010)。因此,具有相似 组织学亚型的两个hg-e0c组织样本可能在细胞环境中表现出不同的生物学和临床异质性 (丘等,2009 ;施等,2011 ;癌症基因组图谱(thecancergenomeatlas,tcga),2011 ;王等, 2005;赫尔曼(helland)等,2011 ;卡琳(calin)等,2006;陈等,2012),这意味着更复杂的 hg-s0c病理学并且使表征这种疾病的标记的研宄变得复杂。
[0005] 微rna(mirna)是由发夹型核苷酸前体(即pre-mirna)处理而来的小调控rna分 子,能够调控mrna的翻译和/或转录,其中,发夹型核苷酸前体能够并入到rna诱导的沉默 复合体中(risc)中(拉各斯-昆塔纳(lagos-quintana)等,2001)。由于mirna是高度保 守的跨物种,因此,多数mirna在重要的细胞过程中起到决定性作用。人类mirna能够调控 癌基因和肿瘤抑制基因,还能够调节各种不同的细胞过程,例如生长、代谢、细胞分裂、分化 和凋亡(卡琳等2006 ;陈等,2012 ;瓦兰斯坦(valastyan)等,2011)。特定mirna的致癌性 质和肿瘤抑制性质是复杂的且经常是不明确的。例如,之前在多种癌细胞中被识别为肿瘤 抑制基因的mir-138能够在恶性神经胶质瘤中作用为促生存的致癌mir(oncomir)。此外, 研宄表明,在神经胶质瘤中mir-138的过度表达在具有自我更新潜能的肿瘤干细胞中起到 至关重要的作用,并且mir-138能在临床上作为重要的预期的预后生物标记物和化疗的靶 基因(陈等,2012)。因此,mirna的作用通常取决于细胞型和上下环境。
[0006] 仍旧有必要确定用于e0c预后的生物标记物,并有必要找到用于e0c预后的改进 方法。
【发明内容】
[0007] 本发明概括地提出了为患有上皮性卵巢癌的患者提供预后总生存或预测治疗结 果(例如化疗结果)的方法、系统和试剂盒,其中,let_7b的表达和/或与let_7b有关的 mirna的表达和/或与let-7b有关的基因的表达被用于提供预后和/或治疗结果预测。另 一方面,本发明提出了用于在预后和/或治疗结果预测中识别mirna和/或基因标记的方 法和系统。
[0008] 实施例涉及一种分析方法,用于确定生物学上有意义的且生存显著的微rna生物 标记物、以及它们的致癌作用、以及它们直接和间接的基因交互子。所述方法可以包括用生 物学知识整合转录组学信息和临床信息以协助选择在临床上最相关的生物标记物。
[0009] 在某些实施例中,整合的基因组学和生存分析用于识别肿瘤转录组变型和hg-e0c 的临床异质性之间的关联性。一维数据驱动分组oata-drivengrouping,ddg)生存预 测分析(摩塔克斯(motakis)等,2009)和聚类分析可以用于评估各个let-7成员的预后 能力以及它们的基因网络交互作用。在某些实施例中,基于转录共表达模式分析、mirna 的生物学通路和网络,经由随后应用的ddg和统计加权投票分组(swvg)法结合临床学信 息可以对e0c患者进行分层,ddg和swvg法在这里被调整为使用一种测量方式来评估患 者群体的分层件能的多夺量牛存预测分析,所述测量方式能够将两个以上卡普兰-迈耶 (kaplan-meier,k_m)曲线的可相互比较的p值最小化。在ddg和swvg分析后,可以用生物 学通路和网络富集分析、以及临床标记物与从swvg分析中形成的分层亚组之间的分类一 致性分析(阿格雷斯蒂(agresti),2007)来选择用于预后或治疗结果预测的、在病理-生 物学上最合理的、且有临床意义的生物标记物。
[0010] 在某些实施例中,还提供了一种高级别上皮性卵巢癌(hg-e0c)的预后和治疗结 果预测的方法,所述方法基于患者肿瘤样本中微rnalet-7b和/或与let-7b有关的一系 列21个mirna和/或与let-7b有关的一系列36个mrna的测量结果。实施例可能涉及识 别基因或识别微rna标记、以及识别所产生的标记本身的方法。
[0011] 实施例涉及出于将卵巢癌患者进行分层和对疾病生存能力进行预后的目的,使用 let_7b和/或与let_7b有关的非编码和蛋白质编码的实体的预后方法和计算方法。所述 方法可以包括关于高级别卵巢癌患者的疾病预后对这些患者进行分层。有利地,所述方法 可以执行为无人监管式患者分层方法,该方法使用生存模型(cox比例风险回归模型)能够 识别新复合体生物标记物,其中,所述生存模型包括选择统计学上最显著表达的基因的表 达谱数据,所述新复合体标记物形成与let-7bmirna表达有关的基因的统计加权组合。所 述方法不仅选择了生存显著的特征,还提供了关于死亡风险或(化学)治疗阻力对患者进 行以统计学为基础的优化分层。
[0012] 本发明实施例的36-蛋白质编码-基因和21-非编码-mirna的预后标记是基于 样本中与let-7b表达模式相关的蛋白质编码基因和非编码mirna在患者样本中的表达模 式的。
[0013] 特殊的实施例是针对:
[0014] (i)let-7b以及由与let-7b表达模式有关的蛋白质编码基因编码的36个mrna 的hg-e0c预后能力;
[0015] (ii)let-7b、以及与let-7b表达模式有关的21个编码/非编码基因及其关联物 的hg-e0c预后能力;
[0016] (iii)将let-7b作为一个单独的hg-e0c生物标记物或集合的(即与诸如 21-mirna预后标记或36-mrna预后标记的其他生物标记物一起)hg-e0c生物标记物;
[0017] (iv)对患者的分层方法。
【附图说明】
[0018] 图1示出了卵巢癌中let_7b家族成员的分析,并包括下列:
[0019] (a)let-7b家族的成熟mirna序列的多序列比对。
[0020](b)对于tcga数据集(上方)和gse27290数据集(下方),基于k均值聚类,let-7 家族成员的表达的热点图。灰色代表le-7家族成员的表达水平。深灰和浅灰分别代表上 调的和下调的mirna。
[0021] (c)tcga数据集(上方)和gse27290数据集(下方)中基于总生存(0s)的三个 亚组的患者基于swvg分析的卡普兰-迈耶(k-m)生存曲线。在总生存分析中,通过将k-m 曲线的可相互比较的p值最小化来评估分层性能。列出了三个曲线的对数秩(log-rank)p 值。
[0022] (d)患者的两个亚组的k-m生存曲线,所述两个亚组具有不同的死亡预后(和风 险),这两个亚组基于0s,在tcga数据集中是由可能的肿瘤抑制基因let-7a(上方)和可 能的致癌基因let-7b(下方)的表达谱的ddg分析进行划分的。列出了两个曲线的对数秩 p值;在上图中,曲线170代表具有let_7a高表达的亚组,曲线175代表具有let_7a低表 达的亚组。在下图中,曲线180代表具有let-7b低表达的亚组,曲线185代表具有let-7b 高表达的亚组。
[0023] 图2示出了将患者群体分层为3个亚组的1维数据驱动分组(lddg)法的一个实 施例的结果。左侧附图表明患者群体可以表示为通过与最小化的对数秩p值有关的两个表 达截断值(^和c2分层而成的三个亚组。具有不同死亡风险的三组患者的相应卡普兰-迈 耶生存曲线使用交叉验证、使用36-mrna标记的一个基因pik3r1作为一个例子示出于右侧 附图中。在左图中,位于截断值cl左侧的曲线205代表第一个具有生存曲线220(右图)的 低风险亚组。相似地,位于截断值cdpc2之间的曲线210代表具有生存曲线225的中风险 组,以及位于截断值c2右侧的曲线215代表具有生存曲线230的高风险组。
[0024] 图3示出了通过实施例的36-基因标记的交叉验证分析所分层的患者亚组的卡普 兰-迈耶总生存曲线(305 :低风险;310 :中风险;315 :高风险)。交叉验证过程的结果示出 了与1维ddg-swvg分析结果具有很强的一致性,这提供了很强的指示表明1维ddg和swvg 的参数是稳定的。
[0025] 图4为本发明实施例中所用数据集的汇总。
[0026] 图5示出了由各个let-7成员的表达谱的ddg分析所分离的tcga数据集中患者的 两个亚组的卡普兰-迈耶生存曲线。在图5a-5g中,上方生存曲线代表患者具有let-7成员 的高表达(即,高于表达截断值),而下方生存曲线代表患者具有let-7成员的低表达(即, 低于截断值)。在图5h和51中,上方生存曲线代表患者具有let-7成员的低表达(即,低 于表达截断值),而下方生存曲线代表患者具有let-7成员的高表达(即,高于截断值)。
[0027] 图 6 不出 了使用mirumir(http://www.bioprofiling.de/geo/mirumir/mirumir. html)所生成的生存曲线去评估卵巢癌(gse27290)、乳腺癌(gse22216)和前列腺癌 (gse21036)中临床结果的let-7b与let-7c的表达水平之间的关系。'低表达'亚组(l)和 '高表达'亚组(h)分别是那些mirna的表达等级(rank)小于或大于整个数据集的平均表 达等级的亚组。
[0028] 图7示出了由(a)整个数据集、(b)低风险亚组、(c)中风险亚组和(d)高风险亚组 生成的施氏数据集(shih's)