专利名称:用来分析和优化用于癌症诊断的标记候选物的方法和计算机程序产品的制作方法
技术领域:
本发明涉及用来挑选、分析、及优化可以是在建立患有癌症的病人的预后(prognosis)时使用的候选物的生物标记的方法。
背景技术:
已知基因增殖(gene amplification)、基因缺失(gene deletion)、及基因突变(gene mutation)通过异常蛋白质表达在异常细胞行为中具有显著作用。关心的细胞行为的范围包括多样化到例如增生或分化调整的行为。因此,在基因增殖、缺失、及突变;mrna量化;或蛋白质表达分析中的有效探测和量化是必要的,以便有利于在复杂疾病(例如各种形式的癌症)中的有用研究、诊断和预后工具。
有旨在基因增殖、缺失、及突变;mrna量化;或蛋白质表达分析中的探测和量化的多种实验室技术。例如,这样的技术包括western、northern及southern blots;聚合酶连锁反应(“pcr”);酶标记免疫分离分析(“elisa”);及比较基因组杂交(“cgh”)技术。然而,日常利用显微镜法,因为它是一种有益技术,允许在细胞和亚细胞水平下的快速检查,同时能够以较低成本便利地实施。
当显微镜法是挑选的实验室技术时,生物样本首先必须经受特定探测和显露制备。一旦样本被制备,人类专家就在定性研究中仅借助于显微镜、或者在定量和一般标准化研究中借助于联接到摄像机和计算机上的显微镜典型地分析样本。在某些实例中,显微镜可以构造成用于完全自动分析,其中显微镜借助于机动载物台和聚焦、机动物镜转换盘、自动光强度控制等自动化。
用于探测的样本制备可能涉及适于显微成像分析的不同类型的制备技术,例如基于杂交和基于免疫加标签的制备技术。这样的探测技术可能与适当的显露技术相联,例如与基于荧光和基于可见颜色反应的技术相联。
在杂交中(situ hybridization,“ish”)和在杂交中的荧光(fluorescent in situ hybridization,“fish”),使用探测和显露技术,例如用于在遗传信息增殖和突变分析中的探测和量化。ish和fish都能用于组织学的或细胞学的样本。这些技术使用特定互补探针来识别对应的精确序列。依据使用的技术,特定探针可以包括色度(eish)标记或荧光(fish)标记,其中然后使用透射显微镜或荧光显微镜分别分析样本。色度标记或荧光标记的使用取决于用户的目标,每一种类型的标记在特定实例中具有优于另一种的对应优点。
成像和显微镜法技术已经被开发,以优化和标准化色度标记或染剂的读数,其可以用来探测和/或量化基因增殖、基因缺失、基因突变、及异常蛋白质表达,上述在分析用所挑选的适当标记处理的组织切面切片以强调异常细胞活动时可以是可见的,这可有助于对于诸如癌症之类的疾病的诊断和/或预后的确定。
这样的方法对于得到在给定组织样本内的目标分子种类的定量测量是有用的,然而,如果另外的分子种类在同一组织样本内由另外的生物标记强调,则它们不可能是立即可感觉到的,并且存在辨别和量化这样的特征以便更系统地分析组织样本的需要,从而允许临床医师提供对于患有诸如癌症之类的复杂疾病的病人的更准确预后。例如,在多种类型的癌症中,在早期诊断的少量百分比的病人仍然最终具有不幸的十年结果,如在这十年时段内的疾病复发、转移、或死亡。然而,在早期诊断的大多数癌症病人具有良好的10-年预后,并且未必需要或受益于另外的主动辅助疗法(例如,化学疗法)。例如,当前临床的一致意见是,至少某些早期、结节-阴性乳腺癌病人应该接收辅助化学疗法,但目前没有fda-核定分析来冒险分层病人以用于更主动治疗。由于大多数这些早期乳腺癌病人在手术和/或辐射疗法之后长期存活而没有进一步治疗,所以对于所有这些病人推荐主动辅助疗法可能是不适当的,特别是鉴于与癌症化学疗法相关的显著副作用。允许把在初始诊断时的早期乳腺癌病人的这些群体区分成良好和不良预后组的组成和方法有助于临床医师选择适当的治疗过程。因而,需要用来评估乳腺癌病人(特别是早期乳腺癌病人)的预后的方法。
尽管当前预后标准和标记的定量视频显微镜法分析在预测病人结果和选择适当的治疗过程时提供某种指导,但存在对于利用临床视频显微镜数据以提供最佳特定和灵敏癌症预后(特别是在早期病人中)的系统方法的显著需要。另外,存在对于用来辨别和评估候选标记和其经视频显微镜法辨别的特征的方法的需要,以有助于癌症预后的评估。
发明内容
提供一种用来分析和/或评估适于确定癌症病人的预后的至少一个标记的方法和计算机程序产品。用来分析至少一个标记以确定癌症病人的预后的方法包括步骤把身体样本(从癌症病人取得)暴露于所述至少一个标记;使用图像处理系统从至少一个切片的取得图像抽取至少一个可量化特征,其中所述至少一个切片从所述身体样本制备;及把决定规则应用于所述至少一个可量化特征,从而基于所述至少一个可量化特征与决定规则之间的关系确定癌症病人的预后。在用来分析所述至少一个标记的方法的某些实施例中,应用步骤还包括把阈值应用于所述至少一个可量化特征,从而基于所述至少一个可量化特征与阈值之间的关系确定癌症病人的预后。在用来分析所述至少一个标记的方法的又一个实施例中,应用步骤还包括应用用于所述阈值的疾病规则,疾病规则能够建立对应于同阈值相关的至少一个可量化特征的值的良好预后或不良预后。
用来评估至少一个标记的方法包括把多个身体样本暴露于所述至少一个标记的步骤,所述多个身体样本从对应的多个病人取得,其中每个病人具有已知结果。该方法还包括使用图像处理系统从多个切片中的每一个的取得图像抽取至少一个可量化特征的步骤。所述多个切片可以从与每个病人相对应的多个身体样本制备。此外,该方法包括步骤把多个候选决定规则应用于多个切片的每一个的至少一个可量化特征,从而为多个切片的每一个提供一个对应候选预后;和对于至少一个可量化特征,选择最佳决定规则,其中最佳决定规则从候选决定规则中选择。所述最佳决定规则规定了,用于多个切片的每一个的候选预后最佳地与对于多个病人的每一个的已知结果相对应。例如,通过确定对于候选决定规则中的每一个的特异性和灵敏性、并挑选具有最靠近所述最佳特异性和灵敏性对(1,1)的决定规则,可以挑选最佳决定规则。
本发明的方法和计算机程序产品的某些实施例包括评估至少一个标记的统计独立性的步骤,从而保证所述至少一个标记能够提供大体统计地独立于至少一个互补标记的预后。更具体地说,以上评估步骤在某些实施例中还可以包括步骤第一,把观察结果的频率分布与用于暴露于所述至少一个标记和所述至少一个互补标记的第一多个身体样本的理论预后的频率分布相比较,所述第一多个身体样本与具有已知良好结果的病人相对应;第二,把观察结果的频率分布与用于暴露于所述至少一个标记和所述至少一个互补标记的第二多个身体样本的理论预后的频率分布相比较,所述第二多个身体样本与具有已知不良结果的病人相对应;及最后,估计所述至少一个标记相对于所述至少一个互补标记的独立性(在某些情况下,使用卡平方分析)。
根据某些实施例,用于评估的方法的应用步骤还可以包括把多个候选阈值应用于每个可量化特征,从而产生与多个候选阈值的每一个相对应的多个候选预后,用于多个身体样本每一个。此外,选择步骤还可以包括从多个候选阈值中选择最佳阈值,从而用于多个切片的每一个的候选预后最佳地与多个病人的每一个的已知结果相对应。这样的最佳阈值可以提供例如由计算机化图像处理系统用来在标记已经应用于身体样本(如组织学切片)之后分类对于标记的特定可量化特征确定的给定值所使用的工具。一旦分类成在最佳阈值以上或以下,所述给定值然后就可以转换成所述应用决定规则的结果,该结果又用来建立用于病人的预后,其中从该病人取得身体样本。
在其它实施例中,所述应用步骤还可以包括确定用于多个候选阈值的每一个的疾病规则,所述疾病规则能够建立对应于与多个候选阈值的每一个相关的至少一个可量化特征的值的良好预后或不良预后。
根据本发明的各种实施例,所述方法可以包括把多个身体样本暴露于至少一个标记,其中标记可以从如下挑选色度生物标记、slpi、psmb9、ndrg-1、muc-1、phospho-p27、src、e2f1、p21ras、p53、及其组合。另外,在某些实施例中,所述方法可以包括从多个切片的每一个的取得图像中抽取至少一个可量化特征,其中所述可量化特征是由图像处理系统可探测的和可量化的。这样的可量化特征可以包括透射率;光学密度;细胞形态;细胞类型的百分比;及其组合。
以上概括的方法步骤也可以在一个或多个适当的计算机程序产品中实施,该计算机程序产品在计算机装置(如与适于捕获染色组织学切片的图像的显微镜法系统和/或图像分析系统通信的计算机装置)上是可执行的,并且能够完成与上述方法实施例相关的各种功能。例如,根据一个实施例,提供一种计算机程序产品,该计算机程序产品能够控制图像处理系统,以确定癌症病人的预后,其中计算机程序包括(1)用来使用图像处理系统从多个切片的每一个的取得图像中抽取特征的可执行部分,所述多个切片由从多个病人取得的多个身体样本制备,其中每个病人具有已知结果,所述多个身体样本已经暴露于至少一个标记;(2)用来把多个候选决定规则应用于多个切片的每一个的特征的可执行部分,从而提供用于候选决定规则和特征的每种可能组合的候选预后;及(3)用来选择与最佳预后相对应的最佳决定规则的可执行部分,所述最佳决定规则从所述多个候选决定规则中选择,对于所述特征,最佳决定规则规定了用于多个切片的每一个的最佳预后最佳地与用于病人中每一个的已知结果相对应。
因而,所述最佳决定规则可以基于多个病人的已知结果,提供基于至少一个标记的综合分析的预后,该标记具有至少一个可量化特征,从而所述预后当与多个病人的已知结果相比较时,提供最小数量的虚假肯定预后和虚假否定预后。因而,一旦被选中,所述最佳决定规则可以用来优化一个或多个色度标记的分析,该色度标记具有可量化(通过例如图像处理系统中的分析)的一个或多个特征,从而提供可以更准确地预测良好或不良结果的病人预后。因而,本发明的方法和计算机程序产品可以允许临床医师更好地利用给定标记(或标记组),以便即使在仅呈现特定疾病的早期表现的病人中也预测不良结果的发生。
已经如此概括地描述了本发明,现在将参照附图,附图不必按比例画出,并且在附图中图1表示根据本发明一个实施例用来评估至少一个标记的方法和计算机程序产品的方块图;图2表示当与对应实际结果相比较时,候选预后可能位于其内的四个可能象限内的图形表示,所描绘的象限可以用来产生用于候选预后的灵敏性和特异性对;图3表示根据本发明一个实施例画出灵敏性和特异性对的roc曲线的例子,该灵敏性和特异性对可以用来选择标记特征和/或阈值的最佳组合,从而使由标记或标记的组合建立的预后的灵敏性和特异性都最大;图4表示根据本发明一个实施例用来评估至少一个标记和估计所述至少一个标记相对于至少一个互补标记的独立性的方法和计算机程序产品的方块图;及图5表示在单个标记分析中通过按候选阈值的比例画出良好和不良结果的分布来确定用于给定特征的最佳阈值的可见表示。
具体实施例方式
本发明提供用来评估和优化在建立癌症病人的预后时使用的标记候选物的方法。尽管下面描述的标记(和其具体特征)对于建立用于乳腺癌病人(并且更具体地说早期乳腺癌病人)的预后特别有用,但这里公开的方法可以用来评估和优化在建立患有任何疾病的病人的预后时使用的标记候选物,该疾病可能链接到(经过例如临床数据)适合于通过例如色度生物标记(标记)可顺从染色(staining)的特定蛋白质或其它目标分子的过分表达上。因而,本领域的技术人员将认识到,这里公开的方法对于建立病人的预后时使用的标记的分析和优化是可应用的,该病人具有链接到可以标记和以后经显微镜法分析的蛋白质或目标分子的表达的其它形式的癌症或其它疾病。
这里公开的方法也应用于评估标记,该标记在预测乳腺癌病人对于所选择治疗的响应可能是有用的。通过“预测乳腺癌病人对于所选择治疗的响应”,打算估计病人对于特定治疗将经历阳性和阴性结果的可能性。如这里使用的那样,“指示阳性治疗结果”是指,病人将经历来自选择治疗的有益结果(例如,完全或部分缓解、减小肿瘤尺寸等等)的增大可能性。通过“指示阴性治疗结果”意指,相对于潜在乳腺癌的进展,将不从所选择治疗受益的增大可能性。在本发明的某些方面,所述选择治疗是化学疗法。
这里公开的方法也应用于评估和/或优化在辨别或诊断癌症(特别是乳腺癌)时有用的标记。“诊断乳腺癌”打算包括例如诊断或探测乳腺癌的存在、监视疾病的进展、及辨别或探测指示乳腺癌的细胞或样本。所述术语诊断、确定、及辨别癌症这里被可互换地使用。在特定实施例中,本发明的方法通过优化在诊断乳腺癌或其它疾病时是最有效的标记和/或标记的组合,可以有利于早期乳腺癌的探测,该乳腺癌或其它疾病可以由给定标记的探测来标识和/或诊断,因为该给定标记在身体样本中或者被过分表达、或者呈现表达损失(如染色的组织学切片或细胞学切片)。
这里描述的方法涉及应用多个阈值到给定标记(生物标记或色度生物标记)的选择特征,该给定标记的过分表达可以指示对于给定病人的良好结果或不良结果。本领域的技术人员将认识到,本发明的方法可以应用于表示表达损失的标记,像例如在黑素瘤情况下表示表达损失的melastatin。此外,本发明的方法基于可量化特征(和应用于其的多个阈值)的系统分析把可能经历疾病复发(即,不良预后)的病人与更可能保持免于癌症(即,良好预后)的那些人区分开,该可量化特征通过已经暴露于一种或多种生物标记的组织样本(如制备的组织学切片)的色度分析可以被强调。更具体地说,本发明的方法涉及评估已经暴露于标记(如色度生物标记)的给定组织样本的特征、和挑选用于每种特征的最佳阈值的系统性过程,从而所述标记可以按照所述特征和对应最佳阈值被分析,从而标记/阈值组合提供了与已知实际病人结果比较时是最准确的预后。因而,本发明的方法还可以用来选择标记的最佳组合、其特征、及用于每个特定特征的阈值,从而提供对于早期癌症病人的更准确预后。
由本发明评估的生物标记包括基因和蛋白质。这样的生物标记包括dna,该dna包括编码生物标记的核酸顺序的全部或部分顺序、或这样一种顺序的补体。生物标记核酸也包括rna,该rna包括感兴趣的核酸顺序的任一种的全部或部分顺序。生物标记蛋白质是由本发明的dna生物标记编码、或与其相对应的蛋白质。生物标记蛋白质包括生物标记蛋白质或多肽任意之一的全部或部分氨基酸顺序。
“生物标记”是任何基因或蛋白质,其在组织或细胞中的表达水平与正常或健康细胞或组织的表达水平相比被改变。生物标记根据本发明的一个实施例是基因和蛋白质,该基因和蛋白质的过分表达与癌症预后相关,并且具体地说,在这里呈现的例子中,与乳腺癌预后相关。在某些情况下,在病人样本中感兴趣的生物标记或生物标记的组合的选择性的过分表达指示不良癌症预后。通过“指示不良预后”是意指,特定生物标记的过分表达与在少于五年内的潜在癌症或肿瘤的再发或复发、转移、或死亡的增大可能性相关联。指示不良预后的生物标记这里可以称作“不良结果生物标记”。在本发明的其它方面,感兴趣的生物标记或生物标记的组合的选择性过分表达指示良好预后。如这里使用的那样,“指示良好预后”是指病人将保持免于癌症至少五年的增大可能性。这样的生物标记可以称作“良好结果生物标记”。
由本发明的方法可以评估的生物标记包括任何基因或蛋白质,该基因或蛋白质的过分表达与癌症预后相关联,如以上描述那样。生物标记包括指示不良癌症预后的基因和蛋白质(即,不良结果生物标记)、以及指示良好预后的那些(即,良好结果生物标记)。特别感兴趣的生物标记包括在细胞生长和增生、细胞周期控制、dna复制和转录、凋亡、信号转导、血管生成/淋巴生成、或转移的调节中涉及的基因和蛋白质。在某些实施例中,生物标记调节在组织重建、细胞外基质降解、及相邻组织侵入中涉及的蛋白酶系统。尽管其过分表达指示癌症预后的任何生物标记在本发明的方法中可以被分析和/或利用,但在评估乳腺癌预后的特定实施例中,生物标记从包括slpi、p21ras、muc-1、darpp-32、phospho-p27、src、mgc 14832、myc、tgfβ-3、serhl、e2f1、pdgfrα、ndrg-1、mcm2、psmb9、mcm6、及p53的组中选择。更优选地,在建立乳腺癌预后时的感兴趣的生物标记包括slpi、psmb9、ndrg-1、muc-1、phospho-p27、src、e2f1、p21ras、或p53。在本发明的一个方面,如在这里包括的实验例子中表明的那样,用来评估乳腺癌预后的方法包括探测e2f1和从包括slpi、src、phosph-p27、p21ras、及psmb9的组中选择的至少一个其它生物标记的过份表达。
这里所讨论的术语“特征”是指通过暴露于给定标记和/或生物标记在身体样本中产生的可感觉和/或可量化的变化。特征可以包括由色度标记(包括以上讨论的标记)的染色特性产生的透射率或光学密度值的变化,该变化例如可以使用显微镜法技术和图像处理系统探测。这样的显微镜法技术和/或图像处理系统,在生物样本已经染色以可见地指示感兴趣的特定生物标记的存在(并因而指示对应特定蛋白质和/或感兴趣的目标分子的存在)之后,用来提供生物样本的图像。这些方法和相关系统中的一些,如在通过参考包括在这里的授予marcelpoil等的美国专利申请09/957,446(‘446申请)和授予marcelpoil等的美国专利申请10/057,729(‘729申请)中公开的那些,分别公开图像处理系统、方法、及相关计算机程序产品的使用,以基于由那些颜色染料标记的光学密度或透射率值所指示的代表性颜色染料的存在,确定在给定图像中每个分子种类的相对量,如由成像系统和相关软件确定的那样。这些技术还可以提供每种目标分子或蛋白质的相对量的定量确定,该目标分子或蛋白质的过分表达可以由应用于组织样本切片上的色度生物标记所揭示。例如,给定标记的特征的表达可以使用被标记组织样本切片的数字图像而揭示,其中标记使用与其成分红、绿、及蓝(rgb)颜色部分的彩色基因(chromagen)分离,与背景染色和/或其它标记相分离,从而在从病人取得的身体样本内在感兴趣的细胞或区域内可以确定标记的相对影响(相对于背景染色和/或来自其它标记的染色)。
根据本发明的各种实施例,各种特征(可量化和非可量化的)可以使用图像处理系统从标记组织样本(如用色度生物标记染色的制备组织学切片)取得的图像抽取,该图像处理系统能够捕获感兴趣的区域(roi)、各种视场(fov)或整个组织学切片的图像,并且确定其中限定的形态边界,如包括细胞核、细胞质、及细胞膜的细胞的各种区域。用来确定在切片和/或身体样本内的形态边界的这种图像处理步骤称作分段(segmentation)。感兴趣的区域(roi),根据各种实施例,可以跨过整个切片、切片的部分、切片的离散选择部分、和/或整个fov。形态边界的准确分段(经显微镜法和/或图像分析)要求多种特征的确定,因为各种不同的生物标记类型在给定身体样本的细胞内呈现不同的亚细胞位置。例如,某些生物标记揭示仅在细胞的细胞核内的目标分子的过分表达。其它标记可能揭示在细胞的细胞质内或在细胞膜内的目标分子的过分表达。例如,表1表示,在建立用于乳腺癌的预后和/或诊断时使用的一些标记与它们的亚细胞定位的相应区域一起列出。
如在示范特征的附录中描述的那样,某些细胞描述符特征,如cell、cyto、memb、及nucl(分别称作细胞、细胞质、细胞膜、及细胞核)用作在身体样本的细胞中的位置标识符,其中由特定标记呈现的特征可以使用例如染料或染剂的彩色基因分离而探测和/或量化。
也表示在附录中的是可以由本发明的方法抽取、检查和或量化的各种生物标记的多个其它典型特征,以便优化给定生物标记或生物标记的组合的预后值。所述特征一般按如下分类形状描述符特征;纹理和/或直方图描述符特征(它们主要指关于由特定生物标记可以强调的目标分子过分表达的量和变化的统计确定);光谱描述符特征(如可以用来揭示目标分子的过分表达的各种色度生物标记和/或复染剂的透射率或光学密度);层次描述符特征(它们用来计算相对于由成像系统捕获的分层次的物体的可量化特征);及细胞描述符特征(包括cell、cyto、memb、及nucl,如在以上描述和在示范特征的附录中详细说明的那样)。以上概括地和在这里附属的示范特征的附录中更详细地描述的特征的清单不意味着是穷尽的,并且意味着仅用作例子。本发明的方法可以利用各种不同的可量化特征(和其各种组合),以便优化给定标记或标记的组合的预后值。根据本发明的计算机程序产品实施例,这里描述的特征可以以自动方式由例如构造成控制图像处理系统的控制器(如计算机装置)探测,该图像处理系统具有如下能力标记感兴趣的区域(roi);分段细胞或组织样本的各种腔和成分;及/或把染剂或染料解体成rgb部分,从而确定透射率、亮度、光学密度及/或其它光谱特征。
在本发明的某些实施例中,以上特征和其它可以组合以创建包括几种类型的基础特征的概括特征,以便为了提供给定病人的诊断和/或预后的目的而创建可能具有实用性的可量化特征。为了建造这样一种概括特征,其它更具体的特征可以被量化和检查,以便创建所述概括特征,其在某些情况下对于寻求从由生物标记和/或生物标记的集合所强调的特征得到预后和/或诊断值的临床医师可能具有更多意义。例如,在这里描述的实验例子中,利用的特征包括癌症细胞的各种等级的数值百分比,该癌症细胞被认为在身体样本(如组织学切片)中辨别的特定感兴趣区域(roi)中给定细胞集合(可被强调)中存在。本领域的技术人员将认识到,病理学家通过确定在感兴趣区域(roi)中存在的标记的程度(如显得染色得比周围区域深的组织学切片的面积),在例如经显微镜法观看时可以“分级”已经用标记染色的细胞。尽管通过病理学家的肉眼分级有助于确定在细胞中存在的标记的相对水平,但这样的分级相当主观,并且可能根据各个临床医师和在各种上下文中而变。因而,在建造本发明中的概括特征时,可疑癌细胞可以更客观地分级成例如0(指示在目标细胞腔中完全不存在标记)、1(指示在目标细胞腔中存在某些少量标记)、2(指示在目标细胞腔中存在中等水平的标记)、或3(指示在目标细胞腔中存在高水平的标记)。这样的分级可以使用视频-显微镜法系统和/或图像处理系统,如在‘446申请和‘729申请中公开的那些,以自动方式完成。如下面在表2中概括的那样,根据本发明的一个例子,由nucl、cyto、memb、dye2、od、及mean指示的特征可以组合,以产生具有各种值的光学透射率值,该各种值可以分隔以确定在给定细胞中给定色度生物标记(或在某些实例中,其色度成分)的水平(例如,由“dye2”指示)。相同染料可以用来使给定生物标记成为色度生物标记(例如,通常使用的染料染剂,如对于本领域的技术人员熟知的dab或其它),然而,由本发明评估的各种不同标记可以揭示在各种细胞腔(如细胞核、细胞膜、及/或细胞质)中目标分子的存在。示范阈值(与透射率值相对应),在表2中表示的这种情况下,因而可以把所观察细胞的每一个分派到如下类别之一中0、1、2、或3。与非染色细胞(即,当暴露于标记时不呈现目标分子的过分表达的细胞)的期望数量相对应的类别0的评估可以使用图像处理系统和/或显微镜法进行。0(非染色)细胞的近似数量还可以使用在这个特定实施例中由1、2及3细胞面积的计算(使用下面列出的确定)得到的平均肿瘤面积(例如,由叫做cell area的特征(见示范特征的附录)所估计的1100象素)而计算
n1=nneg rof(1)n2=ntest(2)n3=npos ref(3)ntotal=max(n1 n2 n3,focus_area1100)---(4)]]>n0=max(0,ntotal-n1-n2-n3)(5)在其它实施例中,细胞的数量可以使用除确定细胞面积之外的方法而计算(如通过计数在用细胞核定位标记染色的fov内的细胞核)。一旦0、1、2、及3细胞类型的数量(分别为n0、n1、n2及n3)被确定(使用例如在表2中给出的各种阈值),就可以计算0、1、2及3细胞的百分比。表3呈现使用前缀cell_percent以及表示以给定百分比反映的细胞类型的数值标识符的这些新概括特征的名称。这些示范概括特征可以作为简单的百分比而计算。例如,cell_percent_0可以按如下计算cell_percent_0=n0ntotal×100---(6)]]>尽管在这里描述的实验例子中使用以上描述的cell_percent概括特征,但作为本发明的方法和计算机程序产品的实施例的部分可以评估任何数量的可能的可量化特征。例如,在示范特征的附录中公开的色度特征的一个或多个(与例如使用图像分析系统的染色组织学切片的分析有关)可以组合以形成另一种类型的概括特征,或者在附录中描述的各个特征可以独立地使用和分析。
以上描述的各种特征和概括特征在一个或多个标记的分析中是可应用的,该标记可以用来染色身体样本(或由此制备的切片,例如组织学切片),以便建立(或帮助建立)用于癌症病人(如早期乳腺癌病人)的预后。根据本发明的实施例,所述标记和其特征的不同组合可以使用本发明的实施例评估,以建立特征、特征阈值(如在给定感兴趣区域(roi)中的类型-2癌症细胞的给定cell_percent)、及标记类型的最佳组合,从而可以优化给定标记或标记组合的灵敏性和特异性。另外,其它类型的基于病人的特征可以与这里公开的特征相组合,如(但不限于)病人年龄;病人医疗史;及指示用于癌症病人的可能预后和/或诊断的其它因素。例如,淋巴结牵涉、肿瘤尺寸、组织学等级、雌激素和黄体酮受体水平、her 2/神经鞘状态、肿瘤倍性、及家族史可能都是帮助用于早期乳腺癌病人的预后建立的预后和/或诊断因素。
使用本发明的方法和计算机程序产品,特征、阈值、及标记组合可以被高效地和系统地分析和评估,以在建立用于任何给定癌症病人的预后时确定最佳特异性和灵敏性。在本发明的方法和计算机程序产品中,用来估计特异性和灵敏性的终点是预后(例如,使用特定候选标记和/或对应候选特征预测的结果)与实际临床结果(即,病人是否在五年内保持免于癌症或经受复发)的比较。如图2中所示,由多个候选特征/阈值组合产生的候选预后可以基于在本发明的方法中使用的身体样本的已知结果在所表示的四象限矩阵中画出,以确定由给定标记/特征(和/或决定规则)组合产生的真实阳性的210、真实阴性的240、虚假阳性的220、及虚假阴性的230预后的数量,如以下面更详细描述的那样。在计算真实阳性的210、真实阴性的240、虚假阳性的220、及虚假阴性的230预后的相对数量之后,可以计算特性灵敏性和特异性对,以估计标记/特征/决定规则组合作为预后工具的有效性(如以下面更详细描述的那样)。
如这里使用的那样,“特异性(specificity)”是指本发明的方法可准确地辨别真实阴性的水平。在临床研究中,特异性通过把真实阴性的数量除以真实阴性和虚假阳性之和而计算(如通过在图2的象限中画出候选预后而确定的那样)。由“灵敏性(sensitivity)”意指本发明的方法可准确地辨别是真实阳性的样本的水平。灵敏性在临床研究中通过把真实阳性的数量除以真实阳性和虚假阴性之和而计算(也如通过在图2的象限中画出候选预后而确定的那样)。在某些实施例中,由所公开方法揭露的标记、特征、及阈值的给定组合的灵敏性是至少约40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更大。此外,由本评估方法可得到的特异性优选地至少约40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更大。
如这里使用的那样,“真实”和“虚假”的阳性和阴性将取决于考虑的标记或标记组合是良好结果还是不良结果标记。就是说,在良好结果标记(即,指示良好预后的那些)的情况下,“真实阳性”是指,呈现感兴趣生物标记的过分表达-如由本发明的方法确定那样(例如,通过免疫组织化学的阳性染色)、具有证实的良好实际临床结果的那些样本。相反,“虚假阳性”显示良好结果生物标记的过分表达,但具有证实的不良实际临床结果。关于良好结果标记的“真实阴性”和“虚假阴性”不显示标记过分表达(例如,在免疫组织化学方法中不染色阳性),并且分别证实不良和良好的实际临床结果。
类似地,在不良结果标记的情况下,“真实阳性”是指,呈现感兴趣的标记或组合标记的过分表达、具有证实的不良实际临床结果的那些样本。总之,关于良好和不良结果生物标记的“真实阳性”是指,其中准确地预测实际临床结果(即,良好或不良)的样本。“虚假阳性”显示不良结果生物标记的过分表达,但具有证实的良好实际临床结果。关于不良结果生物标记的“真实阴性”和“虚假阴性”不显示生物标记过分表达,并且分别具有证实良好和不良的实际临床结果。本发明的方法和计算机程序产品利用使用多个标记、标记的特征、及用于给定特征的阈值产生的预后与实际临床结果的系统比较,以便确定标记、特征、及阈值的哪种最佳组合最可能提供由实际临床结果所定义的最准确的预后。
图1表示用来评估至少一个标记的根据本发明一个实施例的方法的示意流程图,该至少一个标记可以用来确定癌症病人的预后。步骤110表示暴露步骤,包括把多个身体样本暴露于一个标记(或在某些情况下,多个标记)。所述多个身体样本例如从对应的多个病人取得,其中每个病人具有已知临床结果。如以上更详细描述的那样,所述标记可以包括各种色度生物标记,该色度生物标记可以用来探测在给定细胞中可能被过分表达的各种目标分子(例如,蛋白质)。所述身体样本可以包括从具有疾病的病人取得的活检组织样本,本发明的方法正在用来对于该疾病评估所述标记。
步骤120表示根据本发明的方法的下个步骤,该步骤包括使用图像处理系统从多个切片的每一个的取得图像抽取至少一个可量化特征,其中所述多个切片从与具有已知结果的每个病人相对应的多个身体样本制备。所述切片可以保持活检芯样本或其它组织样本的顺序截面,并且可以暴露于可以在评估下的所述标记的一个或多个,作为本发明的方法的一部分。所述切片可以包括被着色和/或染色以促进可量化特征(如颜色、阴影、亮度、透射率(trans)、光学密度(od)、或以上更详细描述的其它特征的可感觉变化)的抽取的组织学切片。例如,所述切片可以用染剂处理,以强调所述身体样本所暴露于的标记(或多个标记)。另外,所述切片可以用复染剂处理,其具有倾向于强调所述感兴趣的一个或多个标记的染色的颜色和/或染色特性。本领域的技术人员将认识到,这样的色度染剂可以包括dab(倾向于把标记的外观染成棕色),并且复染剂可以包括苏木精(倾向于把细胞的正常形态染成蓝色)。另外,染色切片的任一种可以使用例如在‘446申请和‘729申请中公开的彩色基因分离技术而分析。
如上所述,抽取步骤可以涉及使用例如构造成分析给定图像(如整个切片、摄像机视场(fov)、或选择的感兴趣区域(roi))的图像分析系统和相关控制器(如计算机装置),从切片的视频-显微镜法图像抽取特征。如在附属的示范特征附录中详细描述的那样,与已经暴露于给定标记(或标记集合)的切片的图像相关的多种不同特征可以被抽取和分析。在某些实施例中,诸如病理学家之类的临床医师可以利用图像分析系统选择roi(例如与用dab染暗从而指示大量给定标记的存在的显微镜法图像的区域相对应)。在roi内,图像分析系统(和与其通信的控制器)可以用来隔离和抽取在附属附录中描述的多个特征。例如,在roi内的多个细胞可以被计算,并且其中类型1细胞的百分比也可以被计算(在确定透射过在roi内包含的不同细胞腔(取决于标记类型)的光的光学密度之后,通过应用例如在表2中概述的分配器设置)。为了应用阀值或客观决定规则(见步骤130,下面详细描述),所述特征在大多数情况下是可量化特征,如百分比、细胞数量、面积、亮度、透射率、及/或光学密度。例如,在所附的实验例子中,所述概括特征从包括类型1、类型2、及类型3癌症细胞的百分比(和这些百分比的组合)的各种roi抽取,其中所述百分比通过组合更特定的特征(如用来把给定细胞分派到特定类型指示(例如,类型1、2、或3)的细胞的染色区域的透射率和/或光学密度)而计算。
本发明方法的一个实施例的步骤130包括把多个候选决定规则应用于多个切片每一个的抽取可量化特征,从而为切片的每一个提供对应的候选预后。“决定规则”可由几种成分组成,包括疾病规则(它涉及大于给定阈值的可量化特征指示良好预后还是不良预后的确定)以及用于给定的可量化特征的阈值。在具有单一特征的单一标记的分析中,决定规则可以是对所述特定特征的二进制决定。根据本发明的多个实施例,整个决定规则涉及产生良好或不良候选预后(取决于所述候选阈值和所述对应的疾病规则)。例如,根据一个实施例,良好预后可以指示为零(0),并且不良预后可以指示为(1)。然而,对于每个可能阈值,有用于疾病规则的两个可能选择(即,良好预后(0)可以指小于阈值的值,或者可选择地,不良预后(1)可以指小于阈值的值)。因而,每个疾病规则(对每个可能阈值)可以为每个身体样本(与具有已知结果的病人相对应)被评估,并且放置在与图2中所示的如下类别之一相对应的四个象限之一中真实阳性(象限a,210)、虚假阳性(象限b,220)、虚假阴性(象限c,230)、及真实阴性(象限d,240)。然后可以为用于每个身体样本(与具有已知结果的病人相对应)的可能阈值/疾病规则组合的每一个而产生一个可能预后,从而用于每个阈值的最佳疾病规则可以通过对图2中的每个象限,基于在该象限中的良好和不良结果的出现,挑选疾病规则而确定。
例如,给定用于标记的特定可量化特征(f)的阈值(t),两个疾病规则可能确定预后。第一可能的规则是,如果f大于t,则预后是不良(1)。第二可能规则是如果f大于t,则预后是良好(0)。对于这些可能的疾病规则的每一个,所预测的预后可能或者准确地预测实际病人结果(即,产生真实阳性或真实阴性),或者未能预测实际病人结果(即,产生虚假阳性或虚假阴性)。有可能确定图2的哪个象限包含最多的可能预后,以确定哪个疾病规则最适合给定可量化特征。例如,参照图2,用于第一可能规则的可能预后可以被画出,以确定结果位于何处。另外,用于第二可能规则的可能预后可以被画出,以确定结果位于在图2中描绘的象限内的何处。在适当象限中画出两种可能疾病规则之后,通过确定预测良好对不良结果的比率,归一化到所述良好和不良结果的总数,可以确定最佳疾病规则。例如,对于给定的特征和阈值,如果使用第一可能疾病规则(如果f>t,则预后=不良(1)),则大多数画出点可能位于真实阳性象限中。在这种情况下,可能产生如下候选决定规则呈现在所述阈值以上的可量化特征的病人被认为具有不良预后(对于疾病的阳性)。在另一个例子中,如果使用第一可能规则如果f<t,则预后=良好(0),则大多数画出点可能位于虚假阴性象限中。在这种情况下,候选决定规则可能读作呈现在所述阈值以上的可量化特征的病人被认为具有良好预后(对于疾病的阴性)。本领域的技术人员将认识到,其它统计方法也可以用来求出高效决定规则。例如,线性判别、二次判别、一般化线性模型、逻辑回归、处罚判别、柔性判别、混合判别、及/或其它统计方法可以用来求出这样的决定规则,作为本发明的步骤130的部分。
如图1中所示,步骤140包括对至少一个可量化特征选择最佳决定规则,该最佳决定规则从所述多个候选决定规则中选择。最佳决定规则被选择为,所述多个切片的每一个的候选预后最佳地与对于多个病人的每一个的已知结果相对应。例如,从所述多个候选决定规则中挑选所述决定规则,从而提供了与从其取得身体样本(见步骤110)的病人的临床结果比较时产生最小数量的虚假阴性和虚假阳性的最佳预测预后工具。如上所述,所述候选决定规则具有阈值成分和疾病规则成分。通过系统地评估多个候选阈值(和疾病规则)可以挑选最佳阈值,从而对多个切片的每一个由该最佳阈值生成的最佳预后可以最接近地与多个病人的每一个(由其产生多个切片)的已知结果相对应。另外,使用特异性和灵敏性可以测试给定决定规则的效率,如下面在公式7和8中表示的那样。
根据本发明的某些实施例,选择最佳决定规则还包括确定与多个候选决定规则的每一个相对应的多个特异性和灵敏性对。在这样的实施例中,用于每个候选决定规则(和用于多个候选阈值的每一个和对应疾病规则)的特异性和灵敏性可以通过把来自每个候选决定规则的候选预后与从其取得身体样本的每个病人的实际已知结果相比较而计算。在进行这种比较时,真实阳性(象限a)、虚假阳性(象限b)、虚假阴性(象限c)、及真实阴性(象限d)的相对数量的每一个可以使用象限系统而确定,如使用在图2中描绘的系统。使用每个象限的相对数量,对于每个候选决定规则和所述多个候选阈值的每一个使用如下公式可以计算灵敏性和特异性对(sens,spec) 因而,如以上一般描述的那样,灵敏性是指不良结果病人关于标记被评估为阳性(即,当作真实阳性)的概率。类似地,特异性是指a个良好结果病人关于标记评估为阴性(即,当作真实阴性)的概率。
特异性和灵敏性对的每一个然后可以在两维灵敏性和特异性图表上画出,如图3中所示,其中每个点是指对于多个候选决定规则的每一个(和对于多个候选阈值的每一个)计算的特异性和灵敏性值。在图3中表示的图表也称作接收器操作特性(roc)曲线,表示已经同与实际临床结果相对应的数据集相比较的候选决定规则集的灵敏性值310和对应特异性值300的曲线图。理想预后试验具有在点1,1处画出的理想灵敏性和特异性对320,该点1,1指示所有预后结果,包括真实阳性或真实阴性(见在图2中的象限a210和d240)。对roc曲线上的每个画出的灵敏性和特异性对,使用在画出的和理想的数对之间的特异性差350和灵敏性差340,可以计算在画出对与在(1,1)处的理想对320之间的欧几里得距离。在画出在图3中所示的roc曲线之后,可以辨别具有到理想对320的最小欧几里得距离320的特异性和灵敏性对,从而可以选择最佳决定规则(和对应最佳阈值和/或疾病规则),以便瞄准在评估下的标记和特征组合的特定灵敏性和特异性对。此外,在某些实施例中,可以选择最佳决定规则以便使在评估下的标记和特征组合的灵敏性和特异性最大化(即接近理想(1,1)灵敏性和特异性对)。
如图4中所示,本发明的某些方法还包括在块150中示意表示的额外步骤,它包括评估至少一个标记的统计独立性,从而保证所述标记能够提供大体统计地独立于至少一个互补标记的预后。因而,这个实施例可以保证,对于应用于身体样本的给定标记对,由其产生的预后是大体统计独立的,从而一个标记不会提供关于互补标记的大体重复性信息。这可以保证,例如,当互补标记和第一标记不是大体统计地独立时,互补标记不与第一标记一起使用。两个标记的依赖性可以指示它们是重复的,并且第二标记的添加不把额外值添加到给定标记对的预后能力上。为了优化给定标记名单的预后能力,也希望通过最小化使用标记(该标记当与在名单中的另一个标记相比较时,提供重复的预后信息)而减小信号“噪声”量。
两个标记的统计独立性的评估例如在某些实施例中可能涉及如下额外步骤(1)把观察结果的频率分布与用于暴露于第一标记和互补标记的第一组身体样本的理论预后的频率分布相比较,其中第一组身体样本与具有已知良好结果的病人相对应;(2)把观察结果的频率分布与用于暴露于所述第一标记和所述互补标记的第二组身体样本的理论预后的频率分布相比较,其中第二组身体样本与具有已知不良结果的病人相对应;及(3)使用卡平方(x2)分析,估计所述至少一个标记相对于至少一个互补标记的独立性。
例如,x2分析可以执行,以便当一次考虑2个标记并且考虑到病人(与身体样本相对应)的结果时估计标记独立性。表7详细说明对于特定标记、为良好和不良结果病人亚-人口(sub-population)如何得到x2值。根据一个例子,x2值以0.05的误差概率(p)计算为7.81。因而,可以有如下结果(1)如果x2good<7.81,那么不能拒绝h0good;(2)如果x2bad<7.81,那么不能拒绝h0bad;及因而(3)如果(x2good<7.81并且x2bad<7.81),则不能拒绝h0,并且标记可认为是独立的。
这里公开的方法也可以在一个或多个适当计算机程序产品中实施,该计算机程序产品在计算机装置(如与适于捕获染色组织学切片或细胞学切片的图像的显微镜法系统和/或图像分析系统通信的计算机装置)上是可执行的,并且能够完成与这里描述的方法和相关系统相关的各种功能。更具体地说,在图1和4中表明的方法实施例的步骤120、130、140、及150可以借助于计算机程序产品完成,该计算机程序产品具有用来完成或否则定向待承担的方法步骤的一个或多个可执行部分。例如,在这样的计算机程序实施例中,可执行部分通过促进在计算机装置(或其它控制器装置)、与适于抽取在包括在这里的示范特征的附录中描述和详细说明的特征的一个或多个的显微镜法系统或图像分析系统之间的通信,可以完成在图1和4中表示的步骤120。例如,由步骤120示意表明的可执行部分可能能够从与特定标记的染色特性相对应的染色组织学切片的数字图像(经图像分析系统得到)抽取统计数据(或另一种可量化特征)。
另外本发明的计算机程序产品的可执行部分经穷尽的多个候选决定规则对从多个切片的每一个抽取的至少一个可量化特征的系统性应用也可以完成在图1和4中表示的步骤130,从而产生与穷尽的多个决定规则(在某些情况下,包括用于多个标记组合和其特征的可能阈值和/或疾病规则的系统评估)的多种组合的每一种相对应的一系列候选预后。
根据某些实施例,本发明的计算机程序产品的可执行部分使用与在调查下的多个切片相对应的病人的每一个的已知结果,通过计算对于候选预后的每一个的特异性和灵敏性对,也可以进行或促进在图1和4中表示的步骤140。因而,在步骤140中示意表明的可执行部分可以确定与目标和/或最佳特异性和灵敏性对相对应的决定规则。
最后,如图4的步骤150中所示,本发明的计算机程序产品的可执行部分使用以上关于本发明实施例的方法所描述的卡平方分析或其它技术,也可以旨在和/或促进两个或多个标记的标记独立性的确定。这样的确定也可以考虑到在从其取得多个切片(和其图像)的病人人口中某些结果的普遍性。
因而,本领域的技术人员将认识到,本发明实施例的计算机程序产品可以用来系统地评估在评估标记集合时可能生成的阈值、疾病规则、及对应的基于顺序的决定规则的复杂组合,从而确定将接近和/或到达目标和/或最佳特异性和灵敏性水平的标记组合和与其对应的决定规则。
本领域的技术人员将认识到,在本发明的方法中的任何或所有步骤能由人实现,或者可选择地,以自动方式进行。因而,身体样本制备(见例如步骤110)、样本染色(见例如步骤110)、及生物标记表达的探测(见例如步骤120)的步骤可以是自动的。况且,在某些实施例中,本发明的免疫组织化学方法与计算机化成像设备和/或软件一道使用,以促进由病理学家对阳性染色细胞的分辨。这里公开的方法也能与其它预后方法或分析(例如,肿瘤尺寸、淋巴结状态、其它生物标记(包括例如her2/神经鞘、ki67、雌激素受体(er)、黄体酮受体(pr)及p53)的表达水平)相组合。以这种方式,使用这里描述的方法的生物标记的优化和评估可以促进由本发明评估的各种生物标记的过分表达的探测,从而允许患有疾病的病人的预后的更准确确定,该疾病可能与各种生物标记的一个或多个的过分表达相链。
另外,对于本发明所属领域的技术人员,将想到本发明的多种修改和其它实施例,其具有在以上描述和相关附图、附录及例子中呈现的讲授的好处。因此,要理解,本发明不限于公开的特定实施例,并且修改和其它实施例打算包括在附属权利要求书的范围内。尽管这里采用特定术语,但它们仅以一般和描述性意思使用,并且不是为了限制目的。
如下实验例子描述在评估可以用来建立对于乳腺癌病人的预后的4个候选生物标记和其可量化概括特征时本发明实施例的使用。它通过说明而不是通过限制而提供。
实验例子用来建立乳腺癌预后的生物标记(slpi、p21ras、e2f1及src)组的评估引言根据这里包括的实验例子,本发明的实施例可以用来评估生物标记的组合,其过分表达对于为具有各种类型的乳腺癌的病人建立诊断和预后可能是有用的。在所附实验例子的情况下,并且在本发明的其它实施例中,标记组可以被评估,以确定最佳的基于顺序的决定规则。由“乳腺癌”意指例如由活检分类为恶性病理学的那些条件。乳腺癌诊断的临床叙述在医学技术中是熟知的。本领域的技术人员将认识到,乳腺癌是指乳腺组织的任何恶性肿瘤,包括例如癌或肉瘤。在具体实施例中,乳腺癌是管癌原地(dcis)、小叶癌原地(lcis)、或粘蛋白癌。乳腺癌也指渗入管(idc)或渗入小叶癌(ilc)。在本发明的大多数实施例中,感兴趣的主题是怀疑有或实际诊断有乳腺癌的病人。
美国癌症联合委员会(ajcc)已经开发了一种使用“tnm”分类方案用于乳腺癌分阶段的标准化系统。估计病人的主要肿瘤尺寸(t)、区域淋巴结状态(n)、及远距离转移(m)的存在/缺乏,并且然后基于这种因素组合分类成阶段0-iv。在这种系统中,主要肿瘤尺寸按0-4的刻度分类(t0=没有主要肿瘤的迹象;t1=≤2cm;t2=>2cm-≤5cm;t3=>5cm;t4=直接扩展到胸壁或皮肤的任何尺寸的肿瘤)。淋巴结状态分类为n0-n3(n0=区域淋巴结没有转移;n1=转移到可运动的、同侧腋生淋巴结;n2=转移到相互固定的同侧淋巴结或转移到其它结构;n3=转移到在胸骨下面的同侧淋巴结)。转移(metastasis)由远距离转移的缺乏(m0)或存在而分类。尽管用来建立在任意临床阶段的乳腺癌病人的预后的标记的评估由本发明所包容,但对用来建立在早期乳腺癌中的乳腺癌病人的预后的标记的评估和优化具有特别兴趣。由“早期乳腺癌”意指阶段0(原地乳腺癌)、i(t1、n0、m0)、iia(t0-1、n1、m0或t2、n0、m0)、及iib(t2、n1、m0或t3、n0、m0)。早期乳腺癌病人呈现很少或没有淋巴结牵涉。如这里使用的那样,“淋巴结牵涉”或“淋巴结状态”是指癌症是否已经转移到淋巴结。乳腺癌病人在这个基础上分类为“淋巴结阳性”或“淋巴结阴性”。辨别乳腺癌病人和分段疾病的方法是熟知的,并且可以包括人工检查、活检、病人和/或家族史的回顾、及成像技术,如乳房x射线摄影、磁共振成像(mri)、及正电子放射层析x射线照片。
术语“预后(prognosis)”在本技术中被理解并包括关于乳腺癌的可能过程或乳腺癌进展的预测,特别是关于疾病缓解、疾病再现、肿瘤复发、转移、及死亡的可能性。为了这里描述的例子的目的,“良好预后”是指患有乳腺癌的病人将保持免于疾病(即,免于癌症)至少五年的可能性,而“不良预后”意指在少于五年内潜在癌症或肿瘤的再现或复发、转移、或死亡的可能性。分类为具有“良好结果”的癌症病人至少在五年内保持免于潜在癌症或肿瘤。相反,“不良结果”癌症病人在五年内经历疾病再现、肿瘤复发、转移、或死亡。如这里使用的那样,用来估计预后或无疾病存活时间的相关时间从肿瘤的手术去除或抑制、缓解、或肿瘤生长的禁止开始。
如这里以上描述的那样,多个临床和预后乳腺癌因素在本技术中是已知的,并且用来预测治疗结果和疾病复发的可能性。这样的因素包括淋巴结牵涉、肿瘤尺寸、组织学等级、雌激素和黄体酮激素受体状态(er/pr)、her2/神经鞘水平、及肿瘤倍性。使用本发明的方法,在建立早期乳腺癌病人的预后时使用的标记和其特征的组合的评估能以系统化方式独立于这些或其它临床和预后因素的估计、或与其组合地完成。
本发明的方法允许候选生物标记(和其特征)的系统评估,从而与其它已知预后指示符(例如,淋巴结牵涉、肿瘤尺寸、组织学等级、雌激素和黄体酮受体水平、her2/神经鞘状态、肿瘤倍性、及家族史)的分析相比较,提供乳腺癌预后更优越的估计。
乳腺癌由几种可选择的策略管理,这些策略包括例如手术、辐射疗法、激素疗法、化学疗法、或其某种组合。如在本技术中已知的那样,用于个别乳腺癌病人的治疗决定可基于涉及的淋巴结的数量、雌激素和黄体酮受体状态、主要肿瘤的尺寸、及在诊断下的疾病阶段。在诊断时使用这里公开的方法把病人分层成不良预后或良好预后危险组可以提供额外的或替换的治疗决定作用因素。本发明的方法允许用来把具有良好预后的那些乳腺癌病人与更可能经历复发的那些人(即,在诊断时可能需要额外主动治疗或其从获益的病人)区分开的候选生物标记的分析和评估。本发明的方法在挑选适当生物标记、其特征、及特征阈值时特别有用,从而使在建立早期乳腺癌病人的更准确预后时的候选生物标记(或生物标记组)的预后值最大化。如以上讨论的那样,在疾病早期所诊断的大多数乳腺癌病人在手术和/或辐射疗法之后长期存活,而没有进一步的额外疗法。然而,这些病人中的显著比例(近似20%)将经受疾病复发或死亡,导致某些或全部早期乳腺癌病人应该接收额外疗法(例如,化学疗法)的临床推荐。本发明的方法用来评估可以更好强调这种高危险的、不良预后群的早期乳腺癌病人的生物标记和其特征,并且由此确定哪些病人会从继续的和/或更主动疗法受益并密切监视以后治疗。
在这个实验例子中,本发明的方法用来评估4个候选生物标记(slpi、p21ras、e2f1及src)组和与每个生物标记相对应的单一概括特征(使用图像处理系统抽取)。该例子表示根据本发明一个实施例的最佳的基于顺序决定规则的确定。在该例子中利用的特征涉及在由病理学家辨别为感兴趣区域(roi)的乳腺癌肿瘤区域中的1 、2 及3 细胞的百分比。基于这些特征,为所选择的标记/特征组合使用最佳的基于顺序决定规则(包括阈值和疾病规则)使灵敏性和特异性对最大化。
材料和方法
在这个实验例子中,超过200位病人被分析,以便评估和优化用来建立乳腺癌预后的不同标记和特征组合。如在表4中概括的那样,这群病人十分相异,并且呈现范围从t1n0至t3n0不同阶段的肿瘤。病人的目标特性是他们的良好结果或不良结果状态。良好结果病人是在五年后仍然免于疾病的那些人;不良结果病人定义为在五年内复发或死亡的病人。身体样本和其对应取得的切片从每个病人取得,以便提供具有已知结果的身体样本,从而如以上描述的那样为每个可能标记/特征/阈值组合可确定特异性和灵敏性对。
来自研究(来自在表4中概述的同一病人群)的身体样本然后暴露于4个生物标记组(见表5),并且对应切片被产生,以便使标记切片经受本发明的方法。如下步骤强调本发明的方法,它应用在这个实验例子中(1)对于表示最好质量染剂的每个标记优化彩色基因分离(根据‘446申请和‘729申请的彩色基因分离方法);(2)对于每个标记根据其亚细胞定位定制分段设立;见表1(细胞核、细胞质或细胞膜)。(也见在附属的示范特征的附录中强调的nucl、cyto、及memb特征);及(3)特征在限定的roi内在细胞、视场(fov)及焦点水平下抽取,并且输出到输出文件(xml格式)。
根据本发明一个实施例的特定计算机程序产品(在这个例子中命名为“多标记分析器”)然后用来完成标记组合的评估和优化。根据一个实施例,计算机程序产品构造成能够加载使用显微镜法产生的组织显微阵列(tma)或组织截面xml文件的全部或一部分,以使用描述tma密钥的xml文件(在tma分析的情况下)或给出病人临床状态和病人评估的excel文件(在组织截面分析的情况下)合并在这些文件中包含的数据,并且所有都进一步分析。这个合并过程与对于每个身体样本(与每个病人相对应)经显微镜法抽取的特征与在关于病人的tma密钥(或excel文件)中保持的信息相关联地包括标识号和医疗状态(包括良好或不良结果)及病理学家评估,如果它不包括在xml格式化文件中。
表5列出在这个例子中评估的标记(slpi、p21ras、e2f1及src)和对于每个标记类型抽取的对应cell_percent概括特征(这个例子表示用于四个标记的基于顺序的决定规则的建立,其中单一标记/单一特征阈值被分析,以确定最佳的基于顺序决定规则)。所述决定规则使用在图1中概述的本发明的方法创建,其中预测预后(对于标记的每种可能顺序),其中每个标记或者是“on”(1)或者是“off”(0)。为了确定对每个特定标记评估的特征的阈值(见表5),每个可能阈值量(从0至100%)被分析,并且与在研究中的各种病人(从这些病人取得用于例子的身体样本)的结果相比较。例如,表5表示与e2f1标记相对应的cell_percent_2的分布曲线。该曲线图表示作为cell_percent_2值的函数的不良结果病人的分布520和良好结果病人的分布510。如在图5中表示的那样,在2-3百分比极限以上,不良结果病人(520)比良好结果病人(510)显著地更频繁。使用2.46%的阈值550,仅借助于e2f1标记用作预后指示符,分别给出0.54和0.75的灵敏性和特异性。表5的列3表示为e2f1标记从图5中的数据确定的生成决定规则(它包括对e2f1的2.46%的阈值和疾病规则(如果大于2.46%cell_percent_2则为“on”))。
候选预后(与顺序的每种可能组合相对应)被产生,并且然后与对于使用图2中的象限系统评估的身体样本的每一个的实际结果相比较,以便确定真实阳性210、虚假阳性220、虚拟阴性230及真实阴性240的数量。如以上详细描述的那样,一旦在适当象限中画出,就计算与每个可能决定规则相对应的特异性和灵敏性值(这样的计算的结果表示在表6中)。由表6的数据确定的基于顺序的决定规则可按如下读出如果e2f1是on(即1)并且不仅一个标记是on,那么病人被当作不良结果,否则被当作良好结果。
结果对具有在表5中定义的阈值和决定规则的slpi、p21ras、e2f1及src仅使用一个百分比特征,在这个样本集上使用更简单的基于顺序的决定规则达到60%灵敏性和80%特异性如果e2f1是on(即1)并且不仅一个标记是on,那么对于病人的最佳预后是不良结果。
因此,否则对于病人的预后是良好结果。
如上所述,仅基于e2f1的预后决定规则分别给出54%和75%的灵敏性和特异性。然而,当e2f1是on并且slpi、p21ras或src是on时使用基于解释的标记组合,导致60%灵敏性和80%特异性(使用表6的结果定义的基于顺序的决定算法)。
附录示范特征如下特征指示可量化特征的类型,这些可量化特征可以使用与例如诸如计算机装置之类的控制器通信的成像系统或视频显微镜法系统从身体样本(如染色组织学切片或细胞学切片)的图像抽取。此外,如下特征可以使用这里描述的计算程序产品的实施例被抽取和/或计算。在某些实施例中,如下特征可以复合和/或组合,从而建造可以由临床医师更容易利用的概括特征,以量化可与用于特定疾病的预后指示符相对应的值,该疾病可以链接到特定目标分子的过分表达(及所得到的染料染色)。
应该理解,如下特征附录通过说明而不是通过限制而提供。本领域的技术人员将认识到,其它特征可能是有益的,并且可以抽取和分析,从而使用本发明的方法和计算机程序产品实施例评估一个或几个标记。
a.形状描述符特征1.面积这是在斑点中的前景象素(foreground pixel)的数量(未计数孔),该掩模(二进制表示)是m。当象素到微米的对应可用(k)时,它代表在切片上的斑点(m)的物理面积(微米2)。如果象素到微米(k)的物理对应不可用,则area是测量象素的数量(k=1)。
面积=k2×∑p∈ep (9)其中e={p|p∈m}范围是
]>如果p interior并且p是角(corner),那么q(np)=而且,q(np)=4-∑(t,l,r,b)范围是
。
3.minferet这是最小feret直径(配合物体的矩形箱的最小约束直径,在检查一定数量的角度后求出)。当象素到微米的对应可用(k)时,它代表在切片上的斑点(m)的物理min feret直径(微米)。如果象素到微米的物理对应不可用(k=1)。
范围是[0,∝[。
4.maxferet这是最大feret直径(配合物体的矩形箱的最大约束直径,在检查一定数量的角度后求出)。当象素到微米的对应可用(k)时,它代表在切片上的斑点(m)的物理max feret直径(微米)。如果象素到微米的物理对应不可用(k=1)。
范围是
。
5.紧凑性这个值是用于圆(1.0)的最小值,并且从周长(p)和面积(a)导出。形状越盘旋,值越大。
范围是
。
6.粗糙度这是斑点如何粗糙的度量,并且等于周长除以凸起周长(pc)。
光滑凸起物体将具有1.0的最小粗糙度 范围是
。
7.拉长这个值等于真实长度/宽度。它应该用于细长物体。
范围是
。
b.直方图描述符特征1.sumsum是所有个别象素分数的总和。
对于透射率和对于光学密度,范围是
。
2.平均值算术平均值是通常叫做平均值的值当该词“平均值”使用而没有修饰时,假定它是指算术平均值。平均值是所有分数的总和除以分数的数量。平均值用于大致对称分布的中心趋势的良好度量,但在偏斜分布中误导,因为它可受极值分数的巨大影响。因此,诸如中值之类的其它统计数字对于诸如常常是非常偏斜的反应时间或家庭收入之类的分布可能更有益。
分数与其平均值的方差之和小于其与任何其它数的方差。
对于正态分布,平均值是最高效的,并因此最少经受中心趋势所有度量的样本波动。
使n=σi=0255h(i)]]>对于透射率范围是
对于光学密度,范围是
。
3.min
最小值是分布的最小值。
对于透射率范围是
对于光学密度,范围是
。
4.q1q1是分布的第25个百分之一。25%的分数在q1以下,并且75%的分数在q1以上。
q1=i|{σj=0j<ih(i)<n4,σj=0j<=ih(i)≥n4}---(16)]]>使n=σi=0255h(i)]]>对于透射率范围是
对于光学密度,范围是
。
5.中值中值是分布的中点分数的一半高于中值,并且一半在中值下面。中值对于极值分数不如平均值敏感,并且这使得它对于高度偏斜分布是比平均值更好的度量。
每个数与中值的绝对偏差的和小于绝对偏差与任何其它数的和。
平均值、中值、及模型在对称分布中相等。平均值在正偏斜分布中高于中值,并且在负偏斜分布中小于中值 使n=σi=0255h(i)]]>对于透射率范围是
对于光学密度,范围是
。
6.q3q3是分布的第75个百分之一。75%的分数在q3以下,并且25%的分数在q3以上。
q3=i|{σj=0j<ih(i)<n×34,σj=0j<=ih(i)≥n×34}---(18)]]>
使n=σi=0255h(i)]]>对于透射率范围是
对于光学密度,范围是
。
7.max最大值是分布的最大值。
对于透射率范围是
对于光学密度,范围是
。
8.纵数纵数(mode)是在分布中最频繁出现的分数,并且用作中心趋势的度量。纵数作为中心趋势的度量的优点是显然的。而且,它是可与名义数据一起使用的中心趋势的唯一度量。
纵数大大地经受样本波动,并因此不推荐用作为中心趋势的唯一度量。纵数的另外缺点是多种分布具有多于一个纵数。这些分布叫做“多纵数”。
在正态分布中,平均值、中值、及纵数相同。
对于透射率范围是
对于光学密度,范围是
。
9.三值平均值三值平均值通过把第25个百分之一 两倍的第50个百分之一(中值) 第75个百分之一求和并且除以四而计算。
三值平均值几乎与中值一样抵抗极值分数,并且在偏斜分布中比算术平均值经受较小的样本波动。它对于正态分布不如平均值高效。
对于透射率范围是
对于光学密度,范围是
。
10.修正平均值50
修正平均值通过丢弃最低和最高分数的一定百分比并且然后计算剩余分数的平均值而计算。修正50%的平均值通过丢弃分数的较低和较高25%并且取剩余分数的平均值而计算。中值是修正100%的平均值,并且算术平均值是修正0%的平均值。
修正平均值显然对极值分数不如算术平均值敏感。它因此对于偏斜分布对取样波动不如平均值敏感。它对于正态分布不如平均值高效 对于透射率范围是
对于光学密度,范围是
。
11.范围范围是散布或分散的最简单度量它等于最大与最小值之差。范围能是散布的有用度量,因它如此容易理解。然而,它对于极值分数非常敏感,因它仅基于两个值。范围几乎永远不应该用作散布的唯一度量,但如果用作对于诸如标准偏差或半内四分距之类的其它散布度量的补充,则能是有益的。
范围=最大值-最小值 (23)对于透射率范围是
对于光学密度,范围是
。
12.半内四分距半内四分距(semi-interquartile range)是散布或分散的单度量。它作为在第75个百分之一[常常叫做(q3)]与第25个百分之一(q1)之差的一半而计算。
由于在分布中的一半分数位于q3与q1之间,所以半内四分距是需要覆盖1/2分数的1/2距离。在对称分布中,从中值以下的一个半内四分距伸展到中值以上的一个半内四分距的间隔将包含分数的1/2。然而,对于偏斜分布情况不是这样。
半内四分距受极值分数的影响很小,所以它对于偏斜分布是散布的良好度量。然而,它在正态分布中比标准偏差经受更大的样本波动,并因此常常不用于近似正态分布的数据。
对于透射率范围是
对于光学密度,范围是
。
13.方差方差是分布如何散开的度量。它作为每个数与其平均值的均方差而计算。
范围是
14.stdev这种特征估计基于样本的标准偏差。标准偏差是值与平均值(均值)分散如何广的度量。标准偏差是方差的平方根。它是散布的最常用度量。
尽管对于极值分数不如范围敏感,但标准偏差比半内四分距更敏感。因而,当极值分数的可能性存在时,半内四分距应该补充标准偏差。
stdev=nσx2-(σx)2n(n-1)---(26)]]>范围是
。
15.偏斜(skew)这种特征返回分布的偏斜性。偏斜性特征化分布绕其平均值的非对称性程度。分布如果其尾部之一大于其它尾部则是偏斜的。正偏斜性指示使非对称尾部向更大正值延伸的分布。负偏斜性指示使非对称尾部向更大负值延伸的分布。
范围是[-∝, ∝]使s是样本标准偏差16.峰态(kurtosis)
这种特征返回数据集的峰态。峰态特征化分布与正态分布相比较的相对峰度或平度。正峰态指示较尖的分布。负峰态指示较平的分布。峰态基于分布的尾部的尺寸。
范围是[-∝, ∝]s是样本标准偏差。
c.透射率和光学密度特征(trans、od、及其它)1.trans-透射率透射率是由透明物体透射的总辐射或光通量与入射通量的比值,通常对于正交入射给出。
trans=iio---(29)]]>范围是
在图像内,透射率对于8位离散化,导致在
范围内的256个值。如果基础计算基于这样的离散值,则计算特征无论如何表达在
的范围内,从0%至100%的透射率。
trans255=255i255io|255,
---(30)]]>2.od-光学密度光学密度与透射率相关,作为其对数的负值。在在图像内,透射率对于8位离散化,导致在
范围内的256个值。
od=-log10(trans)=log10(i0i)---(31)]]>由于透射率的8位离散化,范围是
。
临时od图像缓冲器也是离散缓冲器。
od255=k×log10(i0|255i255)=k×log10(255i255),
---(32)]]>
使k=255log10(255),od255(trans255(0))=od255(trans255(1))]]>如果基础计算基于这样的离散值,则计算特征无论如何根据范围从0到无穷大(理论上)的真实od值表达,在实际中由于8位约束形成到2.4065的上限。
3.亮度和染料特征(lumin、dye1、dye2、dye3)对于透射率或光学密度直方图计算的直方图特征反映在解出用于象素(r、g、b)值的彩色基因模型之后计算的感兴趣图像或dye的亮度(“lumin”)。rgb彩色基因分离模型例如在‘446申请和‘729申请中描述。
lunin(y)=0.299r0.587g 0.114b 常规浮点公式(33)lunin(y)=[(9798r 19235g 3736b)/32768]由代码使用的公式(34)注意彩色基因误差、染料置信度当解出时,rgb彩色基因分离模型评估重新建造误差,该误差是在rgb空间内在象素的输入rgb值与基于来自每种染料影响的rgb值的重新建造的重新计算rgb值之间的欧几里得距离。这种误差对于报告的感兴趣物体的每一个和每个象素使用以上提到的rgb彩色基因分离模型的方法和设备可评估。
依据当获得进行阴影校正和图像标准化使用的白色基准图像时对于在光学系统内记录的每个rgb值和噪声水平(noise)测量的彩色基因误差,对于每种染料基于对于这个象素评估的透射率不会统计地改变大于区分不同透射率的人眼能力的概率而计算置信度。
d.层次描述符特征当计算与在切片(如组织学切片)内的不同层次物体(如细胞、细胞膜、细胞核/或其它物体)或切片的图像相关的特征时,关于如下层次的基准字段可以评估特征与物体相关的切片(slide)、焦点(focus)、视场(fov)或细胞(cell)。
·切片“slide”、及相关的“focus”、“fov”、“cell”
·焦点“focus”、及相关的“fov”、“cell”·视场“fov”、和相关的“cell”·细胞“cell”e.细胞描述符特征当计算细胞特征时,所述特征反映在如下细胞或亚细胞地点的一个或多个中整个细胞(cell)、细胞核(nucl)、细胞质(cyto)或细胞膜(memb)。
·整个细胞“cell”·细胞核“nucl”·细胞质“cyto”·细胞膜“memb”表格附录表1示范标记的清单及其相应亚细胞地点。
表2用于得到类别1、2或3的所选择细胞的疾病的分配器设置。
表3百分比概括特征。
表4身体样本从其取得的病人的描述和结果(实验例子)。
表5用于实验例子的百分比概括特征(表示对于基于顺序的决定规则确定的阈值)。
表6对于来自实验例子的slpi、p21ras、e2f1及src组合使用顺序解释手段的灵敏性和特异性对(顺序s0110必须按如下读出slpi=off/p21ras=on/e2f1=on/src=off。)
表7生成用于良好结果病人的x2值(x2good)和用于不良结果病人的x2值(x2bad)的x2分析公式的细节。
在说明书中提到的所有公报和专利申请指示本发明所属领域的技术人员的水平。所有公报和专利申请这里通过参考包括到相同程度,就像每个个别公报或专利申请明确和个别地指示成通过参考包括。
尽管以上发明为了理解清楚的目的已经通过说明和例子比较详细地描述,但显然,在附属实施例的范围内可以实施一定变更和修改。
权利要求
1.一种用来分析至少一个标记以确定癌症病人的预后的方法,所述方法包括把身体样本暴露于所述至少一个标记,所述身体样本从所述癌症病人取得;使用图像处理系统从至少一个切片的取得图像抽取至少一个可量化特征,所述至少一个切片从所述身体样本制备;把决定规则应用于所述至少一个可量化特征,从而基于所述至少一个可量化特征与所述决定规则之间的关系确定所述癌症病人的预后。
2.根据权利要求1所述的方法,其中所述应用步骤还包括把阈值应用于所述至少一个可量化特征,从而基于所述至少一个可量化特征与所述阈值之间的关系确定所述癌症病人的预后。
3.根据权利要求2所述的方法,其中所述应用步骤还包括为所述阈值应用疾病规则,所述疾病规则能够建立对应于与所述阈值相关的所述至少一个可量化特征的值的良好预后或不良预后。
4.根据权利要求1所述的方法,其中所述抽取步骤还包括辨别感兴趣区域,从该感兴趣区域抽取所述至少一个可量化特征,所述感兴趣区域在使用图像处理系统取得的所述至少一个切片的图像内。
5.根据权利要求1所述的方法,其中,所述至少一个标记从包括如下的组中选择色度生物标记;slpi;psmb9;ndrg-1;muc-1;phospho-p27;src;e2f1;p21ras;p53;及其组合。
6.根据权利要求1所述的方法,其中所述至少一个可量化特征从包括如下的组中选择透射率;光学密度;细胞形态;以标记强度和细胞形状为特征的细胞类型的百分比;及其组合。
7.一种计算机程序产品,能够控制图像处理系统以分析确定癌症病人的预后的至少一个标记,所述计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有其中存储的计算机可读程序代码部分,所述计算机可读程序代码部分包括用来使用图像处理系统从至少一个切片的取得图像中抽取至少一个可量化特征的可执行部分,所述至少一个切片由从癌症病人取得的身体样本制备,所述身体样本暴露于所述至少一个标记;及用来把决定规则应用于所述至少一个可量化特征的可执行部分,从而基于所述至少一个可量化特征与所述决定规则之间的关系确定癌症病人的预后。
8.根据权利要求7所述的计算机程序产品,其中所述用于应用的可执行部分还包括用来把阈值应用于所述至少一个可量化特征的可执行部分,从而基于所述至少一个可量化特征与阈值之间的关系确定癌症病人的预后。
9.根据权利要求8所述的计算机程序产品,其中所述用于应用的可执行部分还包括用来应用用于所述阈值的疾病规则的可执行部分,所述疾病规则能够建立对应于与所述阈值相关的所述至少一个可量化特征的值的良好预后或不良预后。
10.一种用来评估适于确定癌症病人的预后的至少一个标记的方法,所述方法包括把多个身体样本暴露于所述至少一个标记,所述多个身体样本从对应的多个病人取得,每个病人具有已知结果;使用图像处理系统从多个切片的每一个的取得图像抽取至少一个可量化特征,所述多个切片从与每个病人相对应的所述多个身体样本制备;把多个候选决定规则应用于所述多个切片的每一个的所述至少一个可量化特征,从而为所述多个候选决定规则和所述至少一个可量化特征的多种组合的每一种提供候选预后;及对于所述至少一个可量化特征,选择与最佳预后相对应的最佳决定规则,最佳决定规则从候选决定规则中选择,所述最佳决定规则提供了用于多个切片的每一个的最佳预后最佳地与所述多个病人的每一个的已知结果相对应。
11.根据权利要求10所述的方法,其中所述应用步骤还包括把多个候选阈值应用于所述至少一个可量化特征,从而产生与用于多个身体样本每一个的多个候选阈值的每一个相对应的多个候选预后,并且其中所述选择步骤还包括从所述多个候选阈值中选择最佳阈值,从而用于多个切片的每一个的最佳预后最佳地与所述多个病人的每一个的已知结果相对应。
12.根据权利要求11所述的方法,其中所述应用步骤还包括确定用于多个候选阈值的每一个的疾病规则,所述疾病规则能够建立对应于与多个候选阈值的每一个相关的所述至少一个可量化特征的值的良好预后或不良预后。
13.根据权利要求10所述的方法,其中所述选择步骤还包括确定与多个候选决定规则的每一个相对应的多个特异性和灵敏性对;在接收器操作特性曲线上画出所述多个特异性和灵敏性对;计算在所述多个特异性和灵敏性对的每一对与最佳特异性和灵敏性对之间的多个欧几里得距离;及选择对应于具有到所述最佳特异性和灵敏性对的最小欧几里得距离的特异性和灵敏性对的最佳决定规则。
14.根据权利要求10所述的方法,其中所述抽取步骤还包括辨别感兴趣区域,从该感兴趣区域抽取所述至少一个可量化特征,所述感兴趣区域在使用图像处理系统取得的多个切片的每一个的图像内。
15.根据权利要求10所述的方法,还包括评估所述至少一个标记的统计独立性,从而保证所述至少一个标记能够提供基本统计地独立于至少一个互补标记的预后。
16.根据权利要求15所述的方法,其中所述评估步骤还包括把观察结果的频率分布与理论预后的频率分布相比较,其中假定所述至少一个标记独立于用于暴露于所述至少一个标记和所述至少一个互补标记的第一多个身体样本的额外标记而计算该理论预后,所述第一多个身体样本与具有已知良好结果的病人相对应;把观察结果的频率分布与理论预后的频率分布相比较,其中假定所述至少一个标记独立于用于暴露于所述至少一个标记和所述至少一个互补标记的第二多个身体样本的额外标记而计算该理论预后,所述第二多个身体样本与具有已知不良结果的病人相对应;估计所述至少一个标记相对于所述至少一个互补标记的独立性。
17.根据权利要求16所述的方法,其中所述估计步骤还包括使用卡平方分析估计所述至少一个标记相对于所述至少一个互补标记的独立性。
18.根据权利要求10所述的方法,其中所述至少一个标记从包括如下的组中选择色度生物标记;slpi;psmb9;ndrg-1;muc-1;phospho-p27;src;e2f1;p21ras;p53;及其组合。
19.根据权利要求10所述的方法,其中所述至少一个可量化特征从包括如下的组中选择透射率;光学密度;细胞形态;以标记强度和细胞形状为特征的细胞类型的百分比;及其组合。
20.一种计算机程序产品,能够控制图像处理系统,以评估适于确定癌症病人的预后的至少一个标记,所述计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有其中存储的计算机可读程序代码部分,所述计算机可读程序代码部分包括用来使用图像处理系统从多个切片的每一个的取得图像中抽取至少一个可量化特征的可执行部分,所述多个切片由从对应多个病人取得的多个身体样本制备,每个病人具有已知结果,所述多个身体样本暴露于所述至少一个标记;用来把穷尽的多个候选决定规则应用于多个切片的每一个的所述至少一个可量化特征的可执行部分,从而提供用于所述穷尽的多个候选决定规则和所述至少一个可量化特征的多种组合的每一种的候选预后;及用来对所述至少一个可量化特征,选择与最佳预后相对应的最佳决定规则的可执行部分,所述最佳块定规则从所述候选决定规则中选择,所述最佳决定规则提供了用于所述多个切片的每一个的最佳预后最佳地与所述多个病人的每一个的已知结果相对应。
21.根据权利要求20所述的计算机程序产品,其中所述用于应用的可执行部分还包括用来把多个候选阈值应用于所述至少一个可量化特征的可执行部分,从而对于多个身体样本的每一个产生与多个候选阈值的每一个相对应的多个候选预后,并且其中所述用来选择的可执行部分还包括用来从多个候选阈值选择最佳阈值的可执行部分,从而用于多个切片的每一个的最佳预后最佳地与多个病人的每一个的已知结果相对应。
22.根据权利要求21所述的计算机程序产品,其中所述用来应用多个候选阈值的可执行部分还包括用来确定用于多个候选阈值的每一个的疾病规则的可执行部分,所述疾病规则能够建立对应于与多个候选阈值的每一个相关的所述至少一个可量化特征的值的良好预后或不良预后。
23.根据权利要求20所述的计算机程序产品,其中所述用于选择步骤的可执行部分还包括用来确定与穷尽的多个候选决定规则的每一个相对应的多个特异性和灵敏性对的可执行部分;用来在接收器操作特性曲线上画出所述多个特异性和灵敏性对的可执行部分;用来计算在所述多个特异性和灵敏性对的每一个与最佳特异性和灵敏性对之间的多个欧几里得距离的可执行部分;及用来选择对应于具有到所述最佳特异性和灵敏性对的最小欧几里得距离的特异性和灵敏性对的最佳决定规则的可执行部分。
24.根据权利要求20所述的计算机程序产品,其中所述用于抽取的可执行部分还包括用来辨别感兴趣区域的可执行部分,从该感兴趣区域抽取所述至少一个可量化特征,所述感兴趣区域在使用图像处理系统取得的多个切片的每一个的图像内。
25.根据权利要求20所述的计算机程序产品,还包括用来评估所述至少一个标记的统计独立性的可执行部分,从而保证所述至少一个标记能够提供基本统计地独立于至少一个互补标记的预后。
26.根据权利要求25所述的计算机程序产品,其中所述用于评估的可执行部分还包括用来把观察结果的频率分布与用于暴露于所述至少一个标记和所述至少一个互补标记的第一多个身体样本的理论预后的频率分布相比较的可执行部分,所述第一多个身体样本与具有已知良好结果的病人相对应;用来把观察结果的频率分布与用于暴露于所述至少一个标记和所述至少一个互补标记的第二多个身体样本的理论预后的频率分布相比较的可执行部分,所述第二多个身体样本与具有已知不良结果的病人相对应;用来估计所述至少一个标记相对于所述至少一个互补标记的独立性的可执行部分。
27.根据权利要求26所述的计算机程序产品,其中所述用于估计的可执行部分还包括用来使用卡平方分析估计所述至少一个标记相对于所述至少一个互补标记的独立性的可执行部分。
全文摘要
提供用来评估和优化在建立对于患有疾病的病人的预后时使用的一个或多个标记的方法和计算机程序产品。更具体地说,所述方法包括步骤用来系统地评估可从已经暴露于一个或多个生物标记的身体样本(如组织学切片)的图像抽取的多个特征,以便基于一个或多个抽取特征建立预后决定规则,从而决定规则产生是最佳地预测实际病人结果的预后。因而,所述提供的方法和计算机程序产品产生最佳预测预后,以帮助临床医师开发用于有效病人护理管理的策略。
文档编号g06f19/00gk101061480sq200580039170
公开日2007年10月24日 申请日期2005年9月22日 优先权日2004年9月22日
发明者拉斐尔·马塞尔波利, 克拉克·梅里尔·怀特黑德, 蒂莫西·j.·费希尔 申请人:三路影像公司