技术特征:
1.用于评估患者的肺结节的方法,所述方法包括:a)获得数据集,所述数据集包含:i)来自所述患者的生物样品中选自表4、表7或这二者所列基因的至少两种肺病相关基因的基因表达测量值,和ii)所述患者的选自表6所列临床特征的一种或更多种临床特征的临床特征数据,其中所述生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;b)提供所述数据集作为机器学习模型的输入,该机器学习模型经训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;c)接收表明所述数据集是指示恶性肺结节还是良性肺结节的推断结果,作为所述机器学习模型的输出;以及d)电子地输出将所述患者的肺结节分类为恶性肺结节或良性肺结节的报告。2.权利要求1所述的方法,其中所述至少两种肺病相关基因选自表7中列出之基因。3.权利要求1或2所述的方法,其中所述一种或更多种临床特征包含所述结节的尺寸、所述患者的年龄和肺上叶中结节的存在。4.权利要求1至3中任一项所述的方法,其中所述机器学习模型是使用线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)分类器、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)、或其任意组合开发的。5.权利要求1至4中任一项所述的方法,其中所述患者患有肺癌。6.权利要求1至4中任一项所述的方法,其中所述患者不患有肺癌。7.权利要求1至4中任一项所述的方法,其中所述患者处于患有肺癌的升高风险中。8.权利要求1至5和7中任一项所述的方法,其中所述患者没有针对肺癌的症状。9.权利要求1至5、7和8中任一项所述的方法,其还包括基于所述患者的结节被分类为恶性结节来施用治疗。10.权利要求9所述的方法,其中所述治疗是手术、化学治疗、靶向治疗、免疫治疗、放射治疗、或其任意组合。11.权利要求1至10中任一项所述的方法,其中所述推断结果包括,所述肺结节为恶性的置信度值为0至1。12.权利要求1至11中任一项所述的方法,其中所述至少两种肺病相关基因包含选自表4所列基因中的至少2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,295种基因。13.权利要求1至12中任一项所述的方法,其中所述至少两种肺病相关基因包含选自表7所列基因中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因。14.权利要求1至13中任一项所述的方法,其包括以至少约80%、至少约85%、至少约
90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将所述患者的肺结节分类为恶性肺结节或良性肺结节。15.权利要求1至14中任一项所述的方法,其包括以至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将所述患者的肺结节分类为恶性肺结节或良性肺结节。16.权利要求1至15中任一项所述的方法,其包括以至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将所述患者的肺结节分类为恶性肺结节或良性肺结节。17.权利要求1至16中任一项所述的方法,其包括以至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将所述患者的肺结节分类为恶性肺结节或良性肺结节。18.权利要求1至17中任一项所述的方法,其包括以至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将所述患者的肺结节分类为恶性肺结节或良性肺结节。19.权利要求1至18中任一项所述的方法,其中所述经训练机器学习模型具有曲线下面积(auc)为至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或大于约0.99的接受者操作特征(roc)曲线。20.用于评估患者的肺结节的系统,所述系统包含:一个或更多个处理器;和一个或更多个存储可执行指令的存储器,作为由所述一个或更多个处理器执行的结果,所述可执行指令使得所述系统:从数据库获得数据集,所述数据集包含:i)患者的生物样品的选自表4或表7或这二者所列基因的多种肺病相关基因的基因表达测量值,和ii)所述患者的选自表6所列临床特征的一种或更多种临床特征的临床特征数据,其中所述生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;提供所述数据集作为机器学习模型的输入,该机器学习模型经训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;接收表明复合数据集是指示恶性肺结节还是良性肺结节的推断结果,作为所述机器学习模型的输出;以及生成将所述患者的肺结节分类为恶性肺结节或良性肺结节的报告。21.非暂时性计算机可读介质,其存储用于评估患者的肺结节的可执行指令,作为由计算机系统的一个或更多个处理器执行的结果,所述可执行指令使得所述计算机系统:从数据库获得数据集,所述数据集包含:i)患者的生物样品的选自表4或表7或这二者
所列基因的多种肺病相关基因的基因表达测量值,和ii)所述患者的选自表6所列临床特征的一种或更多种临床特征的临床特征数据,其中所述生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;提供所述数据集作为机器学习模型的输入,该机器学习模型经训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;接收表明复合数据集是指示恶性肺结节还是良性肺结节的推断结果,作为所述机器学习模型的输出;以及生成将所述患者的肺结节分类为恶性肺结节或良性肺结节的报告。22.用于确定能够在不进行活检的情况下将肺结节分类为良性或恶性的基因集的方法,所述方法包括:a)获得包含多个个体参考数据集的参考数据集,其中所述多个个体参考数据集的相应个体参考数据集包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)所述参考对象的选自表6所列临床特征的一种或更多种临床特征的临床特征数据,和iii)关于所述参考对象的肺结节是良性的还是恶性的数据,其中所述参考生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;b)使用所述参考数据集训练机器学习模型,其中所述机器学习模型被训练以至少部分地基于选自所述多种基因以及所述一种或更多种临床特征的一种或更多种预测因子来推断肺结节是良性的还是恶性的;c)确定所述多种基因的特征重要性值;以及d)至少部分地基于所述特征重要性值确定所述基因集。23.权利要求22所述的方法,其中所述多种基因包含选自表9所列基因中的至少2种基因。24.用于开发能够推断患者的肺结节是良性的还是恶性的经训练机器学习模型的方法,所述方法包括:(a)获得包含多个第一个体参考数据集的第一参考数据集,其中所述多个第一个体参考数据集的相应第一个体参考数据集包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)所述参考对象的选自表6所列临床特征的一种或更多种临床特征的临床特征数据,和iii)关于所述参考对象的肺结节是良性的还是恶性的数据,其中所述生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;(b)使用所述第一参考数据集训练第一机器学习模型,其中所述第一机器学习模型被训练以至少部分地基于选自所述多种基因以及所述一种或更多种临床特征的一种或更多种预测因子来推断肺结节是良性的还是恶性的;(c)确定所述第一机器学习模型的所述一种或更多种预测因子的特征重要性值;(d)至少部分地基于所述特征重要性值选择所述第一机器学习模型的a种预测因子,其中a是5至2000的整数;以及(e)至少部分地基于包含多个第二个体参考数据集的第二参考数据集来训练第二机器学习模型以获得所述经训练机器学习模型,其中所述多个第二个体参考数据集的相应第二个体参考数据集包含:i)所述参考对象的a种预测因子的测量数据,和ii)关于所述参考对象的肺结节是良性的还是恶性的数据,其中至少部分地基于所述a种预测因子的测量数据
来训练所述经训练机器学习模型以推断肺结节是良性的还是恶性的。25.权利要求24所述的方法,其中所述多种基因包含选自表9所列基因中的至少2种基因。26.权利要求24至25中任一项所述的方法,其中所述a种预测因子具有前5至200个特征重要性值。27.权利要求24至26中任一项所述的方法,其中所述经训练机器学习模型具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度。28.权利要求24至27中任一项所述的方法,其中所述经训练机器学习模型具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度。29.权利要求24至28中任一项所述的方法,其中所述经训练机器学习模型具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性。30.权利要求24至29中任一项所述的方法,其中所述经训练机器学习模型具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值。31.权利要求24至30中任一项所述的方法,其中所述经训练机器学习模型具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值。32.权利要求24至31中任一项所述的方法,其中所述经训练机器学习模型具有曲线下面积(auc)为至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或大于约0.99的接受者操作特征(roc)曲线。33.权利要求24至32中任一项所述的方法,其中所述第一机器学习模型和所述第二机器学习模型是使用线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)分类器、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)、或其任意组合独立地训练的。34.用于评估患者的肺结节的方法,所述方法包括:(a)获得数据集,所述数据集包含所述患者的权利要求24至26中任一项所述a种预测因子中之一种或更多种的测量数据;(b)提供所述数据集作为经训练机器学习模型的输入,该经训练机器学习模型根据权利要求24至33中任一项所述的方法训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;(c)接收表明所述数据集是指示恶性肺结节还是良性肺结节的推断结果,作为所述机器学习模型的输出;以及(d)电子地输出将所述患者的肺结节分类为恶性肺结节或良性肺结节的报告。35.权利要求34所述的方法,其中所述生物样品是血液样品、分离的外周血单个核细胞
(pbmc)、或其任何衍生物。36.权利要求34至35中任一项所述的方法,其中所述患者患有肺癌。37.权利要求34至35中任一项所述的方法,其中所述患者不患有肺癌。38.权利要求34至35中任一项所述的方法,其中所述患者处于患有肺癌的升高风险中。39.权利要求34至36和38中任一项所述的方法,其中所述患者没有针对肺癌的症状。40.权利要求34至36、38和39中任一项所述的方法,其还包括基于所述患者的肺结节被分类为恶性结节来施用治疗。41.权利要求40所述的方法,其中所述治疗是手术、化学治疗、靶向治疗、免疫治疗、放射治疗、或其任意组合。42.用于在患有肺结节的患者中治疗肺癌的方法,所述方法包括:(a)获得数据集,所述数据集包含:i)来自所述患者的生物样品中选自表4或表7或这二者所列基因的至少两种肺病相关基因的基因表达测量值,和ii)所述患者的选自表6所列临床特征的一种或更多种临床特征的临床特征数据,其中所述生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;(b)提供所述数据集作为经训练机器学习模型的输入,该经训练机器学习模型经训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;(c)接收表明所述数据集是指示恶性肺结节还是良性肺结节的推断结果,作为所述机器学习模型的输出;以及(d)基于所述患者的肺结节被分类为恶性肺结节来施用治疗。
技术总结
本公开内容提供了用于基于基因表达数据和临床特征数据对肺结节进行机器学习分类的系统和方法。所述方法可包括:a)获得数据集,所述数据集包含来自患者的生物样品的至少两种肺病相关基因的基因表达测量值和所述患者的一种或更多种临床特征的临床特征数据;b)提供所述数据集作为机器学习模型的输入,该机器学习模型经训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;c)接收表明所述数据集是指示恶性肺结节还是良性肺结节的推断结果,作为所述机器学习模型的输出;以及d)电子地输出将所述患者的肺结节分类为恶性肺结节或良性肺结节的报告。肺结节或良性肺结节的报告。肺结节或良性肺结节的报告。
技术研发人员:普拉提尤沙
受保护的技术使用者:安佩尔生物j9九游会真人的解决方案有限责任公司
技术研发日:2021.12.28
技术公布日:2023/10/15