基于基因表达的肺结节的机器学习分类1.交叉引用2.本技术要求于2020年12月30日提交的美国临时专利申请no.63/132,130的优先权,其通过引用整体并入本文。
背景技术:
::3.肺结节是常见的,经常在没有经历肺病症状的患者的筛查中检测到。在患有肺结节的对象中,仅一小部分最终被诊断出患有癌症。肺结节的非癌性原因可包括例如分枝杆菌或真菌感染、自身免疫病、空气污染物和来自先前损伤的瘢痕。大的肺结节通常需要进行侵入性活检或通过胸外科手术去除。估计最终确定为癌性的肺结节的百分比低至40%。鉴于活检或胸外科手术的潜在危害,需要针对肺癌的侵入性较小的测试。简单的非侵入性测试(例如血液测试)将极大地降低患者受伤害的潜力,并降低医疗成本。4.发明概述5.在一个方面中,本公开内容提供了用于评估对象的肺结节的方法,其包括:(a)测定从对象获得或来源于对象的生物样品,以产生包含生物样品的来自多个肺病相关基因组基因座的每个基因座的基因表达测量值的数据集,其中所述多个肺病相关基因组基因座包含选自表1、2、3、4、5、7和8中的任一个或更多个所列基因的组中的至少一种基因;(b)分析数据集以将对象的肺结节分类为恶性肺结节或良性肺结节;以及(c)电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。生物样品的基因表达可以通过例如测定从基因组基因座(例如肺病相关基因)产生的rna来测量。生物样品中的基因表达测量可以使用任何合适的技术进行,例如任何合适的rna定量技术,包括但不限于rna-seq、ampli-seq等。在一些实施方案中,数据集还包含对象的一种或更多种临床特征的临床特征数据。在一些实施方案中,一种或更多种临床特征选自表6所列临床特征组。6.在一些实施方案中,多个疾病相关基因组基因座包含选自表1所列基因的组中的至少7.2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,或180种基因。8.在一些实施方案中,多个疾病相关基因组基因座包含选自表2所列基因的组中的至少9.2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175种基因。10.在一些实施方案中,多个疾病相关基因组基因座包含选自表3所列基因的组中的至少11.2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,或60种基因。12.在一些实施方案中,多个疾病相关基因组基因座包含选自表4所列基因的组中的至少13.2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295种基因。14.在一些实施方案中,多个疾病相关基因组基因座包含选自表5所列基因的组中的至少15.2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142种基因。16.在一些实施方案中,多个疾病相关基因组基因座包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因。在一些实施方案中,基因选自17.bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。18.在一些实施方案中,多个疾病相关基因组基因座包含基因19.bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。20.在一些实施方案中,多个疾病相关基因组基因座由以下基因组成:21.bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。22.这些基因和本文中所述的那些是本领域技术人员已知的,并在文献中有所描述。表a提供了本文中在表(包括表7和表8)所列基因的基因id号的一些实例,如-在线人类孟德尔遗传(onlinemendelianinheritanceinman)(约翰霍普金斯大学医学院mckusick-nathans遗传医学研究所,baltimore,md(mckusick-nathansinstituteofgeneticmedicine,johnshopkinsuniversityschoolofmedicine,baltimore,md))和美国国家生物技术信息中心基因数据库(ncbi,美国国家医学图书馆(u.s.nationallibraryofmedicine)8600rockvillepike,bethesdamd,20894usa)中所述,其各自均通过引用整体并入本文。23.表a.选择的基因实例基因id号24.[0025][0026]在一些实施方案中,多个疾病相关基因组基因座包含选自表8所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种基因。在一些实施方案中,基因选自[0027]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0028]在一些实施方案中,多个疾病相关基因组基因座包含基因[0029]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0030]在一些实施方案中,多个疾病相关基因组基因座由以下基因组成:[0031]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0032]在一些实施方案中,一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,一种或更多种临床特征包含结节的尺寸。在一些实施方案中,一种或更多种临床特征包含对象的年龄。在一些实施方案中,一种或更多种临床特征包含肺上叶中结节的存在。在一些实施方案中,一种或更多种临床特征包含结节的尺寸、对象的年龄、肺上叶中结节的存在、或其任意组合。[0033]在一些实施方案中,多个疾病相关基因组基因座包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因,并且一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种特征。在一些实施方案中,多个疾病相关基因组基因座包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因,并且对象的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,多个疾病相关基因组基因座包含表7所列的31种基因,并且一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,多个疾病相关基因组基因座由表7所列的31种基因组成,并且一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。[0034]在一些实施方案中,所述方法包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约100%的准确度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的准确度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的准确度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度将对象的肺结节分类为恶性肺结节或良性肺结节。[0035]在一些实施方案中,所述方法包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约100%的灵敏度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的灵敏度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的灵敏度将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度将对象的肺结节分类为恶性肺结节或良性肺结节。[0036]在一些实施方案中,所述方法包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约100%的特异性将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的特异性将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的特异性将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性将对象的肺结节分类为恶性肺结节或良性肺结节。[0037]在一些实施方案中,所述方法包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约100%的阳性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阳性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阳性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。[0038]在一些实施方案中,所述方法包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约100%的阴性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阴性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阴性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。在一些实施方案中,所述方法包括以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。[0039]在一些实施方案中,所述方法包括以至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或大于约0.99的曲线下面积(area-under-curve,auc)将对象的肺结节分类为恶性肺结节或良性肺结节。可以用具有其中auc为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或大于约0.99的接受者操作特征(receiveroperatingcharacteristic,roc)曲线的机器学习模型将对象的肺结节分类为恶性肺结节或良性肺结节。可以用具有其中auc为约0.8至约1的roc曲线的机器学习模型将对象的肺结节分类为恶性肺结节或良性肺结节。可以用具有其中auc为约0.8至约0.85、约0.8至约0.9、约0.8至约0.92、约0.8至约0.94、约0.8至约0.95、约0.8至约0.96、约0.8至约0.97、约0.8至约0.98、约0.8至约0.99、约0.8至约0.995、约0.8至约1、约0.85至约0.9、约0.85至约0.92、约0.85至约0.94、约0.85至约0.95、约0.85至约0.96、约0.85至约0.97、约0.85至约0.98、约0.85至约0.99、约0.85至约0.995、约0.85至约1、约0.9至约0.92、约0.9至约0.94、约0.9至约0.95、约0.9至约0.96、约0.9至约0.97、约0.9至约0.98、约0.9至约0.99、约0.9至约0.995、约0.9至约1、约0.92至约0.94、约0.92至约0.95、约0.92至约0.96、约0.92至约0.97、约0.92至约0.98、约0.92至约0.99、约0.92至约0.995、约0.92至约1、约0.94至约0.95、约0.94至约0.96、约0.94至约0.97、约0.94至约0.98、约0.94至约0.99、约0.94至约0.995、约0.94至约1、约0.95至约0.96、约0.95至约0.97、约0.95至约0.98、约0.95至约0.99、约0.95至约0.995、约0.95至约1、约0.96至约0.97、约0.96至约0.98、约0.96至约0.99、约0.96至约0.995、约0.96至约1、约0.97至约0.98、约0.97至约0.99、约0.97至约0.995、约0.97至约1、约0.98至约0.99、约0.98至约0.995、约0.98至约1、约0.99至约0.995、约0.99至约1或约0.995至约1的roc曲线的机器学习模型将对象的肺结节分类为恶性肺结节或良性肺结节。可以用具有其中auc为约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线的机器学习模型将对象的肺结节分类为恶性肺结节或良性肺结节。可以用具有其中auc为至少约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99或约0.995的roc曲线的机器学习模型将对象的肺结节分类为恶性肺结节或良性肺结节。可以用具有其中auc为至多约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线的机器学习模型将对象的肺结节分类为恶性肺结节或良性肺结节。[0040]在一些实施方案中,对象患有肺癌。在一些实施方案中,对象被怀疑患有肺癌。在一些实施方案中,对象处于患有肺癌的升高风险之中。在一些实施方案中,对象没有针对肺癌的症状。[0041]在某些实施方案中,所述方法包括至少部分地基于将对象的肺结节分类为恶性肺结节或良性肺结节任选地进行对象的肺结节的活检。在某些实施方案中,所述方法包括至少部分地基于将对象的肺结节分类为恶性肺结节任选地进行对象的肺结节的活检。在某些实施方案中,不进行肺结节的活检。在一些实施方案中,所述方法还包括至少部分地基于将对象的肺结节分类为恶性肺结节或良性肺结节来对对象施用治疗。在一些实施方案中,所述方法包括至少部分地基于将对象的肺结节分类为恶性肺结节来对对象施用治疗。在一些实施方案中,治疗被配置成治疗对象的肺癌。在一些实施方案中,治疗被配置成降低对象的肺癌的严重性。在一些实施方案中,治疗被配置成降低对象患有肺癌的风险。治疗可包括对肺癌的一种或更多种治疗。在一些实施方案中,治疗选自手术、化学治疗、靶向治疗、免疫治疗、放射治疗及其任意组合。[0042]在一些实施方案中,(b)包括将数据集与参考数据集进行比较。在一些实施方案中,参考数据集包含参考生物样品的来自多个肺病相关基因组基因座的每个基因座的基因表达测量值,以及任选地包含参考对象的一种或更多种临床特征的临床特征数据。在一些实施方案中,参考生物样品包含从患有恶性肺结节的参考对象获得或来源于所述参考对象的第一多个生物样品,以及从患有良性肺结节的参考对象获得或来源于所述参考对象的第二多个生物样品。[0043]在一些实施方案中,(b)包括使用经训练机器学习分类器来分析数据集,以将对象的肺结节分类为恶性肺结节或良性肺结节。经训练机器学习分类器可生成数据集是指示恶性肺结节还是良性肺结节的推断结果。在一些实施方案中,使用基因表达数据来训练经训练机器学习分类器,所述基因表达数据通过选自以下的数据分析工具获得:big-ctm大数据分析工具、i-scopetm大数据分析工具、t-scopetm大数据分析工具、cellscan大数据分析工具、ms(分子特征,molecularsignature)scoringtm分析工具和基因集变异分析(genesetvariationanalysis,gsva)工具(例如,p-scope)。[0044]在一些实施方案中,经训练机器学习分类器为有监督机器学习算法或无监督机器学习算法。在一些实施方案中,经训练机器学习分类器选自线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(supportvectormachine,svm)、梯度提升机(gradientboostedmachine,gbm)、k最近邻(knearestneighbor,knn)、广义线性模型(generalizedlinearmodel,glm)、朴素贝叶斯(bayes,nb)、神经网络、随机森林(randomforest,rf)、深度学习算法、线性判别分析(lineardiscriminantanalysis,lda)、决策树学习(dtree)、自适应提升(adb)及其任意组合。在一些实施方案中,经训练机器学习分类器包含log。在一些实施方案中,经训练机器学习分类器包含岭回归。在一些实施方案中,经训练机器学习分类器包含lasso回归。在一些实施方案中,经训练机器学习分类器包含glm。在一些实施方案中,经训练机器学习分类器包含knn。在一些实施方案中,经训练机器学习分类器包含svm。在一些实施方案中,经训练机器学习分类器包含gbm。在一些实施方案中,经训练机器学习分类器包含rf。在一些实施方案中,经训练机器学习分类器包含nb。在一些实施方案中,经训练机器学习分类器包含en回归。在一些实施方案中,经训练机器学习分类器包含神经网络。在一些实施方案中,经训练机器学习分类器包含深度学习算法。在一些实施方案中,经训练机器学习分类器包含lda。在一些实施方案中,经训练机器学习分类器包含dtree。在一些实施方案中,经训练机器学习分类器包含adb。在某些实施方案中,在训练机器学习模型期间进行过采样或欠采样校正。[0045]在一些实施方案中,所述方法包括接收表明数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习分类器的输出。[0046]在一些实施方案中,生物样品选自:血液样品、分离的外周血单个核细胞(peripheralbloodmononuclearcell,pbmc)、肺活检样品、鼻液、唾液及其任何衍生物。在一些实施方案中,生物样品是血液样品或其任何衍生物。在一些实施方案中,生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,生物样品是肺活检样品或其任何衍生物。在一些实施方案中,生物样品是鼻液样品或其衍生物。在一些实施方案中,生物样品是唾液样品或其任何衍生物。[0047]在一些实施方案中,所述方法还包括确定将对象的肺结节分类为恶性肺结节或良性肺结节的可能性。在一些实施方案中,可能性为约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%、或约100%。在一些实施方案中,可能性为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%。[0048]在一些实施方案中,所述方法还包括监测对象的肺结节,其中监测包括在多个时间点处评估对象的肺结节。在一些实施方案中,在多个时间点之间的对象的肺结节评估的差异指示选自以下的一种或更多种临床指征:(i)对象的肺结节的诊断,(ii)对象的肺结节的预后,以及(iii)用于治疗对象的肺结节的治疗过程有效力或无效力。在一些实施方案中,多个时间点包含至少[0049]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,或50个不同的时间点。[0050]在一个方面中,本公开内容供了用于评估患者的肺结节的方法。所述方法可包括步骤a’、b’、c’和d’中的任一个、其任意组合或全部。步骤a’可包括获得数据集,所述数据集包含从患者获得或来源于患者的生物样品的至少两种肺病相关基因的基因表达测量值。数据集可通过测定生物样品来获得。在一些实施方案中,所述至少两种肺病相关基因选自表4中列出之基因的组。在一些实施方案中,所述至少两种肺病相关基因选自表1中列出之基因的组。在一些实施方案中,所述至少两种肺病相关基因选自表2中列出之基因的组。在一些实施方案中,所述至少两种肺病相关基因选自表3中列出之基因的组。在一些实施方案中,所述至少两种肺病相关基因选自表5中列出之基因的组。在一些实施方案中,所述至少两种肺病相关基因选自表7中列出之基因的组。在一些实施方案中,所述至少两种肺病相关基因选自表8中列出之基因的组。步骤b’可包括提供数据集作为机器学习模型的输入,该机器学习模型经训练以生成数据集是指示恶性肺结节还是良性肺结节的推断结果。步骤c’可包括接收表明数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出。步骤d’可包括电子地输出将患者的肺结节分类为恶性肺结节或良性肺结节的报告。在一些实施方案中,步骤a’的数据集还可包含患者的一种或更多种临床特征的临床特征数据。在一些实施方案中,一种或更多种临床特征选自表6所列临床特征组。在一些实施方案中,步骤a’的数据集包含:i)生物样品的选自表1、2、3、4、5、7和8的任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。生物样品的基因表达测量可以使用任何合适的技术进行,例如任何合适的rna定量技术,包括但不限于rna-seq、ampli-seq等。[0051]在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表1所列基因的组中的至少[0052]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0053](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表2所列基因的组中的至少[0054]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0055](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表3所列基因的组中的至少[0056]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0057](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表4所列基因的组中的至少[0058]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0059](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表5所列基因的组中的至少[0060]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0061](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表7所列基因的组中的至少[0062]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0063]种基因。在一些实施方案中,步骤a’的至少两种肺病相关基因选自[0064]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orfl20,tmem8a,asap1-it2,c15off54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表8所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种基因。在一些实施方案中,步骤a’的至少两种肺病相关基因选自[0065]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0066]在一些实施方案中,一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,一种或更多种临床特征包含结节的尺寸。在一些实施方案中,一种或更多种临床特征包含患者的年龄。在一些实施方案中,一种或更多种临床特征包含肺上叶中结节的存在。在一些实施方案中,患者的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤a’的至少两种肺病相关基因包含表7所列的31种基因,并且步骤a’的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,步骤a’的至少两种肺病相关基因由表7所列的31种基因组成,并且步骤a’的一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。在一些实施方案中,步骤a’的数据集包含:i)生物样品的选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)患者的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,步骤a’的数据集包含:i)生物样品的选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)患者的选自结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合的临床特征的临床特征数据。[0067]在一些实施方案中,生物样品是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液或其任何衍生物。在一些实施方案中,生物样品是血液样品或其任何衍生物。在一些实施方案中,生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,生物样品是肺活检样品或其任何衍生物。在一些实施方案中,生物样品是鼻液样品或其任何衍生物。在一些实施方案中,生物样品是唾液样品或其任何衍生物。[0068]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度推断数据集是指示恶性肺结节还是良性肺结节。所述方法可以以约80%至约100%的准确度将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的准确度将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的准确度将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度将患者的肺结节分类为恶性肺结节或良性肺结节。[0069]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度推断数据集是指示恶性肺结节还是良性肺结节。所述方法可以以约80%至约100%的灵敏度将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的灵敏度将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的灵敏度将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度将患者的肺结节分类为恶性肺结节或良性肺结节。[0070]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性推断数据集是指示恶性肺结节还是良性肺结节。所述方法可以以约80%至约100%的特异性将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的特异性将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的特异性将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性将患者的肺结节分类为恶性肺结节或良性肺结节。[0071]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值推断数据集是指示恶性肺结节还是良性肺结节。所述方法可以以约80%至约100%的阳性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阳性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阳性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。[0072]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值推断数据集是指示恶性肺结节还是良性肺结节。所述方法可以以约80%至约100%的阴性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阴性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阴性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。[0073]机器学习模型(例如步骤b’的机器学习模型)可以以auc为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或大于约0.99的接受者操作特征(roc)曲线推断数据集是指示恶性肺结节还是良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以auc为约0.8至约1的roc曲线推断数据集是指示恶性肺结节还是良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以auc为约0.8至约0.85、约0.8至约0.9、约0.8至约0.92、约0.8至约0.94、约0.8至约0.95、约0.8至约0.96、约0.8至约0.97、约0.8至约0.98、约0.8至约0.99、约0.8至约0.995、约0.8至约1、约0.85至约0.9、约0.85至约0.92、约0.85至约0.94、约0.85至约0.95、约0.85至约0.96、约0.85至约0.97、约0.85至约0.98、约0.85至约0.99、约0.85至约0.995、约0.85至约1、约0.9至约0.92、约0.9至约0.94、约0.9至约0.95、约0.9至约0.96、约0.9至约0.97、约0.9至约0.98、约0.9至约0.99、约0.9至约0.995、约0.9至约1、约0.92至约0.94、约0.92至约0.95、约0.92至约0.96、约0.92至约0.97、约0.92至约0.98、约0.92至约0.99、约0.92至约0.995、约0.92至约1、约0.94至约0.95、约0.94至约0.96、约0.94至约0.97、约0.94至约0.98、约0.94至约0.99、约0.94至约0.995、约0.94至约1、约0.95至约0.96、约0.95至约0.97、约0.95至约0.98、约0.95至约0.99、约0.95至约0.995、约0.95至约1、约0.96至约0.97、约0.96至约0.98、约0.96至约0.99、约0.96至约0.995、约0.96至约1、约0.97至约0.98、约0.97至约0.99、约0.97至约0.995、约0.97至约1、约0.98至约0.99、约0.98至约0.995、约0.98至约1、约0.99至约0.995、约0.99至约1或约0.995至约1的roc曲线推断数据集是指示恶性肺结节还是良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以auc为约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线推断数据集是指示恶性肺结节还是良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以auc为至少约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99或约0.995的roc曲线推断数据集是指示恶性肺结节还是良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以auc为至多约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线推断数据集是指示恶性肺结节还是良性肺结节。[0074]来自机器学习模型的推断结果可包括,结节是恶性的置信度值为0至1,例如0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或1(或者其之间的任何值或范围)。较高的置信度值可能与结节是恶性的较高可能性相关。恶性结节的特征可以是能够转移或侵袭性生长,这可能与良性结节相反。[0075]在一些实施方案中,患者患有肺癌。在一些实施方案中,患者不患有肺癌。在一些实施方案中,患者被怀疑患有肺癌。在一些实施方案中,患者处于患有肺癌的升高风险中。在一些实施方案中,患者没有针对肺癌的症状。[0076]在某些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节或良性肺结节任选地进行患者的肺结节的活检。在某些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节任选地进行患者的肺结节的活检。在一些实施方案中,进行活检。在一些实施方案中,不进行活检。鉴于将患者的肺结节分类为恶性肺结节或良性肺结节,可以由本领域技术人员基于知识和经验做出进行活检的决定。进行活检的决定可部分地取决于推断结果的置信度值。在一些实施方案中,所述方法还包括至少部分地基于将患者的肺结节分类为恶性肺结节或良性肺结节来对患者施用治疗。在一些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节来对患者施用治疗。在一些实施方案中,治疗被配置成治疗患者的肺癌。在一些实施方案中,治疗被配置成降低患者的肺癌的严重性。在一些实施方案中,治疗被配置成降低患者患有肺癌的风险。治疗可包括对肺癌的一种或更多种治疗。在一些实施方案中,治疗是手术、化学治疗、靶向治疗、免疫治疗、放射治疗、或其任意组合。[0077]通过将数据集与参考数据集进行比较,经训练机器学习模型(例如步骤b’的经训练机器学习模型)可生成数据集是指示恶性肺结节还是良性肺结节的推断结果。可以使用参考数据集来训练机器学习模型。在一些实施方案中,参考数据集包含:来自患有肺结节的多个参考对象的多个参考生物样品的多种基因的基因表达测量值;关于参考对象的肺结节是良性的还是恶性的数据;以及任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。多个参考对象的第一部分可以患有良性肺结节,并且多个参考对象的第二部分可以患有恶性肺结节。在一些实施方案中,参考数据集包含多个个体参考数据集。多个个体参考数据集的相应个体参考数据集可包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。可以从多个参考对象获得多个个体参考数据集。在一些实施方案中,从不同的参考对象获得不同的个体参考数据集。在一些实施方案中,每个个体参考数据集包含:i)来自一个参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于这一个参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,这一个参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中不同的个体参考数据集是从不同的参考对象获得的。在某些实施方案中,在训练机器学习模型期间进行过采样或欠采样校正。例如,如果参考数据集包含较多数目的被确定为良性的样品和相对较少数目的被确定为恶性的样品,则可对恶性样品进行过采样以产生具有相等数目的良性样品和恶性样品的数据集。参考数据集的多种基因可以包含选自表1、2、3、4、5、7和8的任一个或更多个所列基因的组中的至少2种基因。在一些实施方案中,参考数据集的多种基因包含选自表1所列基因的组中的至少[0078]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0079](或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表2所列基因的组中的至少[0080]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0081](或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表3所列基因的组中的至少[0082]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0083](或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表4所列基因的组中的至少[0084]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0085](或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表5所列基因的组中的至少[0086]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0087](或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因。在一些实施方案中,参考数据集的多种基因包含选自表8所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种基因。在一些实施方案中,参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,参考数据集的一种或更多种临床特征包含结节的尺寸。在一些实施方案中,参考数据集的一种或更多种临床特征包含患者的年龄。在一些实施方案中,参考数据集的一种或更多种临床特征包含肺上叶中结节的存在。在一些实施方案中,参考数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,参考数据集的多种基因包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因,并且参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,参考数据集的多种基因包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因,并且参考数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,参考数据集的多种基因包括/包含表7所列的31种基因,并且参考数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,参考数据集的多种基因由表7所列的31种基因组成,并且参考数据集的一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。数据集的基因和参考数据集的基因可以至少部分重叠,和/或数据集的任选临床特征和参考数据集的任选临床特征可以至少部分重叠。在一些实施方案中,参考生物样品是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液或其任何衍生物。在一些实施方案中,参考生物样品是血液样品或其任何衍生物。在一些实施方案中,参考生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,参考生物样品是肺活检样品或其任何衍生物。在一些实施方案中,参考生物样品是鼻液样品或其任何衍生物。在一些实施方案中,参考生物样品是唾液样品或其任何衍生物。参考对象可以是人。[0088]基因表达数据可通过选自以下组的数据分析工具获得:big-ctm大数据分析工具、i-scopetm大数据分析工具、t-scopetm大数据分析工具、cellscan大数据分析工具、ms(分子特征)scoringtm分析工具和基因集变异分析(gsva)工具(例如,p-scope)。[0089]在一些实施方案中,经训练机器学习模型(例如步骤b’的经训练机器学习模型)是有监督机器学习算法或无监督机器学习算法。在一些实施方案中,经训练机器学习模型是使用线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)及其任意组合训练的。在一些实施方案中,经训练机器学习模型是使用log来训练的。在一些实施方案中,经训练机器学习模型是使用岭回归来训练的。在一些实施方案中,经训练机器学习模型是使用lasso回归来训练的。在一些实施方案中,经训练机器学习模型是使用glm来训练的。在一些实施方案中,经训练机器学习模型是使用knn来训练的。在一些实施方案中,经训练机器学习模型是使用svm来训练的。在一些实施方案中,经训练机器学习模型是使用gbm来训练的。在一些实施方案中,经训练机器学习模型是使用rf来训练的。在一些实施方案中,经训练机器学习模型是使用nb来训练的。在一些实施方案中,经训练机器学习模型是使用en回归来训练的。在一些实施方案中,经训练机器学习模型是使用神经网络来训练的。在一些实施方案中,经训练机器学习模型是使用深度学习算法来训练的。在一些实施方案中,经训练机器学习模型是使用lda来训练的。在一些实施方案中,经训练机器学习模型是使用dtree来训练的。在一些实施方案中,经训练机器学习模型是使用adb来训练的。[0090]在一些实施方案中,所述方法包括确定将患者的肺结节分类为恶性肺结节或良性肺结节的可能性。在一些实施方案中,可能性为约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或约100%。在一些实施方案中,可能性为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%。[0091]在一些实施方案中,所述方法还包括监测患者的肺结节,其中监测包括在多个时间点处评估患者的肺结节。在一些实施方案中,在多个时间点之间的患者的肺结节评估的差异指示选自以下的一种或更多种临床指征:(i)患者的肺结节的诊断,(ii)患者的肺结节的预后,以及(iii)用于治疗患者的肺结节的治疗过程有效力或无效力。在一些实施方案中,多个时间点包含至少[0092]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,或50个不同的时间点。[0093]在另一个方面中,本公开内容提供了用于确定能够分类良性或恶性肺结节的基因集的方法。来自对象的生物样品(例如血液)的基因集的一种或更多种基因的基因表达测量值可用于在不进行结节的活检情况下对对象的良性或恶性肺结节进行分类。在一些实施方案中,进行结节的活检以确认和/或追踪通过使用基因表达测量数据获得的分类结果。在一些实施方案中,不进行结节的活检。所述方法可以包括步骤a”、b”、c”和d”中的任一个、其任意组合或全部。在步骤a”中,可获得和/或提供参考数据集。参考数据集可包含多个个体参考数据集。多个个体参考数据集的相应个体参考数据集可包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。可以从多个参考对象获得多个个体参考数据集。在一些实施方案中,从不同的参考对象获得不同的个体参考数据集。在一些实施方案中,每个个体参考数据集包含:i)来自一个参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于这一个参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,这一个参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中不同的个体参考数据集是从不同的参考对象获得的。多个参考对象的第一部分可患有良性肺结节,并且多个参考对象的第二部分可患有恶性肺结节。参考数据集可包含:来自患有肺结节的多个参考对象的多个参考生物样品的多种基因的基因表达测量值;关于参考对象的肺结节是良性的还是恶性的数据;以及任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在步骤b”中,可以使用参考数据集训练机器学习模型以至少部分地基于选自以下的一种或更多种预测因子来推断肺结节是良性的还是恶性:i)多种基因,以及ii)任选地一种或更多种临床特征。经训练机器学习模型可以至少部分地基于来自对象的生物样品的多种基因的基因表达测量值,以及任选地对象的一种或更多种临床特征的临床特征数据,来推断来自对象的肺结节是良性的还是恶性的。在一些实施方案中,可以使用包含参考数据集的第一部分的训练数据集和包含参考数据集的第二部分的验证数据集来训练机器学习模型。在某些实施方案中,在训练机器学习模型期间进行过采样或欠采样校正。例如,如果数据集包含较多数目的被确定为良性的样品和相对较少数目的被确定为恶性的样品,则可对恶性样品进行过采样以产生具有相等数目的良性样品和恶性样品的数据集。在步骤c”中,可以确定多种基因的特征重要性值。在步骤d”中,可以选择基因集。在一些实施方案中,基因集被选择作为用于训练机器学习模型的预测因子。可以至少部分地基于特征重要性值来选择基因集。在一些实施方案中,基因集的基因的特征重要性值在多种基因的前[0094]3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,210,220,230,240,或250[0095](或者其之间的任何值或范围)个特征重要性值内。在一些实施方案中,基因集的基因的特征重要性具有大于30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%或90%的准确度。在一些实施方案中,基因集的基因的特征重要性具有大于30、35、40、45、50、55、60、65、70、75、80或90的阈值重要性。在某些实施方案中,机器学习模型的前[0096]3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,210,220,230,240,或250[0097](或者其之间的任何值或范围)种预测因子包含基因集的基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表9所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表1所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表2所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表3所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表4所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表5所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表9所列基因的组中的至少[0098]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,300,400,500,600,700,800,900,1000,1100或1178[0099](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表1所列基因的组中的至少[0100]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0101](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表2所列基因的组中的至少[0102]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0103](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表3所列基因的组中的至少[0104]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0105](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表4所列基因的组中的至少[0106]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295(或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表5所列基因的组中的至少[0107]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0108](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表1、2、3、4、5和9的任一个或更多个所列基因的组中的至少2种基因,并且步骤a”的参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,从参考数据集去除具有有相关系数(例如,在一些非限制性方面中》0.7至》0.9)的共线表达的基因。共线基因表达可以通过任何合适的技术(例如皮尔逊相关系数(pearsoncorrelationcoefficient))测量。虽然已经描述了确定多种基因的特征重要性值,但这仅是可以实践技术的一个非限制性说明性实例。在多个实施方案中,使用一种或更多种特征选择技术来确定可以分类良性或恶性肺结节的基因集。特征选择技术可以包括最小绝对收缩与选择算子(leastabsoluteshrinkageandselectionoperator,lasso)回归、支持向量机(svm)、正则化树(regularizedtrees)、决策树、模因算法、随机多项式逻辑(randommultinomiallogit,rmnl)、自编码网络、子模特征选择、递归特征消除、或其任意组合。在这些情况中的一些中,不需要计算表9中的每种基因的特征重要性值。参考生物样品可以是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液样品、唾液样品或其任何衍生物。在一些实施方案中,参考生物样品是血液样品或其任何衍生物。在一些实施方案中,参考生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,参考生物样品是肺活检样品或其任何衍生物。在一些实施方案中,参考生物样品是鼻液样品或其任何衍生物。在一些实施方案中,参考生物样品是唾液样品或其任何衍生物。[0109]机器学习模型(例如步骤b”的机器学习模型)可使用有监督机器学习算法或无监督机器学习算法来训练。在一些实施方案中,机器学习模型(例如步骤b”的机器学习模型)是使用线性回归、逻辑回归、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)或其任意组合训练的。在一些实施方案中,使用逻辑回归来训练机器学习模型。在一些实施方案中,使用岭回归来训练机器学习模型。在一些实施方案中,使用lasso回归来训练机器学习模型。在一些实施方案中,使用glm来训练机器学习模型。在一些实施方案中,使用knn来训练机器学习模型。在一些实施方案中,使用svm来训练机器学习模型。在一些实施方案中,使用gbm来训练机器学习模型。在一些实施方案中,使用rf来训练机器学习模型。在一些实施方案中,使用nb来训练机器学习模型。在一些实施方案中,使用en回归来训练机器学习模型。在一些实施方案中,使用神经网络来训练机器学习模型。在一些实施方案中,使用深度学习算法来训练机器学习模型。在一些实施方案中,使用lda来训练机器学习模型。在一些实施方案中,使用dtree来训练机器学习模型。在一些实施方案中,使用adb来训练机器学习模型。[0110]基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约100%的准确度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的准确度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的准确度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约100%的灵敏度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的灵敏度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的灵敏度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约100%的特异性将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的特异性将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的特异性将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约100%的阳性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阳性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阳性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约100%的阴性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阴性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阴性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值将肺结节分类为恶性肺结节或良性肺结节。[0111]在另一个方面中,本公开内容提供了用于开发能够推断患者的肺结节是良性的还是恶性的经训练机器学习模型的方法。所述方法可包括步骤a’”、b”’、c”’、d’”和e”’中的任一个、其任意组合或全部。步骤a’”可包括获得和/或提供第一参考数据集。第一参考数据集可以包含多个第一个体参考数据集。多个第一个体参考数据集的相应第一个体参考数据集可以包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。可以从多个参考对象获得多个第一个体参考数据集。在一些实施方案中,从不同的参考对象获得不同的第一个体参考数据集。在一些实施方案中,每个第一个体参考数据集包含:i)来自一个参考对象的参考生物样品的多种基因的基因表达测量值,iii)关于这一个参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,这一个参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中不同的第一个体参考数据集是从不同的参考对象获得的。多个参考对象的第一部分可患有良性肺结节,并且多个参考对象的第二部分可患有恶性肺结节。第一参考数据集可包含来自患有肺结节的多个参考对象的多个参考生物样品的多种基因的基因表达测量值;关于参考对象的肺结节是良性的还是恶性的数据;以及任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在步骤b”’中,可以使用第一参考数据集训练第一机器学习模型,以至少部分地基于选自以下的一种或更多种预测因子来推断肺结节是良性的还是恶性的:i)多种基因,以及ii)任选地一种或更多种临床特征。可以训练第一机器学习模型以至少部分地基于i)来自对象的生物样品的多种基因的基因表达测量值,以及ii)任选地对象的一种或更多种临床特征的临床特征数据来推断来自对象的肺结节是良性的还是恶性的。在一些实施方案中,使用包含第一参考数据集的第一部分的训练数据集和包含第一参考数据集的第二部分的验证数据集来训练第一机器学习模型。在步骤c”’中,可以确定第一机器学习模型的一种或更多种预测因子的特征重要性值。在步骤d’”中,可以至少部分地基于特征重要性值选择第一机器学习模型的a种预测因子,其中a可以是3至2000的整数,例如[0112]3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,210,220,230,240,250,300,400,500,600,700,800,900,1000,1100,1200,1300,1400,1500,1600,1700,1800,1900,或2000[0113](或者其中的任何整数值或范围)。在某些实施方案中,选择第一机器学习模型的[0114]3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,210,220,230,240,或250[0115](或者其之间的任何值或范围)种预测因子。在一些实施方案中,a种预测因子具有前a个特征重要性值,例如在一个非限制性方面中,a是10,并且选择具有10个最高特征重要性值的10种预测因子。在一些实施方案中,预测因子的特征重要性具有大于30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%或90%的准确度。在一些实施方案中,a种预测因子的特征重要性可具有大于30、35、40、45、50、55、60、65、70、75、80或90的阈值重要性。a种预测因子可包含一种或更多种基因,和/或任选地一种或更多种临床特征。虽然已经描述了确定一种或更多种预测因子的特征重要性值,但这仅是可以实践技术的一个非限制性说明性实例。在多个实施方案中,使用一种或更多种特征选择技术来确定a种预测因子。特征选择技术可包括最小绝对收缩与选择算子(lasso)回归、支持向量机(svm)、正则化树、决策树、模因算法、随机多项式逻辑(rmnl)、自编码网络、子模特征选择、递归特征消除、或其任意组合。在这些情况中的一些中,在步骤c”’中,不需要计算第一机器学习模型的每种预测因子的特征重要性值。步骤e”’可包括至少部分地基于第二参考数据集来训练第二机器学习模型,以获得经训练机器学习模型。经训练机器学习模型可以至少部分地基于对象的a种预测因子的测量数据来推断对象的肺结节是良性的还是恶性的。第二参考数据集可包含多个第二个体参考数据集。多个第二个体参考数据集的相应第二个体参考数据集可包含:i)参考对象的a种预测因子的测量数据,和ii)关于参考对象的肺结节是良性的还是恶性的数据。a种预测因子的测量数据可包含参考生物样品的a种预测因子的一种或更多种基因预测因子的基因表达测量值,和/或任选地a种预测因子的任选一种或更多种临床特征预测因子的临床特征数据。可以从多个参考对象获得多个第二个体参考数据集。在一些实施方案中,从不同的参考对象获得不同的第二个体参考数据集。在一些实施方案中,每个第二个体参考数据集包含:i)一个参考对象的a种预测因子的测量数据,和ii)关于这一个参考对象的肺结节是良性的还是恶性的数据,其中不同的第二个体参考数据集是从不同的参考对象获得的。在某些实施方案中,在训练第一和/或第二机器学习模型期间进行过采样或欠采样校正。第二参考数据集可包含来自多个参考对象的a种预测因子的测量数据,以及关于参考对象的肺结节是良性的还是恶性的数据。在一些实施方案中,第一参考数据集的多种基因包含选自表9所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表9所列基因的组中的至少[0116]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,300,400,500,600,700,800,900,1000,1100或1178[0117](或者其之间任何值或范围)种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表1所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表2所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表3所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表4所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表5所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,第一参考数据集的多种基因包含选自表1、2、3、4、5或9的任一个或更多个所列基因的组中的至少2种基因,并且第一参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,从参考数据集去除具有有相关系数(例如,在一些非限制性方面中》0.7至》0.9)的共线表达的基因。共线基因表达可以通过任何合适的技术(例如皮尔逊相关系数)测量。在一些实施方案中,a种预测因子包含选自表1所列基因的组中的至少[0118]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0119](或者其之间任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表2所列基因的组中的至少[0120]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0121](或者其之间任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表3所列基因的组中的至少[0122]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0123](或者其之间任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表4所列基因的组中的至少[0124]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0125](或者其之间任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表5所列基因的组中的至少[0126]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0127](或者其之间任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表8所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种基因作为预测因子。在一些实施方案中,a种预测因子包含:i)选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少2种基因,以及ii)任选地,结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合作为预测因子。在一些实施方案中,a种预测因子可包含选自表7所列组的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33或34种预测因子。在一些实施方案中,a种预测因子包含表7所列的34种预测因子。在一些实施方案中,a种预测因子由表7所列的34种预测因子组成。[0128]在一些实施方案中,参考生物样品是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液或其任何衍生物。在一些实施方案中,参考生物样品是血液样品或其任何衍生物。在一些实施方案中,参考生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,参考生物样品是肺活检样品或其任何衍生物。在一些实施方案中,参考生物样品是鼻液样品或其任何衍生物。在一些实施方案中,参考生物样品是唾液样品或其任何衍生物。经训练机器学习模型(例如在步骤e”’中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e”’中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以曲线下面积(auc)为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或大于约0.99的接受者操作特征(roc)曲线推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%至约100%的准确度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的准确度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的准确度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%至约100%的灵敏度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的灵敏度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的灵敏度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%至约100%的阳性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阳性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阳性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%至约100%的阴性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阴性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阴性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以auc为约0.8至约1的roc曲线推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以auc为约0.8至约0.85、约0.8至约0.9、约0.8至约0.92、约0.8至约0.94、约0.8至约0.95、约0.8至约0.96、约0.8至约0.97、约0.8至约0.98、约0.8至约0.99、约0.8至约0.995、约0.8至约1、约0.85至约0.9、约0.85至约0.92、约0.85至约0.94、约0.85至约0.95、约0.85至约0.96、约0.85至约0.97、约0.85至约0.98、约0.85至约0.99、约0.85至约0.995、约0.85至约1、约0.9至约0.92、约0.9至约0.94、约0.9至约0.95、约0.9至约0.96、约0.9至约0.97、约0.9至约0.98、约0.9至约0.99、约0.9至约0.995、约0.9至约1、约0.92至约0.94、约0.92至约0.95、约0.92至约0.96、约0.92至约0.97、约0.92至约0.98、约0.92至约0.99、约0.92至约0.995、约0.92至约1、约0.94至约0.95、约0.94至约0.96、约0.94至约0.97、约0.94至约0.98、约0.94至约0.99、约0.94至约0.995、约0.94至约1、约0.95至约0.96、约0.95至约0.97、约0.95至约0.98、约0.95至约0.99、约0.95至约0.995、约0.95至约1、约0.96至约0.97、约0.96至约0.98、约0.96至约0.99、约0.96至约0.995、约0.96至约1、约0.97至约0.98、约0.97至约0.99、约0.97至约0.995、约0.97至约1、约0.98至约0.99、约0.98至约0.995、约0.98至约1、约0.99至约0.995、约0.99至约1或约0.995至约1的roc曲线推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以auc为约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以auc为至少约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99或约0.995的roc曲线推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以auc为至多约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线推断肺结节是良性的还是恶性的。[0129]基因表达数据可通过选自以下组的数据分析工具获得:big-ctm大数据分析工具、i-scopetm大数据分析工具、t-scopetm大数据分析工具、cellscan大数据分析工具、ms(分子特征)scoringtm分析工具和基因集变异分析(gsva)工具(例如,p-scope)。[0130]在一些实施方案中,经训练机器学习模型是有监督机器学习算法或无监督机器学习算法。在一些实施方案中,使用以下独立地训练第一和/或第二机器学习模型:线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)或其任意组合。在一些实施方案中,使用log独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用岭回归独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用lasso回归独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用glm独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用knn独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用svm独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用gbm独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用rf独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用nb独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用en回归独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用神经网络独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用深度学习算法独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用lda独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用dtree独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用adb独立地训练第一和/或第二机器学习模型。[0131]在一个方面中,本公开内容提供了用于在患者中治疗肺癌的方法。在一些实施方案中,患者患有肺结节。所述方法可以包括步骤a””、b””、c””和d””中的任一个、其任意组合或全部。步骤a””可包括获得数据集,所述数据集包含:i)来自患者的生物样品的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。基因表达测量值可以通过测定生物样品来获得。步骤b””可包括提供数据集作为机器学习模型的输入,该机器学习模型经训练以生成数据集是指示患者患有肺癌还是不患有肺癌的推断结果。在一些实施方案中,该推断结果推断了数据集是指示患者的肺结节是恶性的还是良性的。步骤c””可包括接收表明数据集是指示患者患有肺癌还是不患有肺癌的推断结果作为机器学习模型的输出。在一些实施方案中,接收作为输出的推断结果指示患者的肺结节是恶性肺结节还是良性肺结节。步骤d””可包括基于确定患者患有肺癌来施用治疗。在一些实施方案中,基于患者的肺结节被分类为恶性结节来施用治疗。[0132]步骤a””的数据集可包含:i)来自患者的生物样品的至少两种肺病相关基因的基因表达测量值,所述至少两种肺病相关基因选自表1、2、3、4、5、7和8中的任一个或更多个中列出之基因的组的基因,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表1所列基因的组中的至少[0133]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0134](或者其之间任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表2所列基因的组中的至少[0135]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0136](或者其之间任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表3所列基因的组中的至少[0137]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0138](或者其之间任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表4所列基因的组中的至少[0139]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0140](或者其之间任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表5所列基因的组中的至少[0141]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0142](或者其之间任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因选自[0143]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。[0144]在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表8所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种基因。在一些实施方案中,步骤a””的至少两种肺病相关基因选自[0145]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。在一些实施方案中,步骤a””的数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,步骤a””的数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤a””的数据集包含:i)患者的选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因的基因表达测量值,和ii)患者的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,步骤a””的数据集包含:i)选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因的基因表达测量值,和ii)患者的选自结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合的临床特征的临床特征数据。在一些实施方案中,步骤a””的至少两种肺病相关基因包含表7所列的31种基因,并且步骤a””的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,步骤a””的至少两种肺病相关基因由表7所列的31种基因组成,并且步骤a””的一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。[0146]来自机器学习模型的推断结果可包括,结节是恶性的置信度值为0至1,例如0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或1(或者其之间的任何值或范围),其中较高的置信度值可能与结节是恶性的较高可能性相关。在一些实施方案中,生物样品是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液或其任何衍生物。在一些实施方案中,生物样品是血液样品或其任何衍生物。在一些实施方案中,生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,生物样品是肺活检样品或其任何衍生物。在一些实施方案中,生物样品是鼻液样品或其任何衍生物。在一些实施方案中,生物样品是唾液样品或其任何衍生物。在某些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节或良性肺结节,任选地进行患者的肺结节的活检。在某些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节,任选地进行患者的肺结节的活检。进行活检的决定可取决于推断结果的置信度值。机器学习模型(例如步骤b””的机器学习模型)可生成数据集是指示患者患有恶性肺结节还是良性肺结节的推断结果,其中患者患有恶性肺结节可指示患者患有肺癌,并且患者患有良性肺结节可指示患者不患有肺癌。在某些实施方案中,不进行患者的肺结节的活检。步骤b””的机器学习模型可根据本文中所述的方法,例如根据训练步骤b’的机器学习模型的方法进行训练。[0147]步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度推断数据集是指示患者患有肺癌还是不患有肺癌。在一些实施方案中,步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度推断数据集是指示患者患有肺癌还是不患有肺癌。在一些实施方案中,步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性推断数据集是指示患者患有肺癌还是不患有肺癌。在一些实施方案中,步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。在一些实施方案中,步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。在一些实施方案中,步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以曲线下面积(auc)为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或大于约0.99的接受者操作特征(roc)曲线推断数据集是指示患者患有肺癌还是不患有肺癌。在一些实施方案中,步骤b””的机器学习模型可以以曲线下面积(auc)为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或大于约0.99的接受者操作特征(roc)曲线推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约100%的准确度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的准确度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的准确度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%至约100%的灵敏度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的灵敏度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的灵敏度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%至约100%的特异性推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的特异性推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的特异性推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%至约100%的阳性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阳性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阳性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%至约100%的阴性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阴性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阴性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以auc为约0.8至约1的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以auc为约0.8至约0.85、约0.8至约0.9、约0.8至约0.92、约0.8至约0.94、约0.8至约0.95、约0.8至约0.96、约0.8至约0.97、约0.8至约0.98、约0.8至约0.99、约0.8至约0.995、约0.8至约1、约0.85至约0.9、约0.85至约0.92、约0.85至约0.94、约0.85至约0.95、约0.85至约0.96、约0.85至约0.97、约0.85至约0.98、约0.85至约0.99、约0.85至约0.995、约0.85至约1、约0.9至约0.92、约0.9至约0.94、约0.9至约0.95、约0.9至约0.96、约0.9至约0.97、约0.9至约0.98、约0.9至约0.99、约0.9至约0.995、约0.9至约1、约0.92至约0.94、约0.92至约0.95、约0.92至约0.96、约0.92至约0.97、约0.92至约0.98、约0.92至约0.99、约0.92至约0.995、约0.92至约1、约0.94至约0.95、约0.94至约0.96、约0.94至约0.97、约0.94至约0.98、约0.94至约0.99、约0.94至约0.995、约0.94至约1、约0.95至约0.96、约0.95至约0.97、约0.95至约0.98、约0.95至约0.99、约0.95至约0.995、约0.95至约1、约0.96至约0.97、约0.96至约0.98、约0.96至约0.99、约0.96至约0.995、约0.96至约1、约0.97至约0.98、约0.97至约0.99、约0.97至约0.995、约0.97至约1、约0.98至约0.99、约0.98至约0.995、约0.98至约1、约0.99至约0.995、约0.99至约1或约0.995至约1的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以auc为约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以auc为至少约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99或约0.995的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。步骤b””的机器学习模型可以以auc为至多约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。[0148]在一些实施方案中,治疗被配置成治疗患者的肺癌。在一些实施方案中,治疗被配置成降低患者肺癌的严重性。在一些实施方案中,治疗被配置成降低患者患有肺癌的风险。治疗可包括对肺癌的一种或更多种治疗。在一些实施方案中,治疗是手术、化学治疗、靶向治疗、免疫治疗、放射治疗、或其任意组合。[0149]在一个方面中,本公开内容提供了用于评估患者的肺结节以进行活检的方法。所述方法可包括步骤w、x、y和z中的任一个、其任意组合或全部。步骤w可包括获得数据集,所述数据集包含:i)来自患者的生物样品的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。基因表达测量值可通过测定生物样品来获得。步骤x可包括提供数据集作为机器学习模型的输入,该机器学习模型经训练以生成数据集是指示恶性肺结节还是良性肺结节的推断结果。步骤y可包括接收表明数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出。步骤z可包括基于肺结节的机器学习分类来进行肺结节的活检。在一些实施方案中,步骤z可包括基于将肺结节分类为恶性结节或良性结节来进行肺结节的活检。在一些实施方案中,步骤z可包括基于将肺结节分类为恶性结节来进行肺结节的活检。进行活检的决定可取决于推断结果的置信度值。在某些实施方案中,不进行患者的肺结节的活检。在一些实施方案中,步骤w的数据集包含:i)生物样品的选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表1所列基因的组中的至少[0150]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0151](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表2所列基因的组中的至少[0152]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0153](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表3所列基因的组中的至少[0154]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0155](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表4所列基因的组中的至少[0156]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0157](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表5所列基因的组中的至少[0158]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0159](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因。在一些实施方案中,步骤w的至少两种肺病相关基因选自[0160]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。[0161]在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表8所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种基因。在一些实施方案中,步骤w的至少两种肺病相关基因选自[0162]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0163]在一些实施方案中,步骤w的数据集的一种或更多种临床特征包含患者的选自表6所列组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,步骤w的数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤w的数据集包含:i)选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,步骤w的数据集包含:i)选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)选自结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合的临床特征的临床特征数据。在一些实施方案中,步骤w的至少两种肺病相关基因包含表7所列的31种基因,并且步骤w的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,步骤w的至少两种肺病相关基因由表7所列的31种基因组成,并且步骤w的一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。[0164]在一些实施方案中,生物样品是血液样品、分离的外周血单个核细胞(pbm)、肺活检样品、鼻液、唾液或其任何衍生物。在一些实施方案中,生物样品是血液样品或其任何衍生物。在一些实施方案中,生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,生物样品是肺活检样品或其任何衍生物。在一些实施方案中,生物样品是鼻液样品或其任何衍生物。在一些实施方案中,生物样品是唾液样品或其任何衍生物。[0165]机器学习模型(例如步骤x的机器学习模型)可根据本文中所述的方法,例如根据训练步骤b’的机器学习模型的方法进行训练。[0166]某些方面涉及用于在患者中确定肺癌的方法。所述方法可包括步骤w’、x’、y’和z’中的任一个、其任意组合或全部。步骤w’可包括获得数据集,所述数据集包含:i)来自患者的生物样品的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。基因表达测量值可通过测定生物样品来获得。步骤x’可包括提供数据集作为机器学习模型的输入,该机器学习模型经训练以生成数据集是指示患者患有肺癌还是不患有肺癌的推断结果。步骤y’可包括接收表明数据集是指示患者患有肺癌还是不患有肺癌的推断结果作为机器学习模型的输出。步骤z’可包括电子地输出表明患者患有肺癌或不患有肺癌的报告。生物样品的基因表达测量可使用任何合适的技术进行,例如任何合适的rna定量技术,包括但不限于rna-seq、ampli-seq等。在一些实施方案中,步骤w’的数据集包含:i)生物样品的选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。[0167]在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表1所列基因的组中的至少[0168]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0169](或者其之间任何值或范围)种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表2所列基因的组中的至少[0170]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0171](或者其之间任何值或范围)种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表3所列基因的组中的至少[0172]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0173](或者其之间任何值或范围)种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表4所列基因的组中的至少[0174]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0175](或者其之间任何值或范围)种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表5所列基因的组中的至少[0176]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0177](或者其之间任何值或范围)种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种基因。在一些实施方案中,步骤w’的至少两种肺病相关基因选自[0178]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。[0179]在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表8所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种基因。在一些实施方案中,步骤w的至少两种肺病相关基因选自[0180]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0181]在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含选自表6所列组中的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含结节的尺寸。在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含患者的年龄。在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含肺上叶中结节的存在。在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤w’的数据集包含:i)选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)患者的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,步骤w’的数据集包含:i)生物样品的选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)患者的选自结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合的临床特征的临床特征数据。在一些实施方案中,步骤w’的至少两种肺病相关基因包含表7所列的31种基因,并且步骤w’的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,步骤w’的至少两种肺病相关基因由表7所列的31种基因组成,并且步骤w’的一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。[0182]在一些实施方案中,生物样品选自以下组:血液样品、分离的外周血单个核细胞(pbm)、肺活检样品、鼻液、唾液或其任何衍生物。在一些实施方案中,生物样品是血液样品或其任何衍生物。在一些实施方案中,生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,生物样品是肺活检样品或其任何衍生物。在一些实施方案中,生物样品是鼻液样品或其任何衍生物。在一些实施方案中,生物样品是唾液样品或其任何衍生物。[0183]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值确定患者患有肺癌还是不患有肺癌。机器学习模型(例如步骤x’的机器学习模型)可以以auc为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或大于约0.99的接受者操作特征(roc)曲线推断数据集是指示患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约100%的准确度确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的准确度确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的准确度确定患者患有肺癌还是不患有肺癌。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的准确度确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约100%的灵敏度确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的灵敏度确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的灵敏度确定患者患有肺癌还是不患有肺癌。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约100%的特异性确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的特异性确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的特异性确定患者患有肺癌还是不患有肺癌。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的特异性确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约100%的阳性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阳性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阳性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阳性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约100%的阴性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%或约99.5%至约100%的阴性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%或约99.5%的阴性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的阴性预测值确定患者患有肺癌还是不患有肺癌。步骤x’的机器学习模型可以以auc为约0.8至约1的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。步骤x’的机器学习模型可以以auc为约0.8至约0.85、约0.8至约0.9、约0.8至约0.92、约0.8至约0.94、约0.8至约0.95、约0.8至约0.96、约0.8至约0.97、约0.8至约0.98、约0.8至约0.99、约0.8至约0.995、约0.8至约1、约0.85至约0.9、约0.85至约0.92、约0.85至约0.94、约0.85至约0.95、约0.85至约0.96、约0.85至约0.97、约0.85至约0.98、约0.85至约0.99、约0.85至约0.995、约0.85至约1、约0.9至约0.92、约0.9至约0.94、约0.9至约0.95、约0.9至约0.96、约0.9至约0.97、约0.9至约0.98、约0.9至约0.99、约0.9至约0.995、约0.9至约1、约0.92至约0.94、约0.92至约0.95、约0.92至约0.96、约0.92至约0.97、约0.92至约0.98、约0.92至约0.99、约0.92至约0.995、约0.92至约1、约0.94至约0.95、约0.94至约0.96、约0.94至约0.97、约0.94至约0.98、约0.94至约0.99、约0.94至约0.995、约0.94至约1、约0.95至约0.96、约0.95至约0.97、约0.95至约0.98、约0.95至约0.99、约0.95至约0.995、约0.95至约1、约0.96至约0.97、约0.96至约0.98、约0.96至约0.99、约0.96至约0.995、约0.96至约1、约0.97至约0.98、约0.97至约0.99、约0.97至约0.995、约0.97至约1、约0.98至约0.99、约0.98至约0.995、约0.98至约1、约0.99至约0.995、约0.99至约1或约0.995至约1的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。步骤x’的机器学习模型可以以auc为约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。步骤x’的机器学习模型可以以auc为至少约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99或约0.995的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。步骤x’的机器学习模型可以以auc为至多约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995或约1的roc曲线推断数据集是指示患者患有肺癌还是不患有肺癌。[0184]来自机器学习模型的推断结果可包括,患者患有肺癌的置信度值为0至1,例如0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或1(或者其之间的任何值或范围)。较高的置信度值可能与患者患有肺癌的较高可能性相关。[0185]机器学习模型(例如步骤x’的机器学习模型)可生成数据集是指示患者患有恶性肺结节还是良性肺结节的推断结果,其中患者患有恶性肺结节可指示患者患有肺癌,并且患者患有良性肺结节可指示患者不患有肺癌。机器学习模型可以根据本文中所述的方法,例如根据训练步骤b’的机器学习模型的方法进行训练。[0186]在另一个方面中,本公开内容提供了用于评估对象的肺结节的计算机系统,其包含:数据库或被配置成存储数据集的另外的合适的数据存储系统;以及与所述数据库有效连接的一个或更多个计算机处理器,其中所述一个或更多个计算机处理器被单独地或共同地编程从而:(i)分析数据集以将对象的肺结节分类为恶性肺结节或良性肺结节;(ii)电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。如本文中所述的计算机实施的方法可以在计算机系统(例如上述的那些)上执行。例如,计算机系统可包含一个或更多个处理器和共同存储计算机可读可执行指令的一个或更多个存储单元,作为执行所述计算机可读可执行指令的结果,使得一个或更多个处理器共同进行上述编程步骤。本文中所述的计算机系统可包含与个人计算机通信连接的测定设备。数据集可以是本文中所述的数据集。在一些实施方案中,数据集包含a)基因表达数据,其中所述基因表达数据是通过测定从对象获得或来源于对象的生物样品以产生生物样品的来自多个肺病相关基因组基因座的每个基因座的基因表达测量值来获得的,其中多个疾病相关基因组基因座包含选自表4所列基因的组中的至少一种基因。在一些实施方案中,数据集包含:i)来自对象的生物样品的选自表1、2、3、4、5、7和8的任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,数据集包含:i)对象的生物样品的选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)对象的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,数据集包含:i)对象的生物样品的选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)对象的选自结节的尺寸、对象的年龄、肺上叶中结节的存在、或其任意组合的临床特征的临床特征数据。生物样品可以是本文中所述的生物样品。在一些实施方案中,数据集包含:i)表7所列的31种基因,和ii)对象的选自结节的尺寸、患者的年龄和肺上叶中结节存在的一种或多种临床特征。在一些实施方案中,数据集由以下组成:i)表7所列的31种基因,和ii)对象的选自结节的尺寸、患者的年龄和肺上叶中结节存在的一种或多种临床特征。生物样品可以是本文中所述的生物样品。[0187]在一些实施方案中,计算机系统还包含与一个或更多个计算机处理器有效连接的电子显示器,其中所述电子显示器包含被配置成显示报告的图形用户界面。[0188]在另一个方面中,本公开内容提供了共同包含机器可执行代码的一种或更多种非暂时性计算机可读介质,所述机器可执行代码在由一个或更多个计算机处理器执行时,使得一个或更多个计算机处理器进行用于评估对象的肺结节的方法,所述方法包括:(a)测定从对象获得或来源于对象的生物样品以产生数据集;(b)分析数据集以将对象的肺结节分类为恶性肺结节或良性肺结节;以及(c)电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。数据集可以是本文中所述的数据集。在一些实施方案中,数据集包含生物样品的来自多个肺病相关基因组基因座的每个基因座的基因表达测量值,其中多个疾病相关基因组基因座包含选自表4所列组的至少一种基因。在一些实施方案中,数据集包含:i)来自对象的生物样品的选自表1、2、3、4、5、7和8的任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,数据集包含:i)对象的生物样品的选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)对象的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,数据集包含:i)对象的生物样品的选自表7所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31种肺病相关基因的基因表达测量值,和ii)对象的选自结节的尺寸、对象的年龄和肺上叶中结节存在、或其任意组合的临床特征的临床特征数据。在一些实施方案中,数据集包含:i)表7所列的31种基因,和ii)对象的选自结节的尺寸、患者的年龄和肺上叶中结节存在的一种或更多种临床特征。在一些实施方案中,数据集由以下组成:i)表7所列的31种基因,和ii)对象的选自结节的尺寸、患者的年龄和肺上叶中结节存在的一种或更多种临床特征。生物样品可以是本文中所述的生物样品。[0189]本公开内容包含本文中所述的任何发明方法、系统或其他组合(包含使用本发明方法确定的基因集)用于诊断癌症,或用于确定患有癌症的患者或对象和/或向患有癌症的患者或对象施用治疗的用途。[0190]本公开内容包括以下方面:[0191]方面1涉及用于评估对象的肺结节的方法,所述方法包括:[0192](a)测定从对象获得或来源于对象的生物样品以产生包含生物样品在多个肺病相关基因组基因座中的每个基因座处的基因表达测量值的数据集,其中所述多个疾病相关基因组基因座包含选自表1、2、3、4、5、7和8中任一个或更多个中列出之组的至少一种基因;[0193](b)分析所述数据集以将对象的肺结节分类为恶性肺结节或良性肺结节;以及[0194](c)电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。[0195]方面2涉及方面1所述的方法,其中所述多个疾病相关基因组基因座包含选自表4所列组的至少[0196]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295种基因。[0197]方面3涉及方面1或2所述的方法,其还包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将对象的肺结节分类为恶性肺结节或良性肺结节。[0198]方面4涉及方面1至3中任一项所述的方法,其还包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将对象的肺结节分类为恶性肺结节或良性肺结节。[0199]方面5涉及方面1至4中任一项所述的方法,其还包括以至少约50%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将对象的肺结节分类为恶性肺结节或良性肺结节。[0200]方面6涉及方面1至5中任一项所述的方法,其还包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。[0201]方面7涉及方面1至6中任一项所述的方法,其还包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。[0202]方面8涉及方面1至7中任一项所述的方法,其还包括以至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99、或大于约0.99的曲线下面积(auc)将对象的肺结节分类为恶性肺结节或良性肺结节。[0203]方面9涉及方面1至8中任一项所述的方法,其中所述对象患有肺癌。[0204]方面10涉及方面1至8中任一项所述的方法,其中所述对象被怀疑患有肺癌。[0205]方面11涉及方面1至8中任一项所述的方法,其中所述对象处于患有肺癌的升高风险中。[0206]方面12涉及方面1至8中任一项所述的方法,其中所述对象没有针对肺癌的症状。[0207]方面13涉及方面1至12中任一项所述的方法,其还包括至少部分地基于将对象的肺结节分类为恶性肺结节或良性肺结节来向对象施用治疗。[0208]方面14涉及方面13所述的方法,其中所述治疗被配置成治疗对象的肺癌。[0209]方面15涉及方面13所述的方法,其中所述治疗被配置成降低对象的肺癌的严重程度。[0210]方面16涉及方面13所述的方法,其中所述治疗被配置成降低对象患有肺癌的风险。[0211]方面17涉及方面13所述的方法,其中所述治疗选自:手术、化学治疗、靶向治疗、免疫治疗、放射治疗、及其任意组合。[0212]方面18涉及方面1所述的方法,其中(b)包括使用经训练机器学习分类器分析数据集以将对象的肺结节分类为恶性肺结节或良性肺结节。[0213]方面19涉及方面18所述的方法,其中所述经训练机器学习分类器是使用通过选自以下的数据分析工具获得的基因表达数据训练的:big-ctm大数据分析工具、i-scopetm大数据分析工具、t-scopetm大数据分析工具、cellscan大数据分析工具、ms(分子特征)scoringtm分析工具和基因集变异分析(gsva)工具(例如,p-scope)。[0214]方面20涉及方面18所述的方法,其中所述经训练机器学习分类器选自线性回归、逻辑回归、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)分类器、神经网络、随机森林(rf)、深度学习算法及其组合。[0215]方面21涉及方面20所述的方法,其中所述经训练机器学习分类器包含逻辑回归。[0216]方面22涉及方面20所述的方法,其中所述经训练机器学习分类器包含glm。[0217]方面23涉及方面20所述的方法,其中所述经训练机器学习分类器包含knn。[0218]方面24涉及方面20所述的方法,其中所述经训练机器学习分类器包含svm。[0219]方面25涉及方面20所述的方法,其中所述经训练机器学习分类器包含gbm。[0220]方面26涉及方面20所述的方法,其中所述经训练机器学习分类器包含rf。[0221]方面27涉及方面20所述的方法,其中所述经训练机器学习分类器包含nb。[0222]方面28涉及方面20所述的方法,其中所述经训练机器学习分类器包含en回归。[0223]方面29涉及方面1所述的方法,其中(b)包括将所述数据集与参考数据集进行比较。[0224]方面30涉及方面29所述的方法,其中所述参考数据集包含参考生物样品在多个肺病相关基因组基因座中的每个基因座处的基因表达测量值。[0225]方面31涉及方面29所述的方法,其中所述参考生物样品包含从患有恶性肺结节的对象获得或来源于该对象的第一多个生物样品和从患有良性肺结节的对象获得或来源于该对象的第二多个生物样品。[0226]方面32涉及方面1至31中任一项所述的方法,其中所述生物样品选自:血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、或其任何衍生物。[0227]方面33涉及方面1至32中任一项所述的方法,其还包括确定将对象的肺结节分类为恶性肺结节或良性肺结节的可能性。[0228]方面34涉及方面1至33中任一项所述的方法,其还包括监测对象的肺结节,其中所述监测包括在多个时间点处评估对象的肺结节。[0229]方面35涉及方面34所述的方法,其中在多个时间点之间的对象肺结节评估的差异指示选自以下的一种或更多种临床指征:(i)对象的肺结节的诊断,(ii)对象的肺结节的预后,以及(iii)用于治疗对象的肺结节的治疗过程有效力或无效力。[0230]方面36涉及用于评估对象的肺结节的计算机系统,所述计算机系统包含:数据库和与所述数据库有效连接的一个或更多个计算机处理器,所述数据库被配置成存储包含基因表达数据的数据集,其中所述基因表达数据是通过测定从对象获得或来源于对象的生物样品以产生生物样品在多个肺病相关基因组基因座中的每个基因座处的基因表达测量值获得的,其中所述多个疾病相关基因组基因座包含选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少一种基因;其中所述一个或更多个计算机处理器被单独地或共同地编程从而:(i)分析数据集以将对象的肺结节分类为恶性肺结节或良性肺结节;(ii)电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。[0231]方面37涉及方面36所述的计算机系统,其还包含与所述一个或更多个计算机处理器有效连接的电子显示器,其中所述电子显示器包含被配置成显示报告的图形用户界面。[0232]方面38涉及一种或更多种非暂时性计算机可读介质,其共同包含在被一个或更多个计算机处理器执行时实施用于评估对象的肺结节的方法的机器可执行代码,所述方法包括:[0233](a)测定从对象获得或来源于对象的生物样品以产生包含生物样品在多个肺病相关基因组基因座中的每个基因座处的基因表达测量值的数据集,其中所述多个疾病相关基因组基因座包含选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少一种基因;[0234](b)分析所述数据集以将对象的肺结节分类为恶性肺结节或良性肺结节;以及[0235](c)电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。[0236]方面39涉及用于评估患者的肺结节的方法,所述方法包括:[0237]a)获得数据集,所述数据集包含:i)来自患者的生物样品中选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;[0238]b)提供所述数据集作为机器学习模型的输入,该机器学习模型经训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;[0239]c)接收表明所述数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出;以及[0240]d)电子地输出将患者的肺结节分类为恶性肺结节或良性肺结节的报告。[0241]在一些实施方案中,方面39的数据集包含来自患者的生物样品中选自表1所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面39的数据集包含来自患者的生物样品中选自表2所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面39的数据集包含来自患者的生物样品中选自表3所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面39的数据集包含来自患者的生物样品中选自表4所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面39的数据集包含来自患者的生物样品中选自表5所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面39的数据集包含来自患者的生物样品中选自表7所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面39的数据集包含来自患者的生物样品中选自表8所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面39的数据集包含:i)来自患者的生物样品中选自表1所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面39的数据集包含:i)来自患者的生物样品中选自表2所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面39的数据集包含:i)来自患者的生物样品中选自表3所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面39的数据集包含:i)来自患者的生物样品中选自表4所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面39的数据集包含:i)来自患者的生物样品中选自表5所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面39的数据集包含:i)来自患者的生物样品中选自表7所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面39的数据集包含:i)来自患者的生物样品中选自表8所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。[0242]方面40涉及方面39所述的方法,其中所述至少两种肺病相关基因选自表7中列出之基因的组。[0243]方面41涉及方面39或40所述的方法,其中所述一种或更多种临床特征包含结节的尺寸、患者的年龄、以及肺上叶中结节的存在。[0244]方面42涉及方面39至41中任一项所述的方法,其中使用以下开发机器学习模型:线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)分类器、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)、或其任意组合。[0245]方面43涉及方面39至42中任一项所述的方法,其中所述患者患有肺癌。[0246]方面44涉及方面39至42中任一项所述的方法,其中所述患者不患有肺癌。[0247]方面45涉及方面39至42中任一项所述的方法,其中所述患者处于患有肺癌的升高风险中。[0248]方面46涉及方面39至43和45中任一项所述的方法,其中所述患者没有针对肺癌的症状。[0249]方面47涉及方面39至43、45和46中任一项所述的方法,其还包括基于患者的结节分类为恶性结节来施用治疗。[0250]方面48涉及方面47所述的方法,其中所述治疗是手术、化学治疗、靶向治疗、免疫治疗、放射治疗、或其任意组合。[0251]方面49涉及方面39至48中任一项所述的方法,其中所述推断结果包括,肺结节是恶性的置信度值为0至1。[0252]方面50涉及方面39至49中任一项所述的方法,其中所述至少两种肺病相关基因包含选自表4所列基因的组中的至少[0253]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295种基因。[0254]方面51涉及方面39至50中任一项所述的方法,其中所述至少两种肺病相关基因包含选自表7所列基因的组中的至少[0255]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种基因。[0256]方面52涉及方面39至51中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将患者的肺结节分类为恶性肺结节或良性肺结节。[0257]方面53涉及方面39至52中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将患者的肺结节分类为恶性肺结节或良性肺结节。[0258]方面54涉及方面39至53中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将患者的肺结节分类为恶性肺结节或良性肺结节。[0259]方面55涉及方面39至54中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。[0260]方面56涉及方面39至55中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。[0261]方面57涉及方面39至56中任一项所述的方法,其中所述经训练机器学习模型具有曲线下面积(auc)为以下的接受者操作特征(roc)曲线:至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99、或大于约0.99。[0262]方面58涉及用于评估患者的肺结节的系统,所述系统包含:[0263]一个或更多个处理器;和[0264]一个或更多个储存可执行指令的存储器,作为被一个或更多个处理器执行的结果,所述可执行指令使得系统:[0265]从数据库获得数据集,所述数据集包含:i)患者的生物样品的选自表1、2、3、4、5、7和8中任一个或更多个中列出之基因的组的多个肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;[0266]提供所述数据集作为机器学习模型的输入,该机器学习模型经训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;[0267]接收指示复合数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出;以及[0268]生成将患者的肺结节分类为恶性肺结节或良性肺结节的报告。[0269]在一些实施方案中,方面58的数据集包含来自患者的生物样品中选自表1所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面58的数据集包含来自患者的生物样品中选自表2所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面58的数据集包含来自患者的生物样品中选自表3所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面58的数据集包含来自患者的生物样品中选自表4所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面58的数据集包含来自患者的生物样品中选自表5所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面58的数据集包含来自患者的生物样品中选自表7所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面58的数据集包含来自患者的生物样品中选自表8所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面58的数据集包含:i)来自患者的生物样品中选自表1所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面58的数据集包含:i)来自患者的生物样品中选自表2所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面58的数据集包含:i)来自患者的生物样品中选自表3所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面58的数据集包含:i)来自患者的生物样品中选自表4所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面58的数据集包含:i)来自患者的生物样品中选自表5所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面58的数据集包含:i)来自患者的生物样品中选自表7所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面58的数据集包含:i)来自患者的生物样品中选自表8所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。[0270]方面59涉及存储用于评估患者的肺结节的可执行指令的非暂时性计算机可读介质,作为被计算机系统的一个或更多个处理器执行的结果,所述可执行指令使得计算机系统:[0271]从数据库获得数据集,所述数据集包含:i)患者的生物样品的选自表1、2、3、4、5、7和8中任一个或更多个中列出之基因的组的多个肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;[0272]提供所述数据集作为机器学习模型的输入,该机器学习模型经训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;[0273]接收指示复合数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出;以及[0274]生成将患者的肺结节分类为恶性肺结节或良性肺结节的报告。[0275]在一些实施方案中,方面59的数据集包含来自患者的生物样品中选自表1所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面59的数据集包含来自患者的生物样品中选自表2所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面59的数据集包含来自患者的生物样品中选自表3所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面59的数据集包含来自患者的生物样品中选自表4所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面59的数据集包含来自患者的生物样品中选自表5所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面59的数据集包含来自患者的生物样品中选自表7所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面59的数据集包含来自患者的生物样品中选自表8所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面59的数据集包含:i)来自患者的生物样品中选自表1所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面59的数据集包含:i)来自患者的生物样品中选自表2所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面59的数据集包含:i)来自患者的生物样品中选自表3所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面59的数据集包含:i)来自患者的生物样品中选自表4所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面59的数据集包含:i)来自患者的生物样品中选自表5所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面59的数据集包含:i)来自患者的生物样品中选自表7所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面59的数据集包含:i)来自患者的生物样品中选自表8所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。[0276]方面60涉及用于确定能够在不进行活检的情况下将肺结节分类为良性或恶性的基因集的方法,所述方法包括:[0277]获得包含多个个体参考数据集的参考数据集,其中所述多个个体参考数据集的相应个体参考数据集包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中参考生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;[0278]使用所述参考数据集训练机器学习模型,其中训练机器学习模型以至少部分地基于选自多种基因以及任选地一种或更多种临床特征的一种或更多种预测因子来推断肺结节是良性的还是恶性的;[0279]确定多种基因的特征重要性值;以及[0280]至少部分地基于所述特征重要性值确定基因集。[0281]在一些实施方案中,方面60的相应个体参考数据集包含:i)参考生物样品的多种基因的基因表达测量值,以及ii)关于参考对象的肺结节是良性的还是恶性的数据;并且训练机器学习模型以至少部分地基于选自多种基因的一种或更多种预测因子来推断肺结节是良性的还是恶性的。在一些实施方案中,方面60的相应个体参考数据集包含:i)参考生物样品的多种基因的基因表达测量值,ii)关于参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据;并且训练机器学习模型以至少部分地基于选自多种基因和一种或更多种临床特征的一种或更多种预测因子来推断肺结节是良性的还是恶性的。[0282]方面61涉及方面60所述的方法,其中所述多种基因包含选自表9所列基因的组中的至少2种基因。[0283]方面62涉及用于开发能够推断患者的肺结节是良性的还是恶性的经训练机器学习模型的方法,所述方法包括:[0284](a)获得包含多个第一个体参考数据集的第一参考数据集,其中所述多个第一个体参考数据集的相应第一个体参考数据集包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;[0285](b)使用第一参考数据集训练第一机器学习模型,其中训练第一机器学习模型以至少部分地基于选自多种基因以及任选地一种或更多种临床特征的一种或更多种预测因子来推断肺结节是良性的还是恶性的;[0286](c)确定第一机器学习模型的一种或更多种预测因子的特征重要性值;[0287](d)至少部分地基于特征重要性值来选择第一机器学习模型的a种预测因子,其中a是5至2000的整数;以及[0288](e)至少部分地基于包含多个第二个体参考数据集的第二参考数据集来训练第二机器学习模型,从而获得经训练机器学习模型,其中所述多个第二个体参考数据集的相应第二个体参考数据集包含:i)参考对象的a种预测因子的测量数据,以及ii)关于参考对象的肺结节是良性的还是恶性的数据,其中训练所述经训练机器学习模型以至少部分地基于a种预测因子的测量数据来推断肺结节是良性的还是恶性的。[0289]在一些实施方案中,方面62的相应第一个体参考数据集包含:i)参考生物样品的多种基因的基因表达测量值,以及ii)关于参考对象的肺结节是良性的还是恶性的数据;并且训练第一机器学习模型以至少部分地基于选自多种基因的一种或更多种预测因子来推断肺结节是良性的还是恶性的。在一些实施方案中,方面60的相应第一个体参考数据集包含:i)参考生物样品的多种基因的基因表达测量值,ii)关于参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据;并且训练第一机器学习模型以至少部分地基于选自多种基因和一种或更多种临床特征的一种或更多种预测因子来推断肺结节是良性的还是恶性。[0290]方面63涉及62所述的方面,其中所述多种基因包含选自表9所列基因的组中的至少2种基因。[0291]方面64涉及方面62至63中任一项所述的方法,其中a种预测因子具有前5至200个特征重要性值。[0292]方面65涉及方面62至64中任一项所述的方法,其中经训练机器学习模型具有至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度。[0293]方面66涉及方面62至65中任一项所述的方法,其中经训练机器学习模型具有至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度。[0294]方面67涉及方面62至66中任一项所述的方法,其中经训练机器学习模型具有至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性。[0295]方面68涉及方面62至67中任一项所述的方法,其中经训练机器学习模型具有至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值。[0296]方面69涉及方面62至68中任一项所述的方法,其中经训练机器学习模型具有至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值。[0297]方面70涉及方面62至69中任一项所述的方法,其中经训练机器学习模型具有曲线下面积(auc)为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99、或大于约0.99的接受者操作特征(roc)曲线。[0298]方面71涉及方面62至70中任一项所述的方法,其中使用以下独立地训练第一机器学习模型和第二机器学习模型:线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)分类器、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)、或其任意组合。[0299]方面72涉及用于评估患者的肺结节的方法,所述方法包括:[0300](a)获得数据集,所述数据集包含患者的方面62至64中任一项所述a种预测因子中的一种或更多种的测量数据;[0301](b)提供所述数据集作为经训练机器学习模型的输入,该经训练机器学习模型根据权利要求62至71中任一项所述的方法训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;[0302](c)接收表明所述数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出;以及[0303](d)电子地输出将患者的肺结节分类为恶性肺结节或良性肺结节的报告。[0304]方面73涉及方面72所述的方法,其中所述生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物。[0305]方面74涉及方面72至73中任一项所述的方法,其中所述患者患有肺癌。[0306]方面75涉及方面72至73中任一项所述的方法,其中所述患者不患有肺癌。[0307]方面76涉及方面72至73中任一项所述的方法,其中所述患者处于患有肺癌的升高风险中。[0308]方面77涉及方面72至74和76中任一项所述的方法,其中所述患者没有针对肺癌的症状。[0309]方面78涉及方面72至74、76和77中任一项所述的方法,其还包括基于患者的肺结节被分类为恶性结节来施用治疗。[0310]方面79涉及方面78所述的方法,其中所述治疗是手术、化学治疗、靶向治疗、免疫治疗、放射治疗、或其任意组合。[0311]方面80涉及用于在患有肺结节的患者中治疗肺癌的方法,所述方法包括:[0312](a)获得数据集,所述数据集包含:i)来自患者的生物样品中选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中生物样品是血液样品、分离的外周血单个核细胞(pbmc)、或其任何衍生物;[0313](b)提供所述数据集作为经训练机器学习模型的输入,该经训练机器学习模型经训练以生成所述数据集是指示恶性肺结节还是良性肺结节的推断结果;[0314](c)接收表明所述数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出;以及[0315](d)基于患者的肺结节被分类为恶性肺结节来施用治疗。[0316]在一些实施方案中,方面80的数据集包含来自患者的生物样品中选自表1所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面80的数据集包含来自患者的生物样品中选自表2所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面80的数据集包含来自患者的生物样品中选自表3所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面80的数据集包含来自患者的生物样品中选自表4所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面80的数据集包含来自患者的生物样品中选自表5所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面80的数据集包含来自患者的生物样品中选自表7所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面80的数据集包含来自患者的生物样品中选自表8所列基因的组中的至少两种肺病相关基因的基因表达测量值。在一些实施方案中,方面80的数据集包含:i)来自患者的生物样品中选自表1所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面80的数据集包含:i)来自患者的生物样品中选自表2所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面80的数据集包含:i)来自患者的生物样品中选自表3所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面80的数据集包含:i)来自患者的生物样品中选自表4所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面80的数据集包含:i)来自患者的生物样品中选自表5所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面80的数据集包含:i)来自患者的生物样品中选自表7所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,方面80的数据集包含:i)来自患者的生物样品中选自表8所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。[0317]方面81涉及方面80所述的方法,其中所述至少两种肺病相关基因选自表7中列出之基因的组。[0318]方面82涉及方面80或81所述的方法,其中所述一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。[0319]方面83涉及方面80至82中任一项所述的方法,其中使用以下开发机器学习模型:线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)分类器、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)、或其任意组合。[0320]方面84涉及方面80至83中任一项所述的方法,其中所述治疗是手术、化学治疗、靶向治疗、免疫治疗、放射治疗、或其任意组合。[0321]方面85涉及方面80至84中任一项所述的方法,其中所述推断结果包括,肺结节是恶性的置信度值为0至1。[0322]方面86涉及方面80至85中任一项所述的方法,其中所述至少两种肺病相关基因包含选自表4所列基因的组中的至少[0323]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295种基因。[0324]方面87涉及方面80至86中任一项所述的方法,其中所述至少两种肺病相关基因包含选自表7所列基因的组中的至少2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种基因。[0325]方面88涉及方面80至87中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将患者的肺结节分类为恶性肺结节或良性肺结节。[0326]方面89涉及方面80至88中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将患者的肺结节分类为恶性肺结节或良性肺结节。[0327]方面90涉及方面80至89中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将患者的肺结节分类为恶性肺结节或良性肺结节。[0328]方面91涉及方面80至90中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。[0329]方面92涉及方面80至91中任一项所述的方法,其包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。[0330]方面93涉及方面80至92中任一项所述的方法,其中所述经训练机器学习模型具有曲线下面积(auc)为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99、或大于约0.99的接受者操作特征(roc)曲线。[0331]根据以下详细描述,本公开内容的另外的方面和优点对于本领域技术人员将变得明显,其中仅示出和描述了本公开内容的说明性实施方案。将认识到,本公开内容能够具有另外的和不同的实施方案,并且其若干细节能够在多个明显方面进行修改,所有这些均不脱离本公开内容。因此,附图和描述在本质上被认为是说明性的,而不是限制性的。[0332]通过引用并入[0333]本说明书中提及的所有出版物、专利和专利申请均通过引用如同每个单独的出版物、专利或专利申请被具体且单独地指明通过引用并入本文一样的相同程度并入本文。在通过引用并入的出版物和专利或专利申请与说明书中包含的公开内容相矛盾的情况下,说明书旨在取代和/或优先于任何这样的矛盾材料。[0334]附图简述[0335]本公开内容的新的特征在所附权利要求中具体阐述。通过参考以下详细说明,将获得对本公开内容的特征和优点的更好的理解,所述详细说明阐述了其中利用本公开内容的原理的举例说明性实施方案和以下附图:[0336]图1a是接受者操作特征(roc)图,其示出了使用从核糖核酸(rna)测序(ribonucleicacid(rna)sequencing,rna-seq)数据生成的1,178种基因特征的集合来区分恶性肺结节与良性肺结节的八种机器学习分类器的性能。所述1,178种基因在患有恶性肺结节的患者与患有良性肺结节的患者的血液样品中差异表达。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。[0337]图1b示出了使用1,178种基因特征的集合分析rnaseq数据来区分恶性肺结节与良性肺结节的示例性经训练机器学习分类器算法的结果。[0338]图2a是用于基于rna-seq数据的分析优化差异表达基因来区分恶性肺结节与良性肺结节的roc图。六种机器学习分类器包含log、glm、knn、rf、svm和gbm。[0339]图2b示出了图2a中的示例性经训练机器学习分类器算法优化差异表达基因来区分恶性肺结节与良性肺结节的结果。[0340]图3a是示出使用从rna-seq数据生成的182种基因特征的集合来区分恶性肺结节与良性肺结节的八种机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。[0341]图3b示出了使用182种基因特征的集合分析rnaseq数据来区分恶性肺结节与良性肺结节的示例性经训练机器学习分类器算法的结果。[0342]图4a是示出使用从rna-seq数据生成的182种基因特征的集合来区分恶性肺结节与良性肺结节的机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。[0343]图4b示出了对应于图4a的示例性经训练机器学习分类器算法的列表格式的结果。[0344]图5a是示出使用从rna-seq数据生成的175种基因特征的集合来区分恶性肺结节与良性肺结节的八种机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。[0345]图5b示出了对应于图5a的示例性经训练机器学习分类器算法的列表格式的结果。[0346]图6a是示出使用从rna-seq数据生成的62种基因特征的集合来区分恶性肺结节与良性肺结节的机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。[0347]图6b示出了对应于图6a的示例性经训练机器学习分类器算法的列表格式的结果。[0348]图7a是示出使用从rna-seq数据生成的295种基因特征的集合来区分恶性肺结节与良性肺结节的机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。[0349]图7b示出了对应于图7a的示例性经训练机器学习分类器算法的列表格式的结果。[0350]图8a是示出使用从rna-seq数据生成的175种基因特征的集合来区分恶性肺结节与良性肺结节的机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。[0351]图8b示出了对应于图8a的示例性经训练机器学习分类器算法的列表格式的结果。[0352]图9a是由使用175种基因特征的集合的逻辑回归分类器预测的肺结节的累积分数。[0353]图9b是由使用175种基因特征的集合的梯度提升分类器预测的肺结节的累积分数。[0354]图10示出了用于评估对象的肺结节的示例方法1000的概述。[0355]图11示出了被编程或以其他方式配置成实施本文中提供的方法的计算机系统1101。[0356]图12示出了表6所列8种临床特征特性的关联图。[0357]图13a至图13e:图13a显示了示出使用表6所列8种临床特征特性的临床特征数据来区分(152名患者中)的恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。图13b示出了使用8种临床特征特性(表6)的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。图13c示出了对应于图13a的9种机器学习分类器的列表格式的结果。图13d示出了9种机器学习分类器的8种临床特征特性(表6)的特征重要性。图13e示出了全部9种分类器的8种临床特征特性的特征重要性。所述9种机器学习分类器是log、rf、svm、dtree、adb、nb、lda、knn和gbm。[0358]图14a至图14e:图14a显示了示出使用4种临床特征特性ncnsze(结节尺寸)、ncnupyn(上叶中的结节)、age和ncnmyn(棘状结节)的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。图14b示出了使用4种临床特征特性的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。图14c示出了对应于图14a的9种机器学习分类器的列表格式的结果。图14d示出了9种机器学习分类器的4种临床特征特性的特征重要性。图14e示出了全部9种分类器的4种临床特征特性的特征重要性。所述9种机器学习分类器是log、rf、svm、dtree、adb、nb、lda、knn和gbm。[0359]图15a至图15e:图15a显示了示出使用9种临床特征特性(表6中的8种特征和癌症史)的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。图15b示出了使用9种临床特征特性的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。图15c示出了对应于图15a的9种机器学习分类器的列表格式的结果。图15d示出了9种机器学习分类器的9种临床特征特性的特征重要性。图15e示出了全部9种分类器的9种临床特征特性的特征重要性。所述9种机器学习分类器是log、rf、svm、dtree、adb、nb、lda、knn和gbm。[0360]图16a至图16d:图16a显示了示出使用142种基因特征(表5)的基因表达数据和3种临床特征(ncnsze(结节尺寸)、ncnupyn(上叶中的结节)和age)的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。图16b示出了使用142种基因特征的基因表达数据和3种临床特征的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。图16c示出了对应于图16a的9种机器学习分类器的列表格式的结果。图16d示出了对应于图16a且应用了过采样校正(例如,患有良性肺结节的80个样品和患有恶性肺结节的80个样品)的9种机器学习分类器的列表格式的结果。所述9种机器学习分类器是log、rf、svm、dtree、adb、nb、lda、knn和gbm。[0361]图17a至图17e:图17a显示了示出使用34种预测因子(表7)的测量数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。图17b示出了使用34种预测因子的测量数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。图17c示出了对应于图17a的机器学习分类器log和rf的列表格式的结果。图17d示出了对应于图17a且应用了过采样校正(例如,患有良性肺结节的80个样品和患有恶性肺结节的80个样品)的9种机器学习分类器的列表格式的结果。图17e示出了全部9种分类器的34种临床特征特性的特征重要性。所述9种机器学习分类器是log、rf、svm、dtree、adb、nb、lda、knn和gbm。[0362]图18a至图18c:图18a显示了示出使用175种基因特征(表2)的基因表达数据和4种临床特征(ncnsze(结节尺寸)、ncnupyn(上叶中的结节)、age和ncnmyn(棘状结节))的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。图18b示出了使用175种基因特征的基因表达数据和4种临床特征的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。图18c示出了对应于图18a的9种机器学习分类器的列表格式的结果。所述9种机器学习分类器是log、rf、svm、dtree、adb、nb、lda、knn和gbm。[0363]发明详述[0364]在本公开内容的某些方面中,公开了用于使用机器学习来评估患者的肺结节的方法和系统。所述方法可在不进行结节的活检的情况下将肺结节分类为良性的或恶性的。在某些实施方案中,可进行结节的活检以确认和/或追踪来自机器学习分类的结果。如在实施例中以非限制性方式示出的,使用来自患者的生物样品的基因表达测量值以及任选地患者的临床特征数据,本公开内容的机器学习方法可对结节进行分类。生物样品可以是血液样品。所述方法可具有相对较高的准确度、特异性、灵敏度、阳性预测值和/或阴性预测值。此外,如在实施例5中以非限制性方式示出的,还发现与仅使用基因表达数据相比,使用基因表达数据和临床特征数据二者可提高机器学习模型和方法的预测能力(例如,准确度、特异性、灵敏度、阳性预测值和/或阴性预测值)。例如,如图17d中所示,可使用相对较少数目的包含基因和临床特征的预测因子用某些机器学习模型获得高于0.9的准确度、特异性、灵敏度。在某些实施方案中,可基于来自机器学习分类的结果来施用肺癌的治疗。本公开内容的某些实施方案的潜在益处之一包括可在其中ml分类模型输出肺结节是良性的或恶性的高置信度的情况下避免进行活检。在此的益处是在常规技术中,总是进行活检,因为活检是确定肺结节是良性的还是恶性的唯一方法。然而,活检程序具有固有的风险,并且基于患者的个体情况,对于一些患者活检的风险可能大于益处,但对另一些患者则不然。ml模型可用于更好地告知临床医生进行活检的益处是否超过活检程序的风险(例如,可设计其中将避免活检的实例,也许在这种情况下患者(1)处于由于一些其他健康相关病症或肿瘤位置而导致活检并发症的较高风险中,并且(2)血液样品表明肺结节是良性的或恶性的可能性较高)。虽然正在研究的大多数方案都集中于更准确地鉴定恶性肺结节的情况,但能够避免不必要的活检也可被认为是技术优势/实际益处。[0365]虽然本文中已经示出和描述了本发明的多个实施方案,但对本领域技术人员明显的是,这样的实施方案仅以示例的方式提供。在不脱离本发明的情况下,本领域技术人员可想到许多变化、改变和替代。应理解,可采用本文中所述的本发明的实施方案的多种替代方案。[0366]除非上下文另外指出,否则本说明书通篇使用的多种术语可如下阅读和理解:本说明书通篇使用的“或/或者”是包含性的,如同写成“和/或/或者”;通篇使用的单数冠词和代词包括其复数形式,并且反之亦然;类似地,性别代词包括其对应的代词,因此代词不应被理解为将本文中所述的任何内容限制为单一性别的使用、实施、性能等;“示例性”应被理解为“说明性的”或“例证性的”,并且不一定是相对于另一些实施方案“优选的”。可在本文中阐明对术语的进一步定义;这些定义可适用于那些术语的先前和后续实例,如通过阅读本说明书将理解的。每当术语“至少”、“大于”或者“大于或等于”在一系列两个或更多个数值中的第一数值之前时,术语“至少”、“大于”或“大于或等于”适用于该系列数值中的每个数值。例如,大于或等于1、2或3相当于大于或等于1、大于或等于2、或者大于或等于3。[0367]每当术语“不超过”、“小于”或者“小于或等于”在一系列两个或更多个数值中的第一个数值之前时,术语“不超过”、“小于”或者“小于或等于”适用于该系列数值中的每个数值。例如,小于或等于3、2或1相当于小于或等于3、小于或等于2、或者小于或等于1。[0368]本文中使用的术语“对象”或“参考对象”通常是指人,例如患者。对象可以是患有肺癌、良性肺结节或恶性肺结节的个人(例如,患者);或已接受针对肺癌、良性肺结节或恶性肺结节的治疗的个人;或正在接受针对肺癌、良性肺结节或恶性肺结节的监测的个人;或被怀疑患有肺癌、良性肺结节或恶性肺结节的个人;或者未患有或未被怀疑患有肺癌、良性肺结节或恶性肺结节的个人。本文中使用的术语“患者”通常是指人患者。患者可以是患有肺癌、良性肺结节或恶性肺结节的个人;或已接受针对肺癌、良性肺结节或恶性肺结节的治疗的个人;或正在接受针对肺癌、良性肺结节或恶性肺结节的监测的个人;或被怀疑患有肺癌、良性肺结节或恶性肺结节的个人;或者未患有或未被怀疑患有肺癌、良性肺结节或恶性肺结节的个人。[0369]血液样品可以是全血、血细胞、血清、血浆或其任意组合。[0370]表1、2、3、4、5和9列出了肺病相关基因。表7列出了31种肺病相关基因和3种临床特征。表8列出了21种肺病相关基因和1种临床特征。表6列出了8种临床特征。表1、2、3、4、5、6、7、8和9以及表的全部内容均作为本公开内容的说明书的一部分并入。[0371]在一个方面中,本公开内容提供了用于评估对象的肺结节的方法,其包括:(a)测定从对象获得或来源于对象的生物样品以产生包含生物样品在多个肺病相关基因组基因座的每个基因座处的基因表达测量值的数据集,其中所述多个疾病相关基因组基因座包含选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少一种基因;(b)分析所述数据集以将对象的肺结节分类为恶性肺结节或良性肺结节;以及(c)电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。生物样品的基因表达可通过例如测定从基因组基因座(例如肺病相关基因)产生的rna来测量。生物样品的基因表达测量可使用任何合适的技术进行,如任何合适的rna定量技术,包括但不限于rna-seq、ampli-seq等。在一些实施方案中,数据集还包含对象的一种或更多种临床特征的临床特征数据。在一些实施方案中,一种或更多种临床特征选自表6所列临床特征组。[0372]在一些实施方案中,所述多个疾病相关基因组基因座包含选自表1所列基因的组中的至少[0373]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,或180种基因。[0374]在一些实施方案中,所述多个疾病相关基因组基因座包含选自表2所列基因的组中的至少[0375]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175种基因。[0376]在一些实施方案中,所述多个疾病相关基因组基因座包含选自表3所列基因的组中的至少[0377]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,或60种基因。[0378]在一些实施方案中,所述多个疾病相关基因组基因座包含选自表4所列基因的组中的至少[0379]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295种基因。[0380]在一些实施方案中,所述多个疾病相关基因组基因座包含选自表5所列基因的组中的至少[0381]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142种基因。[0382]在一些实施方案中,所述多个疾病相关基因组基因座包含选自表7所列基因的组中的至少[0383]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种基因。在一些实施方案中,所述基因选自[0384]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。[0385]在一些实施方案中,所述多个疾病相关基因组基因座包含基因[0386]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。[0387]在一些实施方案中,所述多个疾病相关基因组基因座由以下基因组成:[0388]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。[0389]这些基因和本文中所述的那些是本领域技术人员已知的,并且描述于文献中。表a提供了本文中在表(包括表7和8)中列出之基因的基因id号的一些实例,如-在线人类孟德尔遗传(onlinemendelianinheritanceinman)(约翰霍普金斯大学医学院mckusick-nathans遗传医学研究所,baltimore,md(mckusick-nathansinstituteofgeneticmedicine,johnshopkinsuniversityschoolofmedicine,baltimore,md))和国家生物技术信息中心基因数据库(ncbi,美国国家医学图书馆(u.s.nationallibraryofmedicine)8600rockvillepike,bethesdamd,20894usa)中所述,其各自均通过引用整体并入本文。[0390]在一些实施方案中,所述多个疾病相关基因组基因座包含选自表8所列基因的组中的至少2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,或21种基因。在一些实施方案中,所述基因选自[0391]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0392]在一些实施方案中,所述多个疾病相关基因组基因座包含基因[0393]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0394]在一些实施方案中,所述多个疾病相关基因组基因座由以下基因组成:[0395]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0396]在一些实施方案中,所述一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,所述一种或更多种临床特征包含结节的尺寸。在一些实施方案中,所述一种或更多种临床特征包含患者的年龄。在一些实施方案中,所述一种或更多种临床特征包含肺上叶中结节的存在。在一些实施方案中,所述一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。[0397]在一些实施方案中,所述多个疾病相关基因组基因座包含选自表7所列基因的组中的至少[0398]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种基因,并且所述一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,所述多个疾病相关基因组基因座包含选自表7所列基因的组中的至少[0399]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种基因,并且所述对象的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。[0400]在一些实施方案中,所述多个疾病相关基因组基因座包含表7所列的31种基因,并且所述一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,所述多个疾病相关基因组基因座由表7所列的31种基因组成,并且所述一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。[0401]在一些实施方案中,所述方法还包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将对象的肺结节分类为恶性肺结节或良性肺结节。[0402]在一些实施方案中,所述方法还包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将对象的肺结节分类为恶性肺结节或良性肺结节。[0403]在一些实施方案中,所述方法还包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将对象的肺结节分类为恶性肺结节或良性肺结节。[0404]在一些实施方案中,所述方法还包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。[0405]在一些实施方案中,所述方法还包括以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将对象的肺结节分类为恶性肺结节或良性肺结节。[0406]在一些实施方案中,所述方法还包括以至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99、或大于约0.99的曲线下面积(auc)将对象的肺结节分类为恶性肺结节或良性肺结节。[0407]在一些实施方案中,对象患有肺癌。在一些实施方案中,对象被怀疑患有肺癌。在一些实施方案中,对象处于患有肺癌的升高风险中。在一些实施方案中,对象没有针对肺癌的症状。[0408]在某些实施方案中,所述方法包括至少部分地基于将对象的肺结节分类为恶性肺结节或良性肺结节来进行对象的肺结节的活检。在某些实施方案中,所述方法包括至少部分地基于将对象的肺结节分类为恶性肺结节来进行对象的肺结节的活检。在一些实施方案中,所述方法还包括至少部分地基于将对象的肺结节分类为恶性肺结节或良性肺结节来向对象施用治疗。在一些实施方案中,所述方法包括至少部分地基于将对象的肺结节分类为恶性肺结节来向对象施用治疗。在一些实施方案中,所述方法包括至少部分地基于将对象的肺结节分类为恶性肺结节来向对象施用治疗。在一些实施方案中,治疗被配置成治疗对象的肺癌。在一些实施方案中,治疗被配置成降低对象肺癌的严重程度。在一些实施方案中,治疗被配置成降低对象患有肺癌的风险。治疗可包括对肺癌的一种或更多种治疗。在一些实施方案中,治疗选自:手术、化学治疗、靶向治疗、免疫治疗、放射治疗、及其任意组合。[0409]在一些实施方案中,(b)包括使用经训练机器学习分类器分析数据集以将对象的肺结节分类为恶性肺结节或良性肺结节。经训练机器学习模型可生成数据集是指示恶性肺结节还是良性肺结节的推断结果。在一些实施方案中,可使用基因表达数据以及任选地临床特征数据来训练机器学习模型。基因表达数据可通过选自以下的数据分析工具获得:big-ctm大数据分析工具、i-scopetm大数据分析工具、t-scopetm大数据分析工具、cellscan大数据分析工具、ms(分子特征)scoringtm分析工具和基因集变异分析(gsva)工具(例如,p-scope)。[0410]例如,可使用big-ctm大数据分析工具、i-scopetm大数据分析工具、t-scopetm大数据分析工具、cellscan大数据分析工具、ms(分子特征)scoringtm分析工具和基因集变异分析(gsva)工具(例如,p-scope)中的一种或更多种进行数据分析;其描述于例如国际申请no.pct/us2019/060641(2019年11月8日提交,公开为wo2020102043a1),其通过引用整体并入本文。[0411]在一些实施方案中,经训练机器学习分类器是有监督机器学习算法或无监督机器学习算法。在一些实施方案中,经训练机器学习分类器选自线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)分类器、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)、及其任意组合。在一些实施方案中,经训练机器学习分类器包含log。在一些实施方案中,经训练机器学习分类器包含岭回归。在一些实施方案中,经训练机器学习分类器包含lasso回归。在一些实施方案中,经训练机器学习分类器包含glm。在一些实施方案中,经训练机器学习分类器包含knn。在一些实施方案中,经训练机器学习分类器包含svm。在一些实施方案中,经训练机器学习分类器包含gbm。在一些实施方案中,经训练机器学习分类器包含rf。在一些实施方案中,经训练机器学习分类器包含nb。在一些实施方案中,经训练机器学习分类器包含en回归。在一些实施方案中,经训练机器学习分类器包含神经网络。在一些实施方案中,经训练机器学习分类器包含深度学习算法。在一些实施方案中,经训练机器学习分类器包含lda。在一些实施方案中,经训练机器学习分类器包含dtree。在一些实施方案中,经训练机器学习分类器包含adb。[0412]在一些实施方案中,所述方法可包括接收指示该数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出,和/或电子地输出将患者的肺结节分类为恶性肺结节或良性肺结节的报告。[0413]在一些实施方案中,(b)包括将数据集与参考数据集进行比较。在一些实施方案中,参考数据集包含来自参考对象的参考生物样品在多个肺病相关基因组基因座中的每个基因座处的基因表达测量值,以及任选地选自表6所列组的一种或更多种临床特征的临床特征数据。在一些实施方案中,参考生物样品包含从患有恶性肺结节的对象获得或来源于该对象的第一多个生物样品和从患有良性肺结节的对象获得或来源于该对象的第二多个生物样品。[0414]在一些实施方案中,生物样品选自:血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液、及其任何衍生物。[0415]在一些实施方案中,所述方法还包括确定将对象的肺结节分类为恶性肺结节或良性肺结节的可能性。在一些实施方案中,可能性为约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%、或约100%。在一些实施方案中,可能性为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%。[0416]在一些实施方案中,所述方法还包括监测对象的肺结节,其中该监测包括在多个时间点处评估对象的肺结节。在一些实施方案中,在多个时间点之间的对象肺结节评估的差异指示选自以下的一种或更多种临床指征:(i)对象的肺结节的诊断,(ii)对象的肺结节的预后,以及(iii)用于治疗对象肺结节的治疗过程有效力或无效力。在一些实施方案中,多个时间点包含至少[0417]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,或50个不同的时间点。[0418]在一个方面中,本公开内容提供了用于评估患者的肺结节的方法。所述方法可包括步骤a’、b’、c’和d’中的任一个、其任意组合或全部。步骤a’可包括获得包含从患者获得或来源于该患者的生物样品的至少两种肺病相关基因的基因表达测量值的数据集。数据集可通过对生物样品进行测定来获得。在一些实施方案中,至少两种肺病相关基因选自表4中列出之基因的组。在一些实施方案中,至少两种肺病相关基因选自表1中列出之基因的组。在一些实施方案中,至少两种肺病相关基因选自表2中列出之基因的组。在一些实施方案中,至少两种肺病相关基因选自表3中列出之基因的组。在一些实施方案中,至少两种肺病相关基因选自表5中列出之基因的组。在一些实施方案中,至少两种肺病相关基因选自表7中列出之基因的组。在一些实施方案中,至少两种肺病相关基因选自表8中列出之基因的组。步骤b’可包括提供该数据集作为机器学习模型的输入,该机器学习模型经训练以生成该数据集是指示恶性肺结节还是良性肺结节的推断结果。步骤c’可包括接收表明该数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出。步骤d’可包括电子地输出将患者的肺结节分类为恶性肺结节或良性肺结节的报告。在一些实施方案中,步骤a’的数据集还可包含患者的一种或更多种临床特征的临床特征数据。在一些实施方案中,一种或更多种临床特征选自表6所列临床特征组。在一些实施方案中,步骤a’的数据集包含:i)生物样品的选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。生物样品的基因表达测量可使用任何合适的技术进行,例如任何合适的rna定量技术,包括但不限于rna-seq、ampli-seq等。[0419]在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表1所列基因的组中的至少[0420]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0421](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表2所列基因的组中的至少[0422]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0423](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表3所列基因的组中的至少[0424]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0425](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表4所列基因的组中的至少[0426]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0427](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表5所列基因的组中的至少[0428]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0429](或者其之间的任何值或范围)种基因。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表7所列基因的组中的至少[0430]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0431]种基因。在一些实施方案中,步骤a’的至少两种肺病相关基因选自[0432]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。在一些实施方案中,所述至少两种肺病相关基因(例如如步骤a’的至少两种肺病相关基因)包含选自表8所列基因的组中的至少2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,或21种基因。在一些实施方案中,步骤a’的至少两种肺病相关基因选自[0433]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0434]在一些实施方案中,一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,一种或更多种临床特征包含结节的尺寸。在一些实施方案中,一种或更多种临床特征包含患者的年龄。在一些实施方案中,一种或更多种临床特征包含肺上叶中结节的存在。在一些实施方案中,患者的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤a’的至少两种肺病相关基因包含表7所列的31种基因,并且步骤a’的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,步骤a’的至少两种肺病相关基因由表7所列的31种基因组成,并且步骤a’的一种或更多种临床特征由结节的尺寸、患者的年龄组和肺上叶中结节的存在组成。在一些实施方案中,步骤a’的数据集包含:i)生物样品的选自表7所列基因的组中的至少[0435]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,步骤a’的数据集包含:i)生物样品的选自表7所列基因的组中的至少[0436]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种肺病相关基因的基因表达测量值,以及ii)患者的选自以下的临床特征的临床特征数据:结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。[0437]在一些实施方案中,生物样品是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液、或其任何衍生物。在一些实施方案中,生物样品是血液样品或其任何衍生物。在一些实施方案中,生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,生物样品是肺活检样品或其任何衍生物。在一些实施方案中,生物样品是鼻液样品或其任何衍生物。在一些实施方案中,生物样品是唾液样品或其任何衍生物。[0438]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度推断该数据集是指示恶性肺结节还是良性肺结节。[0439]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度推断该数据集是指示恶性肺结节还是良性肺结节。[0440]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性推断该数据集是指示恶性肺结节还是良性肺结节。[0441]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值推断该数据集是指示恶性肺结节还是良性肺结节。[0442]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将患者的肺结节分类为恶性肺结节或良性肺结节。机器学习模型(例如步骤b’的机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值推断该数据集是指示恶性肺结节还是良性肺结节。[0443]机器学习模型(例如步骤b’的机器学习模型)可以以auc为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99、或大于约0.99的接受者操作特征(roc)曲线推断该数据集是指示恶性肺结节还是良性肺结节。[0444]来自机器学习模型的推断结果可包括,结节是恶性的置信度值为0至1,例如0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或1(或者其之间的任何值或范围)。较高的置信度值可与结节是恶性的较高可能性相关。恶性结节的特征可以是能够转移或侵袭性生长,这可能与良性结节相反。[0445]在一些实施方案中,患者患有肺癌。在一些实施方案中,患者不患有肺癌。在一些实施方案中,患者被怀疑患有肺癌。在一些实施方案中,患者处于患有肺癌的升高风险中。在一些实施方案中,患者没有针对肺癌的症状。[0446]在某些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节或良性肺结节任选地进行患者的肺结节的活检。在某些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节任选地进行患者的肺结节的活检。在一些实施方案中,进行活检。在一些实施方案中,不进行活检。鉴于将患者的肺结节分类为恶性肺结节或良性肺结节,可由本领域技术人员基于知识和经验做出进行活检的决定。进行活检的决定可部分地取决于推断结果的置信度值。在一些实施方案中,所述方法还包括至少部分地基于将患者的肺结节分类为恶性肺结节或良性肺结节来向患者施用治疗。在一些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节来向患者施用治疗。在一些实施方案中,治疗被配置成治疗患者的肺癌。在一些实施方案中,治疗被配置成降低患者肺癌的严重程度。在一些实施方案中,治疗被配置成降低患者患有肺癌的风险。治疗可包括对肺癌的一种或更多种治疗。在一些实施方案中,治疗是手术、化学治疗、靶向治疗、免疫治疗、放射治疗、或其任意组合。[0447]经训练机器学习模型(例如步骤b’的经训练机器学习模型)可通过将数据集与参考数据集进行比较来生成数据集是指示恶性肺结节还是良性肺结节的推断结果。可使用参考数据集来训练机器学习模型。在一些实施方案中,参考数据集包含:来自患有肺结节的多个参考对象的多个参考生物样品的多种基因的基因表达测量值;关于参考对象的肺结节是良性的还是恶性的数据;以及任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。多个参考对象的第一部分可患有良性肺结节,并且多个参考对象的第二部分可患有恶性肺结节。在一些实施方案中,参考数据集包含多个个体参考数据集。多个个体参考数据集的相应个体参考数据集可包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。多个个体参考数据集可从多个参考对象获得。在一些实施方案中,不同的个体参考数据集是从不同的参考对象获得的。在一些实施方案中,每个个体参考数据集包含:i)来自一个参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于这一个参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,这一个参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中不同的个体参考数据集是从不同的参考对象获得的。在某些实施方案中,在训练机器学习模型期间进行过采样或欠采样校正(undersamplingcorrection)。例如,如果参考数据集包含较大数目的被确定为良性的样品和相对较少数目的被确定为恶性的样品,则可对恶性样品进行过采样以产生具有相等数目的良性样品和恶性样品的数据集。参考数据集的多种基因可包含选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少2种基因。在一些实施方案中,参考数据集的多种基因包含选自表1所列基因的组中的至少[0448]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0449](或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表2所列基因的组中的至少[0450]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175(或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表3所列基因的组中的至少2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62(或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表4所列基因的组中的至少[0451]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295(或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表5所列基因的组中的至少[0452]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142(或者其之间的任何值或范围)种基因。在一些实施方案中,参考数据集的多种基因包含选自表7所列基因的组中的至少[0453]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种基因。在一些实施方案中,参考数据集的多种基因包含选自表8所列基因的组中的至少[0454]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,或21种基因。在一些实施方案中,参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,参考数据集的一种或更多种临床特征包含结节的尺寸。在一些实施方案中,参考数据集的一种或更多种临床特征包含患者的年龄。在一些实施方案中,参考数据集的一种或更多种临床特征包含肺上叶中结节的存在。在一些实施方案中,参考数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,参考数据集的多种基因包含选自表7所列基因的组中的至少[0455]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种基因,并且参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,参考数据集的多种基因包含选自表7所列基因的组中的至少[0456]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31种基因,并且参考数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,参考数据集的多种基因包含表7所列的31种基因,并且参考数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,参考数据集的多种基因由表7所列的31种基因组成,并且参考数据集的一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。[0457]数据集的基因和参考数据集的基因可至少部分重叠和/或数据集的任选临床特征和参考数据集的任选临床特征可至少部分重叠。在一些实施方案中,参考生物样品是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液、或其任何衍生物。在一些实施方案中,参考生物样品是血液样品或其任何衍生物。在一些实施方案中,参考生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,参考生物样品是肺活检样品或其任何衍生物。在一些实施方案中,参考生物样品是鼻液样品或其任何衍生物。在一些实施方案中,参考生物样品是唾液样品或其任何衍生物。参考对象可以是人。[0458]基因表达数据可通过选自以下组的数据分析工具获得:big-ctm大数据分析工具、i-scopetm大数据分析工具、t-scopetm大数据分析工具、cellscan大数据分析工具、ms(分子特征)scoringtm分析工具和基因集变异分析(gsva)工具(例如,p-scope)。[0459]在一些实施方案中,经训练机器学习模型(例如步骤b’的经训练机器学习模型)是有监督机器学习算法或无监督机器学习算法。在一些实施方案中,经训练机器学习模型是使用以下来训练的:线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)、或其任意组合。在一些实施方案中,经训练机器学习模型是使用log来训练的。在一些实施方案中,经训练机器学习模型是使用岭回归来训练的。在一些实施方案中,经训练机器学习模型是使用lasso回归来训练的。在一些实施方案中,经训练机器学习模型是使用glm来训练的。在一些实施方案中,经训练机器学习模型是使用knn来训练的。在一些实施方案中,经训练机器学习模型是使用svm来训练的。在一些实施方案中,经训练机器学习模型是使用gbm来训练的。在一些实施方案中,经训练机器学习模型是使用rf来训练的。在一些实施方案中,经训练机器学习模型是使用nb来训练的。在一些实施方案中,经训练机器学习模型是使用en回归来训练的。在一些实施方案中,经训练机器学习模型是使用神经网络来训练的。在一些实施方案中,经训练机器学习模型是使用深度学习算法来训练的。在一些实施方案中,经训练机器学习模型是使用lda来训练的。在一些实施方案中,经训练机器学习模型是使用dtree来训练的。在一些实施方案中,经训练机器学习模型是使用adb来训练的。[0460]在一些实施方案中,所述方法包括确定将患者的肺结节分类为恶性肺结节或良性肺结节的可能性。在一些实施方案中,可能性为约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或约100%。在一些实施方案中,可能性为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%。[0461]在一些实施方案中,所述方法其还包括监测患者的肺结节,其中监测包括在多个时间点处评估患者的肺结节。在一些实施方案中,在多个时间点之间的患者肺结节评估的差异指示选自以下的一种或更多种临床指征:(i)患者肺结节的诊断,(ii)患者肺结节的预后,以及(iii)用于治疗患者肺结节的治疗过程有效力或无效力。在一些实施方案中,多个时间点包含至少2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,或50个不同的时间点。[0462]在另一个方面中,本公开内容提供了用于确定能够将肺结节分类为良性的或恶性的基因集的方法。来自对象的生物样品(例如血液)的基因集的一种或更多种基因的基因表达测量值可用于在不进行结节的活检的情况下将对象的肺结节分类为良性的或恶性的。在一些实施方案中,进行结节的活检以确认和/或追踪通过使用基因表达测量值数据获得的分类结果。在一些实施方案中,不进行结节的活检。所述方法可包括步骤a”、b”、c”和d”中的任一个、其任意组合或全部。在步骤a”中,可获得和/或提供参考数据集。参考数据集可包含多个个体参考数据集。多个个体参考数据集的相应个体参考数据集可包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。多个个体参考数据集可从多个参考对象获得。在一些实施方案中,不同的个体参考数据集是从不同的参考对象获得的。在一些实施方案中,每个个体参考数据集包含:i)来自一个参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于这一个参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,这一个参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中不同的个体参考数据集是从不同的参考对象获得的。多个参考对象的第一部分可患有良性肺结节,并且多个参考对象的第二部分可患有恶性肺结节。参考数据集可包含来自患有肺结节的多个参考对象的多个参考生物样品的多种基因的基因表达测量值;关于参考对象的肺结节是良性的还是恶性的数据;以及任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在步骤b”中,可使用参考数据集来训练机器学习模型以至少部分地基于选自以下的一种或更多种预测因子来推断肺结节是良性的还是恶性的:i)多种基因,以及ii)任选地,一种或更多种临床特征。经训练机器学习模型可至少部分地基于来自对象的生物样品的多种基因的基因表达测量值,以及任选地,对象的一种或更多种临床特征的临床特征数据来推断来自对象的肺结节是良性的还是恶性的。在一些实施方案中,可使用包含参考数据集的第一部分的训练数据集和包含参考数据集的第二部分的验证数据集来训练机器学习模型。在某些实施方案中,在训练机器学习模型期间进行过采样或欠采样校正。例如,如果数据集包含较大数目的被确定为良性的样品和相对较少数目的被确定为恶性的样品,则可对恶性样品进行过采样以产生具有相等数目的良性样品和恶性样品的数据集。在步骤c”中,可确定多种基因的特征重要性值。在步骤d”中,可选择基因集。在一些实施方案中,选择基因集作为用于训练机器学习模型的预测因子。可至少部分地基于特征重要性值来选择基因集。在一些实施方案中,基因集之基因的特征重要性值在多种基因的前[0463]3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,210,220,230,240,或250[0464](或者其之间的任何值或范围)个特征重要性值内。在一些实施方案中,基因集之基因的特征重要性具有大于30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%或90%的准确度。在一些实施方案中,基因集之基因的特征重要性具有大于30、35、40、45、50、55、60、65、70、75、80或90的阈值重要性。在某些实施方案中,机器学习模型的前3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,210,220,230,240,或250(或者其之间的任何值或范围)种预测因子包含基因集之基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表9所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表1所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表2所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表3所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表4所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表5所列基因的组中的至少2种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表9所列基因的组中的至少[0465]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,300,400,500,600,700,800,900,1000,1100或1178(或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表1所列基因的组中的至少[0466]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182(或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表2所列基因的组中的至少[0467]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175(或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表3所列基因的组中的至少[0468]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62(或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据组的多种基因包含选自表4所列基因的组中的至少[0469]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295(或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表5所列基因的组中的至少[0470]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142(或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a”的参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,步骤a”的参考数据集的多种基因包含选自表1、2、3、4、5或9中任一个或更多个所列基因的组中的至少2种基因,或其任意组合,并且步骤a”的参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,从参考数据集中去除具有相关系数(例如,在一些非限制性方面中>0.7至>0.9)的共线表达的基因。可通过任何合适的技术例如皮尔逊相关系数来测量共线基因表达。虽然已经描述了确定多种基因的特征重要性值,但这仅是可实践技术的一个非限制性说明性实例。在多个实施方案中,使用一种或更多种特征选择技术来确定可分类良性或恶性肺结节的基因集。特征选择技术可包括最小绝对收缩与选择算子(lasso)回归、支持向量机(svm)、正则化树、决策树、模因算法、随机多项式logit(randommultinomiallogit,rmnl)、自编码网络、子模特征选择、递归特征消除、或其任意组合。在这些情况中的一些中,不需要计算表9中每种基因的特征重要性值。参考生物样品可以是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液样品、唾液样品、或其任何衍生物。在一些实施方案中,参考生物样品是血液样品或其任何衍生物。在一些实施方案中,参考生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,参考生物样品是肺活检样品或其任何衍生物。在一些实施方案中,参考生物样品是鼻液样品或其任何衍生物。在一些实施方案中,参考生物样品是唾液样品或其任何衍生物。[0471]机器学习模型(例如步骤b”的机器学习模型)可使用有监督机器学习算法或无监督机器学习算法进行训练。在一些实施方案中,机器学习模型(例如步骤b”的机器学习模型)使用以下进行训练:线性回归、逻辑回归、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)、或其任意组合。在一些实施方案中,使用逻辑回归来训练机器学习模型。在一些实施方案中,使用岭回归来训练机器学习模型。在一些实施方案中,使用lasso回归来训练机器学习模型。在一些实施方案中,使用glm来训练机器学习模型。在一些实施方案中,使用knn来训练机器学习模型。在一些实施方案中,使用svm来训练机器学习模型。在一些实施方案中,使用gbm来训练机器学习模型。在一些实施方案中,使用rf来训练机器学习模型。在一些实施方案中,使用nb来训练机器学习模型。在一些实施方案中,使用en回归来训练机器学习模型。在一些实施方案中,使用神经网络来训练机器学习模型。在一些实施方案中,使用深度学习算法来训练机器学习模型。在一些实施方案中,使用lda来训练机器学习模型。在一些实施方案中,使用dtree来训练机器学习模型。在一些实施方案中,使用adb来训练机器学习模型。[0472]基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值将肺结节分类为恶性肺结节或良性肺结节。基因集可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值将肺结节分类为恶性肺结节或良性肺结节。[0473]在另一个方面中,本公开内容提供了用于开发能够推断患者的肺结节是良性的还是恶性的经训练机器学习模型的方法。所述方法可包括步骤a”’、b”’、c”’、d”’和e”’中的任一个、其任意组合或全部。步骤a’”可包括获得和/或提供第一参考数据集。第一参考数据集可包含多个第一个体参考数据集。多个第一个体参考数据集的相应第一个体参考数据集可包含:i)来自患有肺结节的参考对象的参考生物样品的多种基因的基因表达测量值,ii)关于参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。多个第一个体参考数据集可从多个参考对象获得。在一些实施方案中,不同的第一个体参考数据集是从不同的参考对象获得的。在一些实施方案中,每个第一个体参考数据集包含:i)来自一个参考对象的参考生物样品的多种基因的基因表达测量值,iii)关于这一个参考对象的肺结节是良性的还是恶性的数据,以及iii)任选地,这一个参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据,其中不同的第一个体参考数据集是从不同的参考对象获得的。多个参考对象的第一部分可患有良性肺结节,并且多个参考对象的第二部分可患有恶性肺结节。第一参考数据集可包含来自患有肺结节的多个参考对象的多个参考生物样品的多种基因的基因表达测量值;关于参考对象的肺结节是良性的还是恶性的数据;以及任选地,参考对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在步骤b”’中,可使用第一参考数据集来训练第一机器学习模型以至少部分地基于选自以下的一种或更多种预测因子来推断肺结节是良性的还是恶性的:i)多种基因,以及ii)任选地,一种或更多种临床特征。可训练第一机器学习模型以至少部分地基于以下来推断来自对象的肺结节是良性的还是恶性的:i)来自对象的生物样品的多种基因的基因表达测量数据,以及ii)任选地,对象的一种或更多种临床特征的临床特征数据。在一些实施方案中,使用包含第一参考数据集的第一部分的训练数据集和包含第一参考数据集的第二部分的验证数据集来训练第一机器学习模型。在步骤c”’中,可确定第一机器学习模型的一种或更多种预测因子的特征重要性值。在步骤d”’中,可至少部分基于特征重要性值来选择第一机器学习模型的a种预测因子,其中a可以是3至2000的整数,例如[0474]3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,210,220,230,240,250,300,400,500,600,700,800,900,1000,1100,1200,1300,1400,1500,1600,1700,1800,1900,或2000或其中的任何整数值或范围。在某些实施方案中,选择了第一机器学习模型的[0475]3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,210,220,230,240,或250[0476](或者其之间的任何值或范围)种预测因子。在一些实施方案中,a种预测因子具有前a种特征重要性值,例如,在一个非限制性方面中,a是10,并且选择具有10个最高特征重要性值的10种预测因子。在一些实施方案中,a种预测因子的特征重要性具有大于30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%或90%的准确度。在一些实施方案中,a种预测因子的特征重要性可具有大于30、35、40、45、50、55、60、65、70、75、80或90的阈值重要性。a种预测因子可包含一种或更多种基因,和/或任选地一种或更多种临床特征。虽然已经描述了确定一种或更多种预测因子的特征重要性值,但这仅是可实践技术的一个非限制性说明性实例。在多个实施方案中,使用一种或更多种特征选择技术来确定a种预测因子。特征选择技术可包括最小绝对收缩与选择算子(lasso)回归、支持向量机(svm)、正则化树、决策树、模因算法、随机多项式logit(rmnl)、自编码网络、子模特征选择、递归特征消除、或其任意组合。在这些情况中的一些中,在步骤c’”中,不需要计算第一机器学习模型的每种预测因子的特征重要性值。步骤e’”可包括至少部分地基于第二参考数据集来训练第二机器学习模型以获得经训练机器学习模型。经训练机器学习模型可至少部分地基于对象的a种预测因子的测量数据来推断对象的肺结节是良性的还是恶性的。第二参考数据集可包含多个第二个体参考数据集。多个第二个体参考数据集的相应第二个体参考数据集可包含:i)参考对象的a种预测因子的测量数据,以及ii)关于参考对象的肺结节是良性的还是恶性的数据。a种预测因子的测量数据可包含参考生物样品的a种预测因子中的一种或更多种基因预测因子的基因表达测量值,和/或任选地a种预测因子的任选一种或更多种临床特征预测因子的临床特征数据。多个第二个体参考数据集可从多个参考对象获得。在一些实施方案中,不同的第二个体参考数据集是从不同的参考对象获得的。在一些实施方案中,每个第二个体参考数据集包含:i)一个参考对象的a种预测因子的测量数据,以及ii)关于这一个参考对象的肺结节是良性的还是恶性的数据,其中不同的第二个体参考数据集是从不同的参考对象获得的。在某些实施方案中,在训练第一和/或第二机器学习模型期间进行过采样或欠采样校正。第二参考数据集可包含来自多个参考对象的a种预测因子的测量数据,以及关于参考对象的肺结节是良性的还是恶性的数据。在一些实施方案中,第一参考数据集的多种基因包含选自表9所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表9所列基因的组中的至少[0477]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,300,400,500,600,700,800,900,1000,1100或1178[0478](或者其之间的任何值或范围)种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表1所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表2所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表3所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表4所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的多种基因包含选自表5所列基因的组中的至少2种基因。在一些实施方案中,第一参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,第一参考数据集的多种基因包含选自表1、2、3、4、5或9中任一个或更多个所列基因的组中的至少2种基因,并且第一参考数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,从参考数据集中去除具有相关系数(例如,在一些非限制性方面中》0.7至》0.9)的共线表达的基因。可通过任何合适的技术例如皮尔逊相关系数来测量共线基因表达。在一些实施方案中,a种预测因子包含选自表1所列基因的组中的至少[0479]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182(或者其之间的任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表2所列基因的组中的至少[0480]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0481](或者其之间的任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表3所列基因的组中的至少[0482]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0483](或者其之间的任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表4所列基因的组中的至少[0484]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0485](或者其之间的任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表5所列基因的组中的至少[0486]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0487](或者其之间的任何值或范围)种基因作为预测因子。在一些实施方案中,a种预测因子包含选自表7所列基因的组中的至少[0488]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0489]种基因作为预测因子。在一些实施方案中,a种预测因子可包含选自表8所列基因的组中的至少2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,或21种基因作为预测因子。在一些实施方案中,a种预测因子包含以下作为预测因子:i)选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少2种基因,以及ii)任选地,结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,a种预测因子可包含选自表7所列组的至少[0490]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33或34种预测因子。在一些实施方案中,a种预测因子包含表7所列34种预测因子。在一些实施方案中,a种预测因子由表7所列34种预测因子组成。[0491]在一些实施方案中,参考生物样品是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液、或其任何衍生物。在一些实施方案中,参考生物样品是血液样品或其任何衍生物。在一些实施方案中,参考生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,参考生物样品是肺活检样品或其任何衍生物。在一些实施方案中,参考生物样品是鼻液样品或其任何衍生物。在一些实施方案中,参考生物样品是唾液样品或其任何衍生物。经训练机器学习模型(例如在步骤e”’中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e”’中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e”’中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e”’中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值推断肺结节是良性的还是恶性的。经训练机器学习模型(例如在步骤e’”中获得的经训练机器学习模型)可以以曲线下面积(auc)为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99、或大于约0.99的接受者操作特征(roc)曲线推断肺结节是良性的还是恶性的。[0492]基因表达数据可通过选自以下组的数据分析工具获得:big-ctm大数据分析工具、i-scopetm大数据分析工具、t-scopetm大数据分析工具、cellscan大数据分析工具、ms(分子特征)scoringtm分析工具和基因集变异分析(gsva)工具(例如,p-scope)。[0493]在一些实施方案中,经训练机器学习模型是有监督机器学习算法或无监督机器学习算法。在一些实施方案中,使用以下独立地训练第一和/或第二机器学习模型:线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)、或其任意组合。在一些实施方案中,使用log独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用岭回归独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用lasso回归独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用glm独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用knn独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用svm独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用gbm独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用rf独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用nb独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用en回归独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用神经网络独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用深度学习算法独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用lda独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用dtree独立地训练第一和/或第二机器学习模型。在一些实施方案中,使用adb独立地训练第一和/或第二机器学习模型。[0494]在一个方面中,本公开内容提供了用于在患有肺结节的患者中治疗肺癌的方法。所述方法可包括步骤a””、b””、c””和d””中的任一个、其任意组合或全部。步骤a””可包括获得数据集,所述数据集包含:i)来自患者的生物样品的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。步骤b””可包括提供数据集作为机器学习模型的输入,该机器学习模型经训练以生成该数据集是指示恶性肺结节还是良性肺结节的推断结果。步骤c””可包括接收表明该数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出。步骤d””可包括基于将患者的肺结节分类为恶性结节来施用治疗。[0495]步骤a””的数据集可包含:i)来自患者的生物样品中选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表1所列基因的组中的至少[0496]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0497](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表2所列基因的组中的至少[0498]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0499](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表3所列基因的组中的至少[0500]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0501](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表4所列基因的组中的至少[0502]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0503](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表5所列基因的组中的至少[0504]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0505](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表7所列基因的组中的至少[0506]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0507]种基因。在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因选自[0508]bcat1,ckcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。[0509]在一些实施方案中,步骤a””的数据集的至少两种肺病相关基因包含选自表8所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种基因。在一些实施方案中,步骤a””的至少两种肺病相关基因选自[0510]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0511]在一些实施方案中,步骤a””的数据集的一种或更多种临床特征包含选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,步骤a””的数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤a””的数据集包含:i)选自表7所列基因的组中的至少[0512]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0513]种基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,步骤a””的数据集包含:i)选自表7所列基因的组中的至少[0514]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0515]种基因的基因表达测量值,以及ii)患者的选自以下的临床特征的临床特征数据:结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤a””的至少两种肺病相关基因包含表7所列的31种基因,并且步骤a””的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,步骤a””的至少两种肺病相关基因由表7所列的31种基因组成,并且步骤a””的一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。[0516]来自机器学习模型的推断结果可包括,结节是恶性的置信度值为0至1,例如0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或1(或者其之间的任何值或范围),其中较高的置信度值可与结节是恶性的较高可能性相关。在一些实施方案中,生物样品是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液、或其任何衍生物。在一些实施方案中,生物样品是血液样品或其任何衍生物。在一些实施方案中,生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,生物样品是肺活检样品或其任何衍生物。在一些实施方案中,生物样品是鼻液样品或其任何衍生物。在一些实施方案中,生物样品是唾液样品或其任何衍生物。在某些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节或良性肺结节任选地进行患者的肺结节的活检。在某些实施方案中,所述方法包括至少部分地基于将患者的肺结节分类为恶性肺结节任选地进行患者的肺结节的活检。进行活检的决定可取决于推断结果的置信度值。机器学习模型(例如步骤b””的机器学习模型)可生成数据集是指示患者患有恶性肺结节还是良性肺结节的推断结果,其中患者患有恶性肺结节可能指示患者患有肺癌,并且患者患有良性肺结节可能指示患者不患有肺癌。在某些实施方案中,不进行患者的肺结节的活检。步骤b””的机器学习模型可根据本文中所述的方法,例如根据训练步骤b’的机器学习模型的方法进行训练。[0517]步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以曲线下面积(auc)为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99、或大于约0.99的接受者操作特征(roc)曲线推断数据集是指示患者患有恶性肺结节还是良性肺结节。[0518]步骤b””的机器学习模型可以以约80%至约100%的准确度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%、或约99.5%至约100%的准确度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%、或约100%的准确度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、或约99.5%的准确度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%、或约100%的准确度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约100%的灵敏度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%、或约99.5%至约100%的灵敏度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%、或约100%的灵敏度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、或约99.5%的灵敏度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%的灵敏度推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约100%的特异性推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%、或约99.5%至约100%的特异性推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%、或约100%的特异性推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、或约99.5%的特异性推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%、或约100%的特异性推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约100%的阳性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%、或约99.5%至约100%的阳性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%、或约100%的阳性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、或约99.5%的阳性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%、或约100%的阳性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约100%的阴性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%至约85%、约80%至约90%、约80%至约92%、约80%至约94%、约80%至约95%、约80%至约96%、约80%至约97%、约80%至约98%、约80%至约99%、约80%至约99.5%、约80%至约100%、约85%至约90%、约85%至约92%、约85%至约94%、约85%至约95%、约85%至约96%、约85%至约97%、约85%至约98%、约85%至约99%、约85%至约99.5%、约85%至约100%、约90%至约92%、约90%至约94%、约90%至约95%、约90%至约96%、约90%至约97%、约90%至约98%、约90%至约99%、约90%至约99.5%、约90%至约100%、约92%至约94%、约92%至约95%、约92%至约96%、约92%至约97%、约92%至约98%、约92%至约99%、约92%至约99.5%、约92%至约100%、约94%至约95%、约94%至约96%、约94%至约97%、约94%至约98%、约94%至约99%、约94%至约99.5%、约94%至约100%、约95%至约96%、约95%至约97%、约95%至约98%、约95%至约99%、约95%至约99.5%、约95%至约100%、约96%至约97%、约96%至约98%、约96%至约99%、约96%至约99.5%、约96%至约100%、约97%至约98%、约97%至约99%、约97%至约99.5%、约97%至约100%、约98%至约99%、约98%至约99.5%、约98%至约100%、约99%至约99.5%、约99%至约100%、或约99.5%至约100%的阴性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%、或约100%的阴性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至少约80%、约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、或约99.5%的阴性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以至多约85%、约90%、约92%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%、或约100%的阴性预测值推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以auc为约0.8至约1的roc曲线推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以auc为约0.8至约0.85、约0.8至约0.9、约0.8至约0.92、约0.8至约0.94、约0.8至约0.95、约0.8至约0.96、约0.8至约0.97、约0.8至约0.98、约0.8至约0.99、约0.8至约0.995、约0.8至约1、约0.85至约0.9、约0.85至约0.92、约0.85至约0.94、约0.85至约0.95、约0.85至约0.96、约0.85至约0.97、约0.85至约0.98、约0.85至约0.99、约0.85至约0.995、约0.85至约1、约0.9至约0.92、约0.9至约0.94、约0.9至约0.95、约0.9至约0.96、约0.9至约0.97、约0.9至约0.98、约0.9至约0.99、约0.9至约0.995、约0.9至约1、约0.92至约0.94、约0.92至约0.95、约0.92至约0.96、约0.92至约0.97、约0.92至约0.98、约0.92至约0.99、约0.92至约0.995、约0.92至约1、约0.94至约0.95、约0.94至约0.96、约0.94至约0.97、约0.94至约0.98、约0.94至约0.99、约0.94至约0.995、约0.94至约1、约0.95至约0.96、约0.95至约0.97、约0.95至约0.98、约0.95至约0.99、约0.95至约0.995、约0.95至约1、约0.96至约0.97、约0.96至约0.98、约0.96至约0.99、约0.96至约0.995、约0.96至约1、约0.97至约0.98、约0.97至约0.99、约0.97至约0.995、约0.97至约1、约0.98至约0.99、约0.98至约0.995、约0.98至约1、约0.99至约0.995、约0.99至约1、或约0.995至约1的roc曲线推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以auc为约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995、或约1的roc曲线推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以auc为至少约0.8、约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、或约0.995的roc曲线推断数据集是指示患者患有恶性肺结节还是良性肺结节。步骤b””的机器学习模型可以以auc为至多约0.85、约0.9、约0.92、约0.94、约0.95、约0.96、约0.97、约0.98、约0.99、约0.995、或约1的roc曲线推断数据集是指示患者患有恶性肺结节还是良性肺结节。[0519]在一些实施方案中,治疗被配置成治疗患者的肺癌。在一些实施方案中,治疗被配置成降低患者肺癌的严重程度。在一些实施方案中,治疗被配置成降低患者患有肺癌的风险。治疗可包括对肺癌的一种或更多种治疗。在一些实施方案中,治疗是手术、化学治疗、靶向治疗、免疫治疗、放射治疗、或其任意组合。[0520]在一个方面中,本公开内容提供了用于评估患者的肺结节以进行活检的方法。所述方法可包括步骤w、x、y和z中的任一个、其任意组合或全部。步骤w可包括获得数据集,所述数据集包含:i)来自患者的生物样品的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。基因表达测量值可通过对生物样品进行测定来获得。步骤x可包括提供该数据集作为机器学习模型的输入,该机器学习模型经训练以生成该数据集是指示恶性肺结节还是良性肺结节的推断结果。步骤y可包括接收表明该数据集是指示恶性肺结节还是良性肺结节的推断结果,作为机器学习模型的输出。步骤z可包括基于肺结节的机器学习分类来进行肺结节的活检。在一些实施方案中,步骤z可包括基于将肺结节分类为恶性结节或良性结节进行肺结节的活检。在一些实施方案中,步骤z可包括基于将肺结节分类为恶性结节进行肺结节的活检。进行活检的决定可取决于推断结果的置信度值。在某些实施方案中,不进行患者的肺结节的活检。在一些实施方案中,步骤w的数据集包含:i)生物样品的选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。[0521]在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表1所列基因的组中的至少[0522]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0523](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表2所列基因的组中的至少[0524]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0525](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表3所列基因的组中的至少[0526]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0527](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表4所列基因的组中的至少2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0528](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表5所列基因的组中的至少[0529]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0530](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表7所列基因的组中的至少[0531]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0532]种基因。在一些实施方案中,步骤w的至少两种肺病相关基因选自[0533]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。[0534]在一些实施方案中,步骤w的数据集的至少两种肺病相关基因包含选自表8所列基因的组中的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种基因。在一些实施方案中,步骤w的至少两种肺病相关基因选自[0535]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0536]在一些实施方案中,步骤w的数据集的一种或更多种临床特征包含患者的选自表6所列组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,步骤w的数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤w的数据集包含:i)选自表7所列基因的组中的至少[0537]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0538]种肺病相关基因的基因表达测量值,以及ii)选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,步骤w的数据集包含:i)选自表7所列基因的组中的至少[0539]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0540]种肺病相关基因的基因表达测量值,以及ii)患者的选自以下的临床特征的临床特征数据:结节尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤w的至少两种肺病相关基因包含表7所列的31种基因,并且步骤w的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,步骤w的至少两种肺病相关基因由表7所列的31种基因组成,并且步骤w的一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。[0541]在一些实施方案中,生物样品是血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液、或其任何衍生物。在一些实施方案中,生物样品是血液样品或其任何衍生物。在一些实施方案中,生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,生物样品是肺活检样品或其任何衍生物。在一些实施方案中,生物样品是鼻液样品或其任何衍生物。在一些实施方案中,生物样品是唾液样品或其任何衍生物。[0542]机器学习模型(例如步骤x的机器学习模型)可根据本文中所述的方法,例如根据训练步骤b’的机器学习模型的方法进行训练。[0543]某些方面涉及用于在患者中确定肺癌的方法。所述方法可包括步骤w’、x’、y’和z’中的任一个、其任意组合或全部。步骤w’可包括获得数据集,所述数据集包含:i)来自患者的生物样品的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。基因表达测量值可通过对生物样品进行测定来获得。步骤x’可包括提供该数据集作为机器学习模型的输入,该机器学习模型经训练以生成该数据集是指示患者患有肺癌还是不患有肺癌的推断结果。步骤y’可包括接收表明该数据集是指示患者患有肺癌还是不患有肺癌的推断结果作为机器学习模型的输出。步骤z’可包括电子地输出表明患者患有肺癌或不患有肺癌的报告。生物样品的基因表达测量可使用任何合适的技术进行,例如任何合适的rna定量技术,包括但不限于rna-seq、ampli-seq等。在一些实施方案中,步骤w’的数据集包含:i)生物样品的选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。[0544]在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表1所列基因的组中的至少[0545]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,或182[0546](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表2所列基因的组中的至少[0547]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,4l,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,或175[0548](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表3所列基因的组中的至少[0549]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60或62[0550](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表4所列基因的组中的至少[0551]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290,或295[0552](或者其之间的任何值或范围)种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表5所列基因的组中的至少[0553]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,55,60,65,70,75,80,85,90,95,100,105,110,115,120,125,130,135,140,或142[0554]种基因。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表7所列基因的组中的至少[0555]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0556]种基因。在一些实施方案中,步骤w’的至少两种肺病相关基因选自[0557]bcat1,crcp,coa4,ovca2,pom121,hla-dpa1,vps37c,mgst2,rnf220,hdac3,nfe2l1,wdr20,cnpy4,hoxb2,c6orf120,tmem8a,asap1-it2,c15orf54,cd101,fnbp1,tecr,prok2,slc35b3,tdrd9,clhc1,lpl,ifitm3,ogfod3,eif2b3,tmem65,和mkrn3。在一些实施方案中,步骤w’的数据集的至少两种肺病相关基因包含选自表8所列基因的组中的至少2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,或21种基因。在一些实施方案中,步骤w的至少两种肺病相关基因选自[0558]bcat1,usp32p2,cd177,qpct,scaf4,snrpd3,bcl9l,thbs1,slc22a18as,arcn1,dhx16,satb1,st6gal1,cxcl1,tdrd9,znf831,mtch1,fam86hp,dhx8,rnf114,和dctn4。[0559]在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含选自表6所列组的1、2、3、4、5、6、7或8种临床特征。在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含结节的尺寸。在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含患者的年龄。在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含肺上叶中结节的存在。在一些实施方案中,步骤w’的数据集的一种或更多种临床特征包含结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤w’的数据集包含:i)选自表7所列基因的组中的至少[0560]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0561]种肺病相关基因的基因表达测量值,以及ii)患者的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,步骤w’的数据集包含:i)生物样品的选自表7所列基因的组中的至少[0562]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0563]种肺病相关基因的基因表达测量值,以及ii)患者的选自以下的临床特征的临床特征数据:结节的尺寸、患者的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,步骤w’的至少两种肺病相关基因包含表7所列的31种基因,并且步骤w’的一种或更多种临床特征包含结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,步骤w’的至少两种肺病相关基因由表7所列的31种基因组成,并且步骤w’的一种或更多种临床特征由结节的尺寸、患者的年龄和肺上叶中结节的存在组成。[0564]在一些实施方案中,生物样品选自:血液样品、分离的外周血单个核细胞(pbmc)、肺活检样品、鼻液、唾液、及其任何衍生物。在一些实施方案中,生物样品是血液样品或其任何衍生物。在一些实施方案中,生物样品是分离的外周血单个核细胞(pbmc)或其任何衍生物。在一些实施方案中,生物样品是肺活检样品或其任何衍生物。在一些实施方案中,生物样品是鼻液样品或其任何衍生物。在一些实施方案中,生物样品是唾液样品或其任何衍生物。[0565]所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的准确度确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的灵敏度确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的特异性确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阳性预测值确定患者患有肺癌还是不患有肺癌。所述方法可以以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或大于约99%的阴性预测值确定患者患有肺癌还是不患有肺癌。机器学习模型(例如步骤x’的机器学习模型)可以以auc为至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99、或大于约0.99的接受者操作特征(roc)曲线推断数据集是指示患者患有肺癌还是不患有肺癌。[0566]来自机器学习模型的推断结果可包括,该患者患有肺癌的置信度值为0至1,例如0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或1(或者其之间的任何值或范围)。较高的置信度值可能与患者患有肺癌的较高可能性相关。[0567]机器学习模型(例如步骤x’的机器学习模型)可生成数据集是指示患者患有恶性肺结节还是良性肺结节的推断结果,其中患者患有恶性肺结节可指示该患者患有肺癌,并且患者患有良性肺结节可指示该患者不患有肺癌。机器学习模型可根据本文中所述的方法,例如根据训练步骤b’的机器学习模型的方法进行训练。[0568]在另一个方面中,本公开内容提供了用于评估对象的肺结节的计算机系统,其包括:数据库或被配置成存储数据集的另外的合适的数据存储系统;以及与所述数据库有效连接的一个或更多个计算机处理器,其中一个或更多个计算机处理器被单独地或共同地编程从而:(i)分析数据集以将对象的肺结节分类为恶性肺结节或良性肺结节;(ii)电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。本文中所述的计算机实施方法可在计算机系统(例如如上所述的那些)上执行。例如,计算机系统可包含一个或更多个处理器和共同存储计算机可读可执行指令的一个或更多个存储单元,作为执行所述计算机可读可执行指令的结果,使得一个或更多个处理器共同进行如上所述的编程步骤。本文中所述的计算机系统可包含与个人计算机通信连接的测定装置。数据集可以是本文中所述的数据集。在一些实施方案中,数据集包含a)基因表达数据,其中所述基因表达数据是通过测定从对象获得或来源于对象的生物样品以产生生物样品的来自多个肺病相关基因组基因座中的每个基因座的基因表达测量值获得的,其中所述多个疾病相关基因组基因座包含选自表4所列基因的组中的至少一种基因。在一些实施方案中,数据集包含:i)来自对象的生物样品的选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,数据集包含:i)对象的生物样品的选自表7所列基因的组中的至少[0569]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0570]种肺病相关基因的基因表达测量值,以及ii)对象的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,数据集包含:i)对象的生物样品的选自表7所列基因的组中的至少[0571]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0572]种肺病相关基因的基因表达测量值,以及ii)对象的选自以下的临床特征的临床特征数据:结节的尺寸、对象的年龄、肺上叶中结节的存在、或其任意组合。生物样品可以是本文中所述的生物样品。在一些实施方案中,数据集包含:i)表7所列的31种基因,以及ii)对象的选自以下的一种或更多种临床特征:结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,数据集由以下组成:i)表7所列的31种基因,以及ii)对象的选自以下的一种或更多种临床特征:结节尺寸、患者年龄和肺上叶中结节的存在。生物样品可以是本文中所述的生物样品。[0573]在一些实施方案中,计算机系统还包含与一个或更多个计算机处理器有效连接的电子显示器,其中电子显示器包含被配置成显示报告的图形用户界面。[0574]在另一个方面中,本公开内容提供了一个或更多个共同包含机器可执行代码的非暂时性计算机可读介质,所述机器可执行代码在由一个或更多个计算机处理器执行时使得所述一个或更多个计算机处理器执行用于评估对象的肺结节的方法,所述方法包括:(a)测定从对象获得或来源于对象的生物样品以产生数据集;(b)分析该数据集以将对象的肺结节分类为恶性肺结节或良性肺结节;以及(c)电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。数据集可以是本文中所述的数据集。在一些实施方案中,数据集包含生物样品的来自多个肺病相关基因组基因座中的每个基因座的基因表达测量值,其中多个疾病相关基因组基因座包含选自表4所列组的至少一种基因。在一些实施方案中,数据集包含:i)来自对象的生物样品的选自表1、2、3、4、5、7和8中任一个或更多个所列基因的组中的至少两种肺病相关基因的基因表达测量值,以及ii)任选地,对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,数据集包含:i)对象的生物样品的选自表7所列基因的组中的至少[0575]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0576]种肺病相关基因的基因表达测量值,以及ii)对象的选自表6所列临床特征组的1、2、3、4、5、6、7或8种临床特征的临床特征数据。在一些实施方案中,数据集包含:i)对象的生物样品的选自表7所列基因的组中的至少[0577]2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,或31[0578]种肺病相关基因的基因表达测量值,以及ii)对象的选自以下的临床特征的临床特征数据:结节的尺寸、对象的年龄、肺上叶中结节的存在、或其任意组合。在一些实施方案中,数据集包含:i)表7所列的31种基因,以及ii)对象的选自以下的一种或更多种临床特征:结节的尺寸、患者的年龄和肺上叶中结节的存在。在一些实施方案中,数据集由以下组成:i)表7所列的31种基因,以及ii)对象的选自以下的一种或更多种临床特征:结节的尺寸、患者的年龄和肺上叶中结节的存在。生物样品可以是本文中所述的生物样品。[0579]图10示出了用于评估对象的肺结节的示例方法1000的概述。方法1000可包括测定从对象获得或来源于对象的生物样品以产生包含生物样品在多个肺病相关基因组基因座中的每个基因座处的基因表达测量值的数据集,如在操作1002中。在一些实施方案中,数据集还包含对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。在一些实施方案中,多个疾病相关基因组基因座包含选自表1所列基因的组中的至少一种基因。在一些实施方案中,多个疾病相关基因组基因座包含选自表2所列基因的组中的至少一种基因。在一些实施方案中,多个疾病相关基因组基因座包含选自表3所列基因的组中的至少一种基因。在一些实施方案中,多个疾病相关基因组基因座包含选自表4所列基因的组中的至少一种基因。在一些实施方案中,多个疾病相关基因组基因座包含选自表5所列基因的组中的至少一种基因。在一些实施方案中,多个疾病相关基因组基因座包含选自表7所列基因的组中的至少一种基因。在一些实施方案中,多个疾病相关基因组基因座包含选自表8所列基因的组中的至少一种基因。在一些实施方案中,数据集包含i)来自患者的生物样品中选自表7所列基因的组中的至少2种肺病相关基因的基因表达测量值,以及对象的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。方法1000可包括分析数据集以将对象的肺结节分类为恶性肺结节或良性肺结节,如在操作1004中。方法1000可包括电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告,如在操作1006中。[0580]本公开内容的方法可包括将经训练机器学习算法应用于(例如,通过rna-seq、ampli-seq等获取的)基因表达数据以及任选地对象的临床特征数据来评估对象的肺结节。经训练机器学习算法可包含基于机器学习的分类器,其被配置成处理基因表达数据以及任选地临床特征数据以评估肺结节(例如,确定肺结节是恶性的还是良性的)。机器学习分类器可如下训练:使用临床数据集(例如,来自一个或更多个对象组群的参考数据集),例如使用基因表达数据和/或临床健康数据,例如将对象的临床特征数据作为机器学习分类器的输入并将对象的已知临床健康结局(例如,肺结节是恶性的或良性的)作为机器学习分类器的输出。[0581]机器学习分类器可包含一种或更多种机器学习算法。机器学习算法的一些实例可包括线性回归、逻辑回归(log)、岭回归、lasso回归、弹性网络(en)回归、支持向量机(svm)、梯度提升机(gbm)、k最近邻(knn)、广义线性模型(glm)、朴素贝叶斯(nb)分类器、神经网络、随机森林(rf)、深度学习算法、线性判别分析(lda)、决策树学习(dtree)、自适应提升(adb)或其任意组合,或者用于分类和回归的另外的有监督学习算法或无监督学习算法。可使用对应于对象数据(例如,基因表达数据和/或临床健康数据)的一个或更多个参考数据集来训练机器学习分类器。[0582]用于训练机器学习分类器的参考数据集可从例如具有共同临床特征(特性)和临床结局(标签)的一个或更多个患者组群生成。参考数据集可包含特性的集合和与所述特性相对应的标签。特性可对应于包含对象数据(例如,基因表达数据和/或临床健康数据,例如临床特征数据)的算法输入。特性可包含临床特征,例如如基因表达数据和/或临床健康数据的某些范围、类别或水平。特性可包含对象信息,例如患者年龄、患者病史、其他医学病症、目前或过去的药物治疗、结节的尺寸、肺上叶中结节的存在和/或自最后一次观察以来的时间。例如,可将在给定时间点处从给定患者收集的特性的集合共同用作标记,其可指示对象在给定时间点处的临床健康结局(例如,恶性或良性的肺结节)。[0583]例如,对象数据(例如,基因表达数据和/或临床健康数据)的范围可被表示为连续测量值的多个不相交的连续范围,并且对象数据(例如,基因表达数据和/或临床健康数据)的类别可被表示为测量值的多个不相交的集合(例如,{“高”,“低”}、{“高”,“正常”}、{“低”,“正常”}、{“高”,“边缘性偏高”,“正常”,“低”}、{“是”,“否”}、{“存在”,“不存在”}等)。临床特征还可包含表明对象的健康史的临床标签,例如疾病或病症的诊断、先前施用的临床治疗(例如药物、手术治疗、化学治疗、放射治疗、免疫治疗等)、行为因素或其他健康状况(例如,高血压症或高血压、高血糖症或高血糖、高胆固醇血症或高血胆固醇、变应性反应或其他不良反应病史等)。患者的临床特征age的临床特征数据可以是患者的年龄。患者的临床特征sex的临床特征数据可以是患者的性别。患者的临床特征肺上叶中结节的存在(ncnupyn)的临床特征数据可以是是或否。患者的临床特征吸烟状况(mhtbstat)的临床特征数据可以是过去或目前。患者的临床特征慢性阻塞性肺病(mhcpdyn)的临床特征数据可以是是或否。患者的临床特征棘状肺结节(ncnmyn)的临床特征数据可以是是或否。患者的临床特征肺气肿(mhempyn)的临床特征数据可以是是或否。标签可包含临床结局,例如如恶性或良性的肺结节。[0584]机器学习分类器算法可处理输入特征以生成包含一种或更多种分类、一种或更多种预测、或其组合的输出值。例如,这样的分类或预测可包括肺结节的二元分类、一组分类标签(例如,“恶性肺结节”和“良性肺结节”)之间的分类、患有恶性肺结节或良性肺结节的可能性(例如,相对可能性或概率)、以及任何数字预测的置信区间。可级联多种机器学习技术,使得机器学习技术的输出也可用作机器学习分类器的后续层或子部分的输入特征。[0585]为了训练机器学习分类器模型(例如,通过确定模型的权重和相关性)来生成实时分类或预测,可使用参考数据集来训练模型。这样的数据集可能足够大以生成统计学上显著的分类或预测。在一些情况下,对数据集进行注释或标记。[0586]数据集可被分成子集(例如,离散的或重叠的),例如训练数据集、开发数据集和测试数据集。例如,数据集可被分成包含80%的数据集的训练数据集、包含10%的数据集的开发数据集和包含10%的数据集的测试数据集。训练数据集可包含数据集的约10%、约20%、约30%、约40%、约50%、约60%、约70%、约80%、或约90%。开发数据集可包含数据集的约10%、约20%、约30%、约40%、约50%、约60%、约70%、约80%、或约90%。测试数据集可包含数据集的约10%、约20%、约30%、约40%、约50%、约60%、约70%、约80%、或约90%。可通过对对应于一个或更多个患者组群的数据的集合进行随机采样来选择训练集(例如,训练数据集)以确保采样的独立性。或者,可通过对对应于一个或更多个患者组群的数据的集合进行按比例采样来选择训练集(例如,训练数据集)以确保采样的独立性。[0587]参考数据集可被分成子集(例如,离散的或重叠的),例如训练数据集和验证数据集。例如,参考数据集可被分成包含80%的数据集的训练数据集和包含20%的数据集的验证数据集。训练数据集可包含参考数据集的5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或95%(或者其之间的任何值或范围)。验证数据集可包含参考数据集的5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或95%(或者其之间的任何值或范围)。可使用2、2.5、5或10(或者其之间的任何值或范围)倍交叉验证。[0588]为了验证机器学习分类器模型的性能,可生成不同的性能指标。例如,接受者操作曲线下的面积(areaunderthereceiver-operatingcurve,auroc)可用于确定机器学习分类器的诊断能力。例如,机器学习分类器可使用可调节的分类阈值,使得特异性和灵敏度是可调节的,并且接受者操作曲线(roc)可用于确定与不同的特异性和灵敏度值相对应的不同操作点。[0589]在一些情况下,例如当数据集不够大时,可进行交叉验证来评估机器学习分类器模型在不同训练数据集和测试数据集中的鲁棒性(robustness)。[0590]为了计算性能指标例如灵敏度、特异性、准确度、阳性预测值(positivepredictivevalue,ppv)、阴性预测值(negativepredictivevalue,npv)、auprc、auroc或类似指标,可使用以下定义。“假阳性”可以指其中对象的肺结节被错误地分类为恶性肺结节的结局。“真阳性”可以指其中对象的肺结节被正确分类为恶性肺结节的结局。“假阴性”可以指其中对象的肺结节被错误地分类为良性肺结节的结局。“真阴性”可以指其中对象的肺结节被正确地分类为良性肺结节的结局。[0591]基因表达测量可使用任何合适的技术进行,例如任何合适的rna定量技术,包括但不限于rna-seq、ampli-seq等。在一些实施方案中,基因表达数据是通过选自以下组的数据分析工具获得的:big-ctm大数据分析工具、i-scopetm大数据分析工具、t-scopetm大数据分析工具、cellscan大数据分析工具、ms(分子特征)scoringtm分析工具和基因集变异分析(gsva)工具(例如,p-scope)。[0592]可对机器学习分类器进行训练直至满足准确度或性能的某些预定条件,例如具有与诊断准确度度量相对应的最小期望值。例如,诊断准确度度量可对应于肺结节是恶性的或良性的可能性的预测。诊断准确度度量的一些实例可包括与确定肺结节是恶性的还是良性的诊断准确度相对应的灵敏度、特异性、阳性预测值(ppv)、阴性预测值(npv)、准确度、精确度-召回率曲线下面积(areaundertheprecision-recallcurve,auprc)和接受者操作特征(roc)曲线的曲线下面积(auc)(auroc)。[0593]例如,这样的预定条件可以是确定肺结节是恶性的还是良性的灵敏度包含例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%的值。[0594]作为另一个实例,这样的预定条件可以是确定肺结节是恶性的还是良性的特异性包含例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%的值。[0595]作为另一个实例,这样的预定条件可以是确定肺结节是恶性的还是良性的阳性预测值(ppv)包含例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%的值。[0596]作为另一个实例,这样的预定条件可以是确定肺结节是恶性的还是良性的阴性预测值(npv)包含例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%的值。[0597]作为另一实例,这样的预定条件可以是确定肺结节是恶性的还是良性的接受者操作特性(roc)曲线的曲线下面积(auc)(auroc)包含至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99的值。[0598]作为另一个实例,这样的预定条件可以是确定肺结节是恶性的还是良性的精确度-召回率曲线下面积(auprc)包含至少约0.10、至少约0.15、至少约0.20、至少约0.25、至少约0.30、至少约0.35、至少约0.40、至少约0.45、至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99的值。[0599]在一些实施方案中,经训练分类器可被训练或配置成以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%的灵敏度确定肺结节是恶性的还是良性的。[0600]在一些实施方案中,经训练分类器可被训练或配置成以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%的特异性确定肺结节是恶性的还是良性的。[0601]在一些实施方案中,经训练分类器可被训练或配置成以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%的阳性预测值(ppv)确定肺结节是恶性的还是良性的。[0602]在一些实施方案中,经训练分类器可被训练或配置成以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%的阴性预测值(npv)确定肺结节是恶性的还是良性的。[0603]在一些实施方案中,经训练分类器可被训练或配置成以至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99的接受者操作特征(roc)曲线的曲线下面积(auc)(auroc)确定肺结节是恶性的还是良性的。[0604]在一些实施方案中,经训练分类器可被训练或配置成以至少约0.10、至少约0.15、至少约0.20、至少约0.25、至少约0.30、至少约0.35、至少约0.40、至少约0.45、至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99的精确度-召回率曲线下面积(auprc)确定肺结节是恶性的还是良性的。[0605]本公开内容提供了被编程以实施本公开内容的方法的计算机系统。图11示出了被编程或以其他方式配置成实施本文中提供的方法的计算机系统1101。[0606]计算机系统1101可调节本公开内容的多个方面,例如如测定从对象获得或来源于对象的生物样品以产生包含生物样品的来自多个肺病相关基因组基因座中的每个基因座的基因表达测量值的数据集,分析该数据集以将对象的肺结节分类为恶性肺结节或良性肺结节,以及电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。在一些实施方案中,数据集还包含患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。计算机系统1101可以是用户的电子设备或相对于电子设备位于远程的计算机系统。该电子设备可以是移动电子设备。[0607]计算机系统1101包括中央处理单元(centralprocessingunit,cpu,在本文中也称为“处理器”和“计算机处理器”)1105,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统1101还包含存储器或存储器位置1110(例如,随机存取存储器、只读存储器、闪存)、电子存储单元1115(例如,硬盘)、用于与一个或更多个其他系统通信的通信接口1120(例如,网络适配器),以及外围设备1125,例如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器1110、存储单元1115、接口1120和外围设备1125通过例如主板的通信总线(实线)与cpu1105通信。存储单元1115可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统1101可借助于通信接口1120与计算机网络(“网络”)1130有效连接。网络1130可以是互联网、内部网和/或外部网,或者与互联网通信的内部网和/或外部网。[0608]在一些情况下,网络1130是电信和/或数据网络。网络1130可包含一个或更多个计算机服务器,其可启用分布式计算,例如云计算。例如,一个或更多个计算机服务器可启用在网络1130(“云”)上的计算,以进行本公开内容的分析、计算和生成的多个方面,例如,如测定从对象获得或来源于对象的生物样品以产生包含生物样品的来自多个肺病相关基因组基因座中的每个基因座的基因表达测量值的数据集,分析该数据集以将对象的肺结节分类为恶性肺结节或良性肺结节,以及电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。在一些实施方案中,数据集还包含患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。这样的云计算可由云计算平台例如,如amazonwebservices(aws)、microsoftazure、googlecloudplatform和ibmcloud提供。在一些情况下,网络1130可在计算机系统1101的帮助下实现对等网络(peer-to-peernetwork),其可使得与计算机系统1101连接的设备能够充当客户端或服务器。[0609]cpu1105可执行一系列机器可读指令,其可体现在程序或软件中。指令可存储在存储器位置例如存储器1110中。指令可定向到cpu1105,cpu1105可随后编程或以其他方式配置cpu1105以实施本公开内容的方法。由cpu1105进行的操作的实例可包括获取、解码、执行和写回。[0610]cpu1105可以是电路(例如集成电路)的一部分。系统1101的一个或更多个其他组件可包括在电路中。在一些情况下,该电路是专用集成电路(applicationspecificintegratedcircuit,asic)。[0611]存储单元1115可存储文件,例如驱动程序、文库和保存的程序。存储单元1115可存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统1101可包含一个或更多个另外的数据存储单元,其位于计算机系统1101的外部,例如位于通过内部网或互联网与计算机系统1101通信的远程服务器上。[0612]计算机系统1101可通过网络1130与一个或更多个远程计算机系统进行通信。例如,计算机系统1101可与用户远程计算机系统通信。远程计算机系统的一些实例包括个人计算机(例如,便携式pc)、平板电脑(slatepc’s)或平板电脑(tabletpc’s)(例如ipad、galaxytab)、电话、智能电话(例如,iphone、安卓支持设备、)或个人数字助理。用户可通过网络1130访问计算机系统1101。[0613]可通过存储在计算机系统1101的电子存储位置上(例如如存储器1110或电子存储单元1115上)的机器(例如计算机处理器)可执行代码的方式来实施本文中所述的方法。机器可执行或机器可读代码可以以软件的形式提供。在使用期间,代码可由处理器1105执行。在一些情况下,代码可从存储单元1115检索并存储在存储器1110中,以供处理器1105随时访问。在一些情况下,可排除电子存储单元1115,并且将机器可执行指令存储在存储器1110中。[0614]可对代码进行预编译和配置,以与具有适用于执行代码的处理器的机器一起使用,或者可在运行时进行编译。代码可以以编程语言提供,可选择编程语言以使代码能够以预编译或编译时的方式执行。[0615]本文中提供的系统和方法(例如计算机系统1101)的方面可体现在编程中。可将技术的多个方面视为通常以机器可读介质的类型承载或体现的机器(或处理器)可执行代码和/或关联数据形式的“产品”或“制品”。机器可执行代码可存储在电子存储单元上,例如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”类型的介质可包括计算机、处理器等的任何或所有有形存储器,或其相关模块,例如多种半导体存储器、磁带驱动器、磁盘驱动器等,它们可随时为软件编程提供非暂时性存储。软件的全部或一部分有时可通过互联网或多种其他电信网络进行通信。例如,这样的通信可使得能够将软件从一台计算机或处理器加载到另一计算机或处理器,例如从管理服务器或主机加载到应用服务器的计算机平台。因此,可承载软件元件的另一种类型的介质包括光波、电波和电磁波,例如在本地设备之间的物理接口之间、通过有线和光学座机网络以及通过多种空中链路使用。携带这样的波的物理元件例如有线或无线链路、光学链路等也可被视为携带软件的介质。除非限于非暂时性有形“存储”介质,否则本文中使用的术语例如计算机或机器“可读介质”是指参与向处理器提供指令以供执行的任何介质。[0616]因此,机器可读介质(例如计算机可执行代码)可采用多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,例如任何计算机等中的任何存储设备等,例如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,例如这样的计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的线。载波传输介质可采用电信号或电磁信号或声波或光波的形式,例如在射频(radiofrequency,rf)和红外(infrared,ir)数据通信期间生成的那些。因此,计算机可读介质的常见形式包括例如:软驱(floppydisk)、软盘(flexibledisk)、硬盘、磁带、任何其他磁介质、cd-rom、dvd或dvd-rom、任何其他光学介质、打孔卡纸磁带、带孔图案的任何其他物理存储介质、ram、rom、prom和eprom、flash-eprom、任何其他存储芯片或盒带、用于传输数据或指令的载波、用于传输这样的载波的电缆或链路、或计算机可从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可能涉及将一个或更多个指令的一个或更多个序列传送给处理器以供执行。[0617]计算机系统1101可包含电子显示器1135或与之通信,电子显示器1135包含用户界面(userinterface,ui)1140。用户界面(ui)的实例包括但不限于图形用户界面(graphicaluserinterface,gui)和基于web的用户界面。例如,计算机系统可包含图形用户界面(gui),其被配置成显示例如对象数据、对象的肺结节被确定为恶性肺结节或良性肺结节、和/或从对象数据生成的预测或评估。[0618]本公开内容的方法和系统可通过一种或更多种算法来实施。算法可在被中央处理单元1105执行时通过软件实施。算法可例如测定从对象获得或来源于对象的生物样品以产生包含生物样品在多个肺病相关基因组基因座中的每个基因座处的基因表达测量值的数据集,分析该数据集以将对象的肺结节分类为恶性肺结节或良性肺结节,以及电子地输出指示将对象的肺结节分类为恶性肺结节或良性肺结节的报告。在一些实施方案中,数据集还包含患者的选自表6所列临床特征组的一种或更多种临床特征的临床特征数据。实施例[0619]实施例1:rna-seq数据的机器学习分类[0620]进行差异基因表达分析以鉴定在患有良性肺结节的对象与患有恶性肺结节的对象之间的全血样品中差异表达最大的基因(例如,生物标志物)。分析了包含来自152名对象的样品的生物标志物数据集。其中,生物标志物数据集中80个样品具有良性肺结节的诊断,并且72个样品具有恶性肺结节的诊断。使用rna-seq技术分析来自对象的全血样品的基因表达测量值。[0621]使用包含来自604名对象的肺结节样品的训练数据集来训练机器学习算法。分析了来自对象的全血样品的基因表达测量值。随后,使用包含来自487名对象的长结节(longnodules)样品的验证数据集来验证机器学习算法。使用rna-seq技术对样品进行分析。在以下实施例中,对包含以下的八种机器学习分类器进行训练以基于对rna-seq数据的分析区分恶性肺结节与良性肺结节:梯度提升机(gbm)、逻辑回归模型(log)、支持向量机(svm)、随机森林(rf)、广义线性模型(glm)、k最近邻(knn)、朴素贝叶斯(nb)和弹性网络(en)。[0622]对八种不同的机器学习分类器进行训练以确定高性能基因的集合,以使用生物标志物数据集区分恶性肺结节与良性肺结节。生物标志物数据集是通过全转录组rna测序获得的。生物标志物数据集包含80个具有良性肺结节的诊断的肺结节样品和72个具有恶性肺结节的诊断的样品。[0623]最初鉴定了共计1,430种基因在恶性肺结节样品与良性肺结节样品之间差异表达。将差异表达基因的基因表达的log2比率用于确定基因的最佳集合。log2比率定义为t/r,其中t是测试样品的基因表达水平,并且r是参考样品的基因表达水平。在去除表现出共线表达(相关性或r》0.8)的1,430种基因的子集之后,鉴定了总数目为1,178种的基因特征(表9)。[0624]表9:1,178种基因特征的基因集[0625][0626][0627][0628][0629][0630][0631]然后使用这1,178种基因特征通过交叉验证方法来验证八种机器学习分类器。在交叉验证方法中,将生物标志物数据集分成包含训练集和验证集的两个组。图1a至图1b示出了当考虑将80%的数据集用于训练分类器而将20%的数据集用于验证时的交叉验证实验的结果。[0632]图1a是接受者操作特征(roc)图,其示出了使用从核糖核酸(rna)测序(rna-seq)数据生成的1,178种基因特征的集合来区分恶性肺结节与良性肺结节的八种机器学习分类器的性能。这1,178种基因的集合在患有恶性肺结节的患者与患有良性肺结节的患者的血液样品中差异表达。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。[0633]图1b示出了使用1,178种基因特征的集合分析rnaseq数据来区分恶性肺结节与良性肺结节的示例性经训练机器学习分类器算法的结果。来自图1的roc图的相应数据在图1b中以列表格式示出。gbm、svm和en分类器是最有效的分类器。[0634]使用75%的数据集用于训练分类器以及25%的数据集用于验证来进行类似的验证。图2a至图2b示出了当考虑将75%的数据集用于训练分类器而将25%的数据集用于验证时的交叉验证实验的结果。[0635]图2a是用于基于rna-seq数据的分析优化差异表达基因来区分恶性肺结节与良性肺结节的roc图。六种机器学习分类器包含log、glm、knn、rf、svm和gbm。图2b示出了示例性经训练机器学习分类器算法在优化差异表达基因从而区分恶性肺结节与良性肺结节方面的结果。来自图2a的roc图的相应数据在图2b中以列表格式示出。gbm、svm和knn分类器是最有效的分类器。[0636]为了获得较少数目的特征来对肺结节进行分类,将来自7种分类器的准确预测肺结节的前50个预测基因(图1a至图1b)组合。此外,去除了重叠基因,从而产生182种基因特征的基因集(如表1中所示)。[0637]表1:182种基因特征的基因集[0638][0639]测试了仅使用182种基因特征的分类器与使用1,178种基因特征的分类器相比在预测肺结节方面的性能。图3a至图3b中示出了使用10倍交叉验证实验与182种基因特征的七种分类器的性能结果。[0640]图3a是示出使用从rna-seq数据生成的182种基因特征的集合来区分恶性肺结节与良性肺结节的七种机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。来自图3a的roc图的相应数据在图3b中以列表格式示出。图3b示出了使用182种基因特征的集合分析rnaseq数据来区分恶性肺结节与良性肺结节的示例性经训练机器学习分类器算法的结果。[0641]每个交叉验证数据集包含80%训练数据和20%验证数据。结果表明,182种基因特征有效地区分恶性肺结节与良性肺结节。一般而言,使用182种基因比使用全部1,178种基因的集合更有效。此外,与全部1,178种基因特征的集合相比,当使用182种基因特征时,gbm和log机器学习分类器实现了更好的预测值。与全部1,178种基因特征的集合相比,当使用182种基因的集合时,svm模型实现特异性降低约0.05,但提高了svm模型的整体性能。[0642]分别地,在男性对象和女性对象中独立地测验了全部1,178种基因的集合。与其他分类器相比,gbm机器学习分类器实现了对男性对象的最佳预测性能,并且nb机器学习分类器实现了对女性对象的最佳预测性能。基于来自针对男性的gbm分类器的基因特征以及针对女性的nb分类器中相同基因特征的排名,计算每种基因特征的基因重要性。选择基因重要性》50的基因包含在较小的子集中,从而从最初用于进行预测的1,178种基因特征的集合产生了175种基因特征的集合。[0643]使用类似的10倍交叉验证(使用生物标志物数据集的80%训练和20%验证分配)来测验使用八种分类器的175种基因特征的集合的有效性。图4a示出了使用整个数据集(男性和女性)中的175种基因的分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。图4b示出了对应于图4a的示例性经训练机器学习分类器算法的列表格式的结果。[0644]来自图4a的roc图的相应数据在图4b中以列表格式示出。与使用182种基因特征的集合相比,knn和en分类器使用175种基因特征的集合实现了更好的预测值。[0645]图5a示出了使用175种基因特征和10倍验证技术(具有80%训练和20%验证分配)的8种分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。来自图5a的roc图的相应数据在图5b中以列表格式示出。gbm和svm分类器使用175种基因特征实现了最高的预测值。[0646]表2:175种基因特征的基因集[0647][0648]175种基因特征的集合和182种基因特征的集合总共具有在这两个集合之间重叠的62个共享基因特征。使用生物标志物数据集测验了这62种基因特征在预测肺结节方面的有效性。使用其中训练与验证分配为75%与25%的10倍交叉验证。图6b示出了对应于图6a的示例性经训练机器学习分类器算法的列表格式的结果。图6a是示出使用从rna-seq数据生成的62种基因特征的集合来区分恶性肺结节与良性肺结节的机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。这62种基因特征的集合在所有八种分类器中都实现了高预测值。[0649]表3:表1与表2之间共享的62种基因特征的基因集[0650][0651]分别地,组合182种基因特征的集合和175种基因特征的集合,并去除重叠基因以产生295种基因特征的集合。使用生物标志物数据库测试这295种基因特征的集合,以测验在对肺癌进行分类方面的有效性。使用这295种基因特征使用10倍交叉验证技术(以75%与25%分配以生成训练和验证数据集)来测试分类器。图7a是示出使用从rna-seq数据生成的295种基因特征的集合来区分恶性肺结节与良性肺结节的机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。[0652]图7b示出了对应于图7a的示例性经训练机器学习分类器算法的列表格式的结果。除glm之外的所有分类器在使用生物标志物数据集对肺结节进行分类方面均实现了高预测值。[0653]表4:表1和表2中包含的295种基因特征的基因集[0654][0655][0656]结果证明机器学习分类器在区分恶性肺结节与良性肺结节方面表现良好。进行特征选择以将特征的集合从1,178种基因减少至以下之一者:(i)295种基因的集合,(ii)182种基因的集合,(iii)175种基因的集合,或(iv)62种基因的集合,其在区分恶性肺结节与良性肺结节方面实现了积极的结果。在以下实施例中,研究了较大数据集来补偿临床数据的异质性。[0657]从七种分类器选择前50种预测因子,并在去除重叠基因之后,获得142种基因特征的集合(表5)。七种分类器包含所述八种分类器中除glm之外的部分。使用rna-seq获得了142种基因特征的集合的基因表达数据。所有八种分类器均使用生物标志物数据集中的142种基因特征的集合,使用10倍交叉验证技术(其中训练数据和验证数据分配为80%与20%)进行训练和验证。[0658]表5:142种基因特征的基因集。[0659]abcf1cep250gusbmir22hgplcb1sav1tspan33abhd3chmp4ahdac3mir3939plch1scamp3ucp2abhd6clhc1herc4mkksplvapsdhauqcc3aclycnpy4hla-dpa1mkrn3polr3dsept11usf2adcy9coa4hmgclmrc2pom121slc25a14usp38ahnakcol6a3hnrnph1mtfmtppp1r21slc35b3vil1ano6cox15hnrnpu-as1napbppp1r3dsmg1p5vps26aap3d1crcphoxb2ncapd2ppp2r5asnora25vps37carhgap21ctsaifitm3nfe2l1ppp6cspecc1lvta1asap1-it2cystm1kiznomo2prok2srp68wdr20baz1bdnmt1linc00944nplpsmc4taf8wdr45bbcat1eef1dp3linc01126nup210lpsmd5tdrd9yipf1brcat107eif2b3loc100130093ogfod3ptgs2tecrzbtb17bud13exosc3loc101929331ovca2ptx3tenm1zc3h12cc15orf54f8a1loc389765palldrabl6tgfb1zdhhc16c6orf120fam161blplpaqr7rfwd3tmem156zfp90campfam217blypd2pccarnf220tmem218znf564ccng2fasmad1l1pcsk6rnpc3tmem65znf609ccnl1fnbp1med1pdgfarpl36altmem8aznf772cd101galnt14mgst2pkd1p6rrbp1trmt1lzscan2cdk5r1golga1ꢀꢀꢀꢀꢀ[0660]实施例2:ampli-seq数据的机器学习分类[0661]收集来自604名对象的较大数据集来测验175种基因特征的集合在区分恶性与良性肺结节方面的有效性。使用ampli-seq技术分析来自对象的全血样品的基因表达测量值。使用靶向之前确定的175种基因的ampli-seq获得训练数据集。训练数据集包含301个已知为良性的肺结节样品和303个被诊断为恶性的样品。提供这175种基因的归一化ampli-seq读取计数(rpm)作为分类器的输入数据。[0662]图8a至图8b中示出了八种分类器在使用80%训练数据与20%验证数据的数据分配的10倍验证中的结果。图8a是示出使用从ampli-seq数据生成的175种基因特征的集合来区分恶性肺结节与良性肺结节的机器学习分类器的性能的roc图。八种机器学习分类器包含log、glm、knn、rf、svm、gbm、nb和en。图8b示出了对应于图8a的示例性经训练机器学习分类器算法的列表格式的结果。使用训练数据与验证数据分配为75%与25%进行类似的10倍验证。[0663]实施例3:使用ampli-seq数据的机器学习分类和验证[0664]使用来自487名对象的肺结节样品的数据集来验证实施例2的机器学习分类器的性能。使用靶向175种基因的集合的ampli-seq获得验证数据集。验证数据集包含142个被诊断为恶性的肺结节样品。[0665]提供175种基因的集合的归一化ampli-seq读取计数(rpm)作为分类器的输入数据。对于验证数据集,比较了使用175种基因特征的集合(log)和85种基因特征的集合(gbm)的最佳性能分类器。来自验证数据集的数据不用于训练分类器。[0666]图9a是使用175种基因特征的集合通过逻辑回归分类器预测的肺结节的累积分数。图9b是使用175种基因特征的集合通过梯度提升分类器预测的肺结节的累积分数。[0667]当与使用85种特征的集合的gbm(图9b)相比时,使用175种特征的集合通过log模型(图9a)预测的恶性肺结节的累积分数显示出过度拟合。log分类器从总共487名患者中鉴定出266名患有恶性肺结节的患者(图9a)。同时,使用85种基因的子集,gbm分类器从142名患有恶性肺结节与良性肺结节的患者中鉴定出127名。[0668]实施例4:使用临床特征数据的机器学习分类。[0669]分析了从152名对象获得的生物标志物数据集。其中,80名对象具有良性肺结节的诊断并且72名对象具有恶性肺结节的诊断。使用生物标志物数据集测验了8种临床特征特性的集合(表6)在预测肺结节方面的有效性。图12示出了这8种临床特征特性(表6)的关联图。[0670]表6:临床特征[0671][0672][0673]训练了包含以下的八种机器学习分类器以基于8种临床特征特性(表6)的临床特征数据来区分恶性肺结节与良性肺结节:逻辑回归模型(log)、随机森林(rf)、支持向量机(svm)、决策树学习(dtree)、自适应提升(adb)、朴素贝叶斯(nb)、线性判别分析(lda)、k最近邻(knn)和梯度提升机(gbm)。[0674]图13a显示了示出使用8种临床特征特性(表6)的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。使用10倍交叉验证(使用生物标志物数据集的80%训练与20%验证分配)。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的roc图的auc分别为0.803、0.782、0.393、0.618、0.792、0.806、0.804、0.750和0.764。图13b示出了使用8种临床特征特性的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的精确度/召回率曲线的auc分别为0.703、0.688、0.351、0.656、0.720、0.710、0.699、0.766和0.646。图13c呈现了对应于图13a的9种机器学习分类器的列表格式的结果。图13d呈现了8种临床特征特性对9种机器学习分类器的特征重要性。图13e示出了8种临床特征特性对全部9种分类器的特征重要性。如可从图13d和图13e中看出的,最靠前的三种贡献因子或预测因子或特征是ncnsze(结节尺寸)、ncnupyn(肺上叶中的结节)和age,并且第四个是ncnmyn(棘状结节)。[0675]接下来,使用8种分类器测验如上确定的前4种特征例如ncnsze(结节尺寸)、ncnupyn(肺上叶中的结节)、age和ncnmyn(棘状结节)的有效性。[0676]图14a显示了示出使用4种临床特征特性ncnsze、ncnupyn、age和ncnmyn的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。使用10倍交叉验证(其使用生物标志物数据集的80%训练和20%验证分配)。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的roc图的auc分别为0.858、0.730、0.840、0.586、0.736、0.811、0.862、0.725和0.735。图14b示出了使用4种临床特征特性ncnsze、ncnupyn、age和ncnmyn的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的精确度/召回率曲线的auc分别为0.746、0.703、0.791、0.626、0.598、0.695、0.750、0.653和0.689。图14c呈现了对应于图14a的9种机器学习分类器的列表格式的结果。图14d呈现了4种临床特征特性对9种机器学习分类器的特征重要性。图14e示出了4种临床特征特性对全部9种分类器的特征重要性。如可从图13a和图14a中看出的,在使用前4种预测因子(ncnsze、ncnupyn、age和ncnmyn)时,分类器的性能表现出比全部8种预测因子(表6)更好的性能。[0677]为了测验临床特征在区分恶性与良性肺结节方面的有效性,收集了来自604名对象的较大数据集。其中,生物标志物数据集中的301个样品具有良性肺结节的诊断并且303个样品具有恶性肺结节的诊断。使用较大数据集测验9种临床特征特性的集合(表6中的临床特征和癌症史-是/否))在预测肺结节方面的有效性。[0678]图15a显示了示出使用9种临床特征特性的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。使用10倍交叉验证(其使用较大数据集的80%训练和20%验证分配)。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的roc图的auc分别为0.773、0.745、0.730、0.661、0.771、0.786、0.768、0.654和0.757。图15b示出了使用9种临床特征特性的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的精确度/召回率曲线的auc分别为0.747、0.690、0.673、0.740、0.759、0.746、0.743、0.633和0.707。图15c示出了对应于图15a的9种机器学习分类器的列表格式的结果。图15d示出了9种临床特征特性对9种机器学习分类器的特征重要性。图15e示出了9种临床特征特性对全部9种模型的特征重要性。如可从图15d和图15e看出的,最靠前的三种贡献因子或预测因子或特征是ncnsze(结节尺寸)、ncnupyn(肺上叶中的结节)和age。[0679]实施例5:使用基因表达数据和临床特征数据的机器学习分类。[0680]基于在以上实施例中获得的结果,测验了142种基因特征的集合(表5)与3种临床特征特性的集合的组合在预测肺结节方面的有效性。基于实施例1的结果选择了142种基因特征。基于实施例4的结果选择了3种临床特征特性:ncnsze(结节尺寸)、ncnupyn(肺上叶中的结节)和age。基因表达测量值来自对象的全血样品。分析了包含来自152名对象的样品的组合生物标志物数据集。其中,80名对象具有良性肺结节的诊断并且72名对象具有恶性肺结节的诊断。[0681]图16a显示了示出使用142种基因特征的基因表达数据和3种临床特征的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。使用10倍交叉验证(其使用组合数据集的80%训练和20%验证分配)。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的roc图的auc分别为0.919、0.819、0.829、0.660、0.690、0.783、0.905、0.826和0.795。图16b示出了使用142种基因特征的基因表达数据和3种临床特征的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的精确度/召回率曲线的auc分别为0.854、0.780、0.756、0.632、0.619、0.663、0.754、0.764和0.687。图16c示出了对应于图16a的9种机器学习分类器的列表格式的结果。图16d呈现了对应于图16a且应用了过采样校正(例如,80个患有良性肺结节的样品,和80个患有恶性肺结节的样品)的9种机器学习分类器的列表格式的结果。如可从图16c和图16d看出的,使用142种基因特征的集合(表5)和3种临床特征ncnsze、ncnupyn和age的集合作为特征,可实现相对较高的预测值。前两种贡献因子或预测因子或特征是结节尺寸和bcat1基因。表7示出了使用实施例5的组合数据集从机器学习分类器获得的前34种预测因子。表7包含31种肺病相关基因和3种临床特征(例如ncnsze、ncnupyn和age)。[0682]表7:来自实施例5的前34种预测因子[0683]预测因子ncnszebcat1crcpcoa4ovca2pom121hla-dpa1vps37cagemgst2rnf220hdac3nfe2l1wdr20cnpy4hoxb2c6orf120tmem8aasap1-it2c15orf54cd101fnbp1tecrprok2slc35b3tdrd9clhc1lplncnupynifitm3ogfod3eif2b3tmem65mkrn3[0684]接下来,测验了前34种预测因子在预测肺结节方面的有效性。从152名对象获得了前34种预测因子的生物标志物数据集。如上所述,其中80名对象具有良性肺结节的诊断并且72名对象具有恶性肺结节的诊断。前34种预测因子包含31种基因以及ncnsze(结节尺寸)、ncnupyn(肺上叶中的结节)和age作为预测因子。[0685]图17a显示了示出使用34种预测因子的测量数据(例如基因表达数据或适当时临床特征数据)来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。使用10倍交叉验证(其使用生物标志物数据集的80%训练和20%验证分配)。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的roc图的auc分别为0.992、0.867、0.950、0.675、0.800、0.854、0.963、0.835和0.842。图17b示出了使用34种预测因子的测量数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的精确度/召回率曲线的auc分别为0.988、0.807、0.931、0.687、0.747、0.815、0.943、0.814和0.811。图17c呈现了对应于图17a的机器学习分类器log和rf的列表格式的结果。图17d呈现了对应于图17a且应用了过采样校正(例如,80个患有良性肺结节的样品和80个患有恶性肺结节的样品)的9种机器学习分类器的列表格式的结果。图17e示出了34种特征对全部9种分类器的特征重要性。如可从图17c和图17d看出的,使用包含表7的基因集和临床特征的34种预测因子可实现相对较高的预测值。[0686]实施例6:使用基因表达数据和临床特征数据的机器学习分类。[0687]测验175种基因特征的集合(表2)和4种临床特征特性的集合的组合在预测肺结节方面的有效性。基于实施例1、2和3的结果选择175种基因特征。基于实施例4的结果选择4种临床特征特性ncnsze(结节尺寸)、ncnupyn(肺上叶中的结节)、age和ncnmyn(棘状结节)。基因表达测量值来自对象的全血样品。分析了包含来自152名对象的179种特征(例如175种基因特征和4种临床特征特性)的测量数据的组合生物标志物数据集。如上所述,其中80名对象具有良性肺结节的诊断并且72名对象具有恶性肺结节的诊断。[0688]图18a显示了示出使用175种基因特征的基因表达数据和4种临床特征的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的性能的roc图。使用10倍交叉验证(其使用组合生物标志物数据集的80%训练和20%验证分配)。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的roc图的auc分别为0.674、0.698、0.669、0.702、0.723、0.657、0.630、0.560和0.784。图18b示出了使用175种基因特征的基因表达数据和4种临床特征的临床特征数据来区分恶性肺结节与良性肺结节的9种机器学习分类器的精确度/召回率曲线。9种机器学习分类器log、rf、svm、dtree、adb、nb、lda、knn和gbm的精确度/召回率曲线的auc分别为0.635、0.724、0.664、0.727、0.663、0.630、0.544、0.550和0.729。图18c示出了对应于图18a的9种机器学习分类器的列表格式的结果。表8示出了使用实施例6的组合数据集从机器学习分类器获得的前22种预测因子。[0689]表8:来自实施例6的前22种预测因子[0690]预测因子ncnszebcat1usp32p2cd177qpctscaf4snrpd3bcl9lthbs1slc22a18asarcn1dhx16satb1st6gal1cxcl1tdrd9znf831mtch1fam86hpdhx8rnf114dctn4[0691]尽管已经在本文中示出和描述了本发明的优选实施方案,但是对本领域技术人员明显的是,这样的实施方案仅作为示例提供。并不旨在通过说明书中提供的具体实例来限制本发明。尽管已经参考前述说明书描述了本发明,但是本文中实施方案的描述和图示并不意味着以限制的意义来解释。在不背离本发明的情况下,本领域技术人员将想到许多变化、改变和替代。此外,应理解,本发明的所有方面不限于本文中阐述的具体描述、构造或相对比例,其取决于多种条件和变量。应理解,本文中所述的本发明的一些实施方案的多种替代方案可用于实施本发明。因此,可预期的是,本发明还将覆盖任何这样的替代、修改、变化或等同形式。意图是所附权利要求书限定了本发明的范围,并且因此涵盖这些权利要求范围内的方法和结构及其等同物。当前第1页12当前第1页12