1.本发明涉及人工智能技术、自然语言处理、医疗健康技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术:
2.移动互联网时代的到来,大语言模型(large language model,llm)的应用越来越广泛,llm是指能够处理海量文本数据并生成自然语言文本的深度神经网络模型,如gpt-3、bert等。llm具有强大的通用性和泛化能力,可以应用于多种自然语言处理任务,如文本生成、文本摘要、问答系统等。目前一般使用文本prompt(text prompt),即给llm提供一些特定格式或者内容的文本作为输入或者输出的引导,以期望llm能够按照预期的方式进行生成或者回答。例如,在医疗健康方面,可以向llm提供用户的医疗数据,根据该医疗数据对llm进行调整,最终使得调整后得到的lmm能够基于医疗数据生成医疗报告信息等。但是,由于文本prompt往往需要人工设计和调整,由于文本prompt往往只能提供一些表层或者局部的信息,并不能充分反映目标领域的知识结构和特征,导致大语言模型的生成效果和准确性不高。
技术实现要素:
3.本发明提供一种数据处理方法、装置、设备及介质,以解决大语言模型的生成效果和准确性不高的技术问题。
4.第一方面,提供了一种数据处理方法,所述数据处理方法应用于初始网络模型,所述初始网络模型包括初始第一网络模型和初始第二网络模型,所述初始第二网络模型包括大语言模型,所述方法包括:
5.将原始训练数据输入初始网络模型;所述初始网络模型包括初始第一网络模型和初始第二网络模型;
6.基于所述初始第一网络模型输出第一输出结果,根据所述第一输出结果得到第一对比损失;
7.基于所述第一输出结果,通过所述初始第二网络模型输出第二输出结果,根据所述第二输出结果得到第二对比损失;
8.根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,得到目标网络模型。
9.第二方面,提供了一种数据处理装置,所述数据处理装置应用于初始网络模型,所述初始网络模型包括初始第一网络模型和初始第二网络模型,所述初始第二网络模型包括大语言模型,所述数据处理装置包括:
10.数据输入单元,用于将原始训练数据输入初始网络模型;所述初始网络模型包括初始第一网络模型和初始第二网络模型;
11.第一损失单元,用于基于所述初始第一网络模型输出第一输出结果,根据所述第
一输出结果得到第一对比损失;
12.第二损失单元,用于基于所述第一输出结果,通过所述初始第二网络模型输出第二输出结果,根据所述第二输出结果得到第二对比损失;
13.模型训练单元,用于根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,得到目标网络模型。
14.第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述数据处理方法的步骤。
15.第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述数据处理方法的步骤。
16.上述数据处理方法、装置、设备及介质所实现的方案中,通过将所述原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果,根据所述第一输出结果确定第一对比损失,将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果,根据所述第二输出结果确定第二对比损失,根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型,因此,可以通过对初始第一网络模型和初始第二网络模型进行联合训练,可以使得大语言模型能够学习初始第一网络模型的输出格式和逻辑,同时也可以减少数据量和计算资源的需求,提高大语言模型的生成效果和准确性。
附图说明
17.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
18.图1是本技术实施例提供的一种数据处理的应用场景示意图;
19.图2是本技术实施例提供的一种数据处理的网络架构图;
20.图3是本技术实施例提供的一种数据处理方法的流程示意图;
21.图4是本技术实施例提供的一种数据处理方法的举例示意图;
22.图5是本技术实施例提供的一种数据处理装置的结构示意图;
23.图6是本技术实施例提供的一种计算机设备的结构示意图;
24.图7是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
25.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.本发明实施例提供的数据处理方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。例如,在在医疗健康场景中,目标用户可以通过客户端向服务器发送医疗数据,服务端在接收到医疗数据之后,通过训练好的目标网络模型对该医疗数
据进行处理,从而得到与医疗数据对应的医疗报告信息,服务端将医疗报告信息发送给客户端,客户端展示该医疗报告数据。服务端在通过训练好的目标网络模型对该医疗数据进行处理得到与医疗数据对应的医疗报告信息之前,需要通过训练初始网络模型以得到目标网络模型,初始网络模型包括初始第一网络模型和初始第二网络模型,初始第一网络模型可以是针对医疗健康场景的小模型,初始第二网络模型可以是大语言模型。具体进行训练时,服务端将原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果,服务端根据所述第一输出结果确定第一对比损失,服务端将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果,服务端根据所述第二输出结果确定第二对比损失,服务端根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型,从而可以通过对初始第一网络模型和初始第二网络模型进行联合训练,可以使得大语言模型能够学习初始第一网络模型的输出格式和逻辑,同时也可以减少数据量和计算资源的需求,提高大语言模型的生成效果和准确性。
27.请参见图2,图2本技术实施例提供的另一种数据处理的网络架构图。该网络架构图可以包括业务服务器100以及用户终端集群,该用户终端集群可以包括用户终端10a、用户终端10b、
…
、用户终端10c,其中,用户终端集群之间可以存在通信连接,例如用户终端10a与用户终端10b之间存在通信连接,用户终端10b与用户终端10c之间存在通信连接,且用户终端集群中的任一用户终端可以与业务服务器100存在通信连接,例如用户终端10a与业务服务器100之间存在通信连接,用户终端10b与业务服务器100之间存在通信连接。
28.其中,上述用户终端集群(也包括上述的用户终端10a、用户终端10b以及用户终端10c)均可以集成安装有目标应用。可选的,该目标应用可以包括具有展示文字、图像以及视频等数据信息功能的应用。
29.数据库10d中存储了原始训练数据,进一步的,用户终端将原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果,根据所述第一输出结果确定第一对比损失,将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果,根据所述第二输出结果确定第二对比损失,根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型。因此,可以通过对初始第一网络模型和初始第二网络模型进行联合训练,可以使得大语言模型能够学习初始第一网络模型的输出格式和逻辑,同时也可以减少数据量和计算资源的需求,提高大语言模型的生成效果和准确性。
30.可选的,上述用户终端可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端,比如,该用户终端可以为上述用户终端10b,则用户可以在用户终端10b的显示页面上获取原始训练数据,并根据原始训练数据进行联合训练,得到目标网络模型。
31.可以理解的是,本技术实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于终端或服务器,本技术实施例中的业务服务器100可以为计算机设备,用户终端集群中的用户终端也可以为计算机设备,此处不限定。上述业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服
务、cdn(内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表等携带图像识别功能的智能终端,但并不局限于此。其中,用户终端以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
32.请参阅图3所示,图3为本发明实施例提供的数据处理方法的一个流程示意图。如图3所示,该方法可以由用户终端(例如,上述图2所示的用户终端)执行,也可以由用户终端和业务服务器(如上述图2所对应实施例中的业务服务器100)共同执行。为便于理解,本实施例以该方法由上述用户终端执行为例进行说明,数据处理方法应用于初始网络模型,初始网络模型包括初始第一网络模型和初始第二网络模型,始第二网络模型包括大语言模型,数据处理方法包括如下步骤:
33.s101,将原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果;
34.具体的,用户终端将原始训练数据输入初始网络模型,可以理解的是,原始训练数据用于训练初始网络模型,初始网络模型包括初始第一网络模型和初始第二网络模型。原始训练数据可以包括有医疗数据和医疗报告信息等,此处仅为举例说明。第一输出结果可以是针对医疗数据对应的病症信息的概率分布等。
35.初始第一网络模型可以为神经网络模型或者机器学习模型,具体的,可以根据目标领域的知识结构和特征,构建一个专业领域小模型作为初始第一网络模型,其中目标领域可以包括有医疗健康领域等。该小模型可以是一个分类器、一个生成器、一个编码器、一个解码器或者其他任何适合的机器学习模型。例如,在医疗健康领域,可以构建一个疾病诊断小模型,该小模型可以接受病人的病症信息作为输入,并输出一个病症信息的概率分布(第一输出结果)等。该小模型可以利用医学知识库或者医学文献作为原始训练数据,使用其他的监督或者无监督的学习方法进行训练。
36.初始第二网络模型可以是大语言模型,具体是任何已经在海量文本数据上进行过预训练的深度神经网络模型,如gpt-3模型、bert模型等。
37.s102,根据所述第一输出结果确定第一对比损失;
38.具体的,用户终端可以根据所述第一输出结果得到第一对比损失,可以理解的是,用户终端基于所述初始第一网络模型输出第一输出结果,通过第一分布函数得到所述第一输出结果对应的第一概率分布;进一步获取所述第一概率分布对应的第一概率标签和第一损失函数;最后根据所述第一概率分布、所述第一概率标签和所述第一损失函数得到第一对比损失。
39.采用初始第一网络模型为专业领域小模型进行说明:设m是一个专业领域小模型(即初始第一网络模型),具体可以通过如下公式所示的方法确定最小化的第一对比损失
[0040][0041]
其中,x是该专业领域小模型在目标领域的输入数据,y是该专业领域小模型的第一输出结果,p(y|x;m)是该专业领域小模型的输出概率分布,其对应的函数为第一分布函
数,l(m)是该专业领域小模型的损失函数,d是该专业领域小模型的训练数据集,训练数据集包括原始训练数据,|.|为绝对值运算,log为对数运算,m表征初始第一网络模型。
[0042]
具体来说,小模型可以采用以下几种形式之一:
[0043]
分类器:如果小模型的输出,即第一输出结果是一个离散的标签或者类别,那么小模型可以采用分类器的形式,例如,使用一个多层感知机(multi-layer perceptron,mlp)或者一个卷积神经网络(convolutional neural network,cnn)或者一个循环神经网络(recurrent neural network,rnn)或者其他任何适合的神经网络结构作为分类器。分类器的输出概率分布,即第一概率分布可以采用softmax函数(归一化指数函数)或者其他任何适合的激活函数计算。分类器的第一损失函数可以采用交叉熵(cross-entropy)或者其他任何适合的损失函数计算。
[0044]
生成器:如果小模型的输出,即第一输出结果是一个连续的向量或者张量,那么小模型可以采用生成器的形式,例如,使用一个变分自编码器(variational auto-encoder,vae)或者一个生成对抗网络(generative adversarial network,gan)或者其他任何适合的生成模型作为生成器。生成器的输出概率分布,即第一概率分布可以采用高斯分布或者其他任何适合的分布函数计算。生成器的第一损失函数可以采用重构误差(reconstruction error)或者对抗损失(adversarial loss)或者其他任何适合的损失函数计算。
[0045]
编码器:如果小模型的输出,即第一输出结果是一个中间表示,而不是一个最终结果,那么小模型可以采用编码器的形式,例如,使用一个自编码器(auto-encoder)或者一个变换器(transformer)或者其他任何适合的编码模型作为编码器。编码器的输出概率分布,即第一概率分布可以采用高斯分布或者其他任何适合的分布函数计算。编码器的第一损失函数可以采用重构误差(reconstruction error)或者其他任何适合的损失函数计算。
[0046]
解码器:如果小模型的输入是一个中间表示,而不是一个原始训练数据,那么小模型可以采用解码器的形式,例如,使用一个自编码器(auto-encoder)或者一个变换器(transformer)或者其他任何适合的解码模型作为解码器。解码器的输出概率分布,即第一概率分布可以采用softmax函数或者其他任何适合的激活函数计算。解码器的第一损失函数可以采用交叉熵(cross-entropy)或者其他任何适合的损失函数计算。
[0047]
s103,将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果;
[0048]
具体的,用户终端基于所述第一输出结果,通过所述初始第二网络模型输出第二输出结果。第二输出结果具体例如可以为:针对医疗数据的医疗报告信息等,此处仅为举例说明。
[0049]
s104,根据所述第二输出结果确定第二对比损失;
[0050]
具体的,用户终端根据所述第二输出结果得到第二对比损失,可以理解的是,用户终端基于所述第一输出结果,通过所述初始第二网络模型输出第二输出结果,获取所述初始第二网络模型的类型信息;根据所述类型信息确定与所述初始第二网络模型对应的第二分布函数;通过第二分布函数确定所述第二输出结果对应的第二概率分布;获取所述第二概率分布的第二概率标签和第二损失函数;根据所述第二概率分布、所述第二概率标签和所述第二损失函数确定所述第二对比损失
。
其中,不同的网络模型的类型信息具有其对应
的第二分布函数,从而可以根据该映射关系确定出与初始第二网络模型对应的第二分布函数。
[0051]
具体的,采用初始第二网络模型为大语言模型进行说明具体可以通过如下公式所示的方法确定最小化的第二对比损失
[0052][0053]
设l是一个预训练好的大语言模型,z是中间表示,即初始第一网络模型的第一输出结果,w是大语言模型的输出结果,即初始第二网络模型的第二输出结果,p(w|z;l)是大语言模型的输出概率分布,其对应的函数为第二分布函数,即第二概率分布,l(l)是大语言模型的第二损失函数,d
′
是大语言模型的训练数据集,训练数据集包括原始训练数据,初始第一网络模型和初始第二网络模型采用同一个训练数据集,|.|为绝对值运算,log为对数运算,l表征初始第二网络模型。
[0054]
具体来说,大语言模型可以采用以下几种形式之一:
[0055]
gpt-3模型:gpt-3是一个基于变换器(transformer)的自回归(autoregressive)语言模型,即它根据前文生成后文,例如,给定一个输入序列z=(z1,z2,...,zn),它可以生成一个输出序列w=(w1,w2,...,wm),其中每个wi都依赖于z和w
<i
,即:
[0056][0057]
其中,p(w|z;l)是大语言模型的输出概率分布,其对应的函数为第二分布函数,即第二概率分布,l表征初始第二网络模型。
[0058]
bert模型:bert是一个基于变换器(transformer)的自编码(autoencoding)语言模型,即它根据上下文生成缺失的词,例如,给定一个输入序列z=(z1,z2,...,zn),其中一些词被随机地替换为一个特殊的掩码符号(mask),它可以生成一个输出序列w=(w1,w2,...,wn),其中每个wi都依赖于z和除了wi以外的其他词,即:
[0059][0060]
其中,p(w|z;l)是大语言模型的输出概率分布,其对应的函数为第二分布函数,即第二概率分布,l表征初始第二网络模型。
[0061]
s105,根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型。
[0062]
联合训练的目的是使得大语言模型能够学习到小模型的输出格式和逻辑,从而在使用时能够根据小模型的输出生成合适的文本。联合训练的方法可以有多种,例如,可以使用知识蒸馏(knowledge distillation)的方法,即让大语言模型去拟合小模型的输出,从而学习到小模型的知识;也可以使用对抗学习(adversarial learning)的方法,即让大语言模型和小模型进行交互,从而学习到小模型的策略;还可以使用其他的协同学习
(collaborative learning)或者多任务学习(multi-task learning)的方法,即让大语言模型和小模型共同完成一个或者多个目标任务,从而学习到小模型的能力。
[0063]
具体的,用户终端获取联合训练的平衡系数,可以理解的是,平衡系数为预先设定的参数,进一步的,根据所述平衡系数、所述初始第一网络模型的第一损失函数和所述初始第二网络模型第二损失函数构建第一联合损失函数。
[0064]
具体的,可以通过如下公式所示的方法构建第一联合损失函数h:
[0065][0066]
其中,α为平衡系数,l(m)为第一损失函数,l(l)为第二损失函数,那么第一联合损失函数是h,为最小值运算。
[0067]
进一步的,根据所述第一对比损失、所述第二对比损失和所述第一联合损失函数确定所述初始网络模型的联合对比损失;根据所述初始网络模型的第一训练数据和所述联合对比损失对所述初始网络模型中的初始第一网络模型和初始第二网络模型的权值参数进行调整,在所述联合对比损失收敛后以得到所述目标网络模型。目标网络模型中包括有第一目标网络模型和第二目标网络模型,第一目标网络模型是通过初始第一网络模型调整得到的,第二目标网络模型是通过初始第二网络模型调整得到。
[0068]
当联合对比损失的联合对比损失值小于损失值阈值时,则联合对比损失收敛,从而得到目标网络模型。
[0069]
具体来说,联合训练可以采用以下几种方法之一:
[0070]
知识蒸馏(knowledge distillation):知识蒸馏是一种让大模型去拟合小模型的输出的方法,即让大模型去学习小模型的知识。知识蒸馏的损失函数可以采用均方误差(mean squared error)或者其他任何适合的损失函数计算。知识蒸馏的优点是可以使大模型更紧凑和高效。
[0071]
对抗学习(adversarial learning):对抗学习是一种让大模型和小模型进行交互的方法,即让大模型和小模型互相竞争或者合作,从而学习到小模型的策略。对抗学习的损失函数可以采用最小最大值(minimax)或者其他任何适合的损失函数计算。对抗学习的优点是可以使大模型更灵活和智能,缺点是可能会导致不稳定或者不收敛的问题。
[0072]
协同学习(collaborative learning):协同学习是一种让大模型和小模型共同完成一个或者多个目标任务的方法,即让大模型和小模型互相协作或者互补,从而学习到小模型的能力。协同学习的损失函数可以采用加权和(weighted sum)或者其他任何适合的损失函数计算。
[0073]
当目标网络模型训练完成后,可以在具体领域进行使用,具体的,接收目标用户的病症信息;将所述病症信息输入所述目标网络模型中进行运算,以得到与所述病症信息对应的医疗报告信息。
[0074]
例如,在使用时,将目标领域(例如,医疗健康领域)的输入数据通过小模型(初始第一网络模型训练后的模型)进行处理,得到一个中间表示,然后将中间表示作为输入传递给大语言模型(初始第二网络模型训练后的模型),得到最终的输出结果。该中间表示可以是任何有助于大语言模型生成文本的形式,例如,可以是一个标签、一个关键词、一个句子、一个段落或者其他任何适合的文本格式;也可以是一个向量、一个矩阵、一个张量或者其他
任何适合的数值格式;还可以是一个图像、一个音频、一个视频或者其他任何适合的多媒体格式。该中间表示可以包含目标领域的知识和信息,也可以包含一些生成指导和约束。
[0075]
具体来说,中间表示z可以采用以下几种形式之一:
[0076]
标签:如果中间表示是一个离散的标签或者类别,那么可以直接使用小模型的输出作为中间表示,即:
[0077][0078]
其中表示取概率最大的y作为输出,m表征初始第一网络模型,y为第一输出结果,x为原始训练数据,p(y|x;m)是初始第一网络模型的输出概率分布。这种形式的中间表示可以提供一些简单或者局部的信息,并且可以方便地与文本拼接。
[0079]
关键词:如果中间表示是一个连续的向量或者张量,那么可以使用一个关键词提取(keyword extraction)的方法将其转换为一个或者多个关键词作为中间表示,即:
[0080]
z=k(m(x))=(k1,k2,...,kn)
[0081]
其中k是一个关键词提取的函数,(k1,k2,...,kn)是一个或者多个关键词组成的序列,x为原始训练数据,m表征初始第一网络模型。这种形式的中间表示可以提供一些复杂或者全局的信息,并且可以方便地与文本拼接。
[0082]
句子:如果中间表示是一个连续的向量或者张量,那么可以使用一个句子生成(sentence generation)的方法将其转换为一个或者多个句子作为中间表示,即:
[0083]
z=s(m(x))=(s1,s2,...,sm)
[0084]
其中s是一个句子生成的函数,(s1,s2,...,sm)是一个或者多个句子组成的序列,x为原始训练数据,m表征初始第一网络模型。这种形式的中间表示可以提供一些详细或者深入的信息,并且可以方便地与文本拼接。
[0085]
段落:如果中间表示是一个连续的向量或者张量,那么可以使用一个段落生成(paragraph generation)的方法将其转换为一个或者多个段落作为中间表示,即:
[0086]
z=p(m(x))=(p1,p2,...,p
l
)
[0087]
其中p是一个段落生成的函数,(p1,p2,...,p
l
)是一个或者多个段落组成的序列,x为原始训练数据,m表征初始第一网络模型。这种形式的中间表示可以提供一些完整或者系统的信息,并且可以方便地与文本拼接。
[0088]
下面将结合图4,为本技术实施例提供的具体实施场景进行说明,如图4所示。在医学领域,如果目标任务是根据病人的症状生成一份医疗报告,那么可以先将病人的症状通过疾病诊断小模型,即第一目标网络模型进行处理,得到一个疾病名称或者一个疾病概率分布作为中间表示,即第一输出结果,然后将中间表示作为输入传递给大语言模型,即第二目标网络模型,得到一份医疗报告信息作为输出结果,即第二输出结果。
[0089]
在一个可能的实现方式中,在所述将所述病症信息输入所述目标网络模型中进行运算,以得到与所述病症信息对应的医疗报告之后,还可以对目标用户进行风险预警,具体如下:
[0090]
a1、对所述医疗报告信息进行关键字提取,以得到第一关键字集合;
[0091]
a2、对第一关键字集合中的每个第一关键字进行语义分析,以得到与每个第一关键字对应的第一语义信息;
[0092]
a3、根据每个第一关键字对应的第一语义信息确定与所述目标用户对应的风险类型指示数值;
[0093]
a4、若所述风险类型指示数值高于预设风险类型指示数值,则确定风险告警信息;
[0094]
a5、展示所述风险告警信息。
[0095]
其中,可以采用通用的关键字提取方法对医疗报告信息进行关键字提取,以得到第一关键字集合。可以采用通用的语义分析方法进行语义分析,以得到每个第一关键字分别对应的第一语义信息。第一语义信息中包括有指示目标用户对应的风险类型指示数值,具体的,在某一风险类型中,风险类型指示数值越大,则目标用户处于该风险类型的概率越大,风险类型指示数值越小,则目标用户处于该风险类型的概率越小。预设风险类型指示数值通过经验值或历史数据设定。
[0096]
风险信息告警信息中可以包括有风险类型指示数值等。
[0097]
本示例中,通过将所述原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果,根据所述第一输出结果确定第一对比损失,将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果,根据所述第二输出结果确定第二对比损失,根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型,因此,可以通过对初始第一网络模型和初始第二网络模型进行联合训练,可以使得大语言模型能够学习初始第一网络模型的输出格式和逻辑,同时也可以减少数据量和计算资源的需求,提高大语言模型的生成效果和准确性。
[0098]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0099]
在一实施例中,提供一种数据处理装置,该数据处理装置与上述实施例中数据处理处理方法一一对应。如图5所示,所述数据处理装置应用于初始网络模型,所述初始网络模型包括初始第一网络模型和初始第二网络模型,所述初始第二网络模型包括大语言模型,该数据处理装置包括数据输入单元102、第一确定单元103、运算单元104、第二确定单元105和训练单元106。各功能模块详细说明如下:
[0100]
数据输入单元101,用于将所述原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果;
[0101]
第一确定单元102,用于根据所述第一输出结果确定第一对比损失;
[0102]
运算单元103,用于将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果;
[0103]
第二确定单元104,用于根据所述第二输出结果确定第二对比损失;
[0104]
训练单元105,用于根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型。
[0105]
在一个可能的实现方式中,第一确定单元102用于:
[0106]
可以通过如下公式所示的方法根据所述第一输出结果确定第一对比损失:
[0107][0108]
其中,为第一对比损失,l(m)为初始第一网络模型的第一损失函数,d是
初始第一网络模型的训练数据集,p(y|x;m)是初始第一网络模型的输出概率分布,y为第一输出结果,x为原始训练数据。
[0109]
在一个可能的实现方式中,第二确定单元104用于:
[0110]
获取所述初始第二网络模型的类型信息;
[0111]
根据所述类型信息确定与所述初始第二网络模型对应的第二分布函数;
[0112]
通过第二分布函数确定所述第二输出结果对应的第二概率分布;
[0113]
获取所述第二概率分布的第二概率标签和第二损失函数;
[0114]
根据所述第二概率分布、所述第二概率标签和所述第二损失函数确定所述第二对比损失。
[0115]
在一个可能的实现方式中,训练单元105用于:
[0116]
获取联合训练的平衡系数;
[0117]
根据所述平衡系数、所述初始第一网络模型的第一损失函数和所述初始第二网络模型第二损失函数构建第一联合损失函数;
[0118]
根据所述第一对比损失、所述第二对比损失和所述联合损失函数确定联合对比损失;
[0119]
根据所述初始网络模型的第一训练数据对所述初始网络模型中的初始第一网络模型和初始第二网络模型的权值参数进行,在所述联合对比损失收敛后以得到所述目标网络模型。
[0120]
在一个可能的实现方式中,在所述根据所述平衡系数、所述初始第一网络模型的第一损失函数和所述初始第二网络模型第二损失函数构建第一联合损失函数方面,训练单元105用于:
[0121]
通过如下公式所示的方法根据所述平衡系数、所述初始第一网络模型的第一损失函数和所述初始第二网络模型第二损失函数构建第一联合损失函数:
[0122][0123]
其中,h为第一联合损失函数,l(m)为第一损失函数,l(l)为第二损失函数,α为平衡系数,为最小值运算。
[0124]
在一个可能的实现方式中,在所述根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型之后,所述数据处理装置还用于:
[0125]
接收目标用户的病症信息;
[0126]
将所述病症信息输入所述目标网络模型中进行运算,以得到与所述病症信息对应的医疗报告信息。
[0127]
在一个可能的实现方式中,在所述将所述病症信息输入所述目标网络模型中进行运算,以得到与所述病症信息对应的医疗报告之后,数据处理装置还用于:
[0128]
对所述医疗报告信息进行关键字提取,以得到第一关键字集合;
[0129]
对第一关键字集合中的每个第一关键字进行语义分析,以得到与每个第一关键字分别对应的第一语义信息;
[0130]
根据每个第一关键字分别对应的第一语义信息确定与所述目标用户对应的风险类型指示数值;
[0131]
若所述风险类型指示数值高于预设风险类型指示数值,则确定风险告警信息;
[0132]
展示所述风险告警信息。
[0133]
本示例中,通过将所述原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果,根据所述第一输出结果确定第一对比损失,将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果,根据所述第二输出结果确定第二对比损失,根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型,因此,可以通过对初始第一网络模型和初始第二网络模型进行联合训练,可以使得大语言模型能够学习初始第一网络模型的输出格式和逻辑,同时也可以减少数据量和计算资源的需求,提高大语言模型的生成效果和准确性。
[0134]
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0135]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法服务端侧的功能或步骤。
[0136]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法客户端侧的功能或步骤
[0137]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序执行数据处理方法,数据处理方法应用于初始网络模型,所述初始网络模型包括初始第一网络模型和初始第二网络模型,所述初始第二网络模型包括大语言模型,处理器执行计算机程序时实现以下步骤:
[0138]
将原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果;
[0139]
根据所述第一输出结果确定第一对比损失;
[0140]
将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果;
[0141]
根据所述第二输出结果确定第二对比损失;
[0142]
根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型。
[0143]
本示例中,通过将所述原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果,根据所述第一输出结果确定第一对比损失,将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果,根据所述第二输出结果确定第二对比损失,根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型,因此,可以通过对初始第一网络模型和初始第二网络模型进行联合训练,可以使得大语言模型能够学习初始第一网络模型的输出格式和逻辑,同时也可以减少数据量和计算资源的需求,提高大语言模型的生成效果和准确性。
[0144]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序执行数据处理方法,数据处理方法应用于初始网络模型,所述初始网络模型包括初始第一网络模型和初始第二网络模型,所述初始第二网络模型包括大语言模型,计算机程序被处理器执行时实现以下步骤:
[0145]
将原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果;
[0146]
根据所述第一输出结果确定第一对比损失;
[0147]
将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果;
[0148]
根据所述第二输出结果确定第二对比损失;
[0149]
根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型。
[0150]
本示例中,通过将所述原始训练数据输入所述初始网络模型的初始第一网络模型中进行运算,以得到第一输出结果,根据所述第一输出结果确定第一对比损失,将所述第一输出结果输入所述初始第二网络模型进行运算,以得到第二输出结果,根据所述第二输出结果确定第二对比损失,根据所述第一对比损失和所述第二对比损失对所述初始网络模型进行联合训练,以得到目标网络模型,因此,可以通过对初始第一网络模型和初始第二网络模型进行联合训练,可以使得大语言模型能够学习初始第一网络模型的输出格式和逻辑,同时也可以减少数据量和计算资源的需求,提高大语言模型的生成效果和准确性。
[0151]
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
[0152]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0153]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0154]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。