1.本发明涉及人工智能技术、文本构建、智慧医疗技术领域,尤其涉及一种问诊文本补全模型构建、补全方法、装置、设备及介质。
背景技术:
2.随着线上问诊的兴起,医生在接待患者的问诊活动中经常要重复输入大量相似的内容信息,造成问诊效率低下。
3.联想补全是输入文本时显著提高效率的工具。现有联想补全方法是通过深度学习语言模型,根据用户提供的上文语境预测下文。这种方法虽然能够法根据上文语境,推荐补全文本,进行文本补全。
4.但是由于医疗领域的特殊性,进行文本补全时错误率较高,无法适应医疗领域对于补全内容正确性的要求。此外现有文本补全无法做到个性化。由于每个医生的说话风格不同,用其他医生说出的话去补全特定医生的输入内容,往往容易产生错误或词不达意,无法达到文本补全提高效率的效果。
技术实现要素:
5.本发明提供一种问诊文本补全模型构建、补全方法、装置、设备及介质,以解决医疗领域问诊文本补全正确率低、效率差的技术问题。
6.第一方面,本发明提供了一种问诊文本补全模型构建方法,包括:
7.获取问诊文本训练数据和历史问诊文本数据;
8.构建问诊文本标注模型,通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛;
9.通过训练好的所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,且通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到消息数据单元,其中,所述消息数据单元包括所述疾病名称、所述知识类型、所述医生姓名和所述医生话术;
10.在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,得到消息数据集群;
11.在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术;
12.在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对;
13.将所述触发词代表话术对按医生姓名分类存储,构建问诊文本补全模型。
14.第二方面,本发明提供了一种问诊文本补全方法,包括:
15.获取待补全问诊文本和医生姓名;
16.将所述待补全问诊文本和所述医生姓名输入问诊文本补全模型,得到补全文本内
容;其中,所述问诊文本补全模型采用如上述的问诊文本补全模型构建方法构建得到。
17.第三方面,本发明提供了一种问诊文本补全模型构建装置,包括:
18.获取模块,用于获取问诊文本训练数据和历史问诊文本数据;
19.构建模块,用于构建问诊文本标注模型,通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛;
20.标注模块,用于通过训练好的所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,且通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到消息数据单元,其中,所述消息数据单元包括所述疾病名称、所述知识类型、所述医生姓名和所述医生话术;
21.聚类模块,用于在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,得到消息数据集群;
22.第一处理模块,用于在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术;
23.第二处理模块,用于在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对;
24.存储模块,用于将所述触发词代表话术对按医生姓名分类存储,得到问诊文本补全模型。
25.第四方面,本发明提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的问诊文本补全模型构建方法的步骤,和/或如上述的问诊文本补全方法的步骤。
26.第五方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述的问诊文本补全模型构建方法的步骤,和/或如上述的问诊文本补全方法的步骤。
27.上述问诊文本补全模型构建、补全方法、装置、设备及介质所实现的方案中,通过构建问诊文本标注模型,并通过所述问诊文本训练数据训练所述问诊文本标注模型,通过所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到了消息数据单元,实现了对所述历史问诊文本数据的标注。通过对所述消息数据单元进行聚类,可以实现在疾病名称、知识类型和医生姓名上相似度高的消息数据单元组成消息数据集群。即消息数据集群中的所述消息数据单元在疾病名称、知识类型和医生姓名上相似度高。在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术。由于所述消息数据集群中的所述消息单元在疾病名称知识类型和医生姓名上相似度高,因此选出一个所述消息数据单元中的医生话术作为代表话术即可,避免了数据冗余。通过在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对,可以实现通过触发词找到代表话术。通过将所述触发词代表话术对按医生姓名分类存储,由此通过触发词和医生姓名即可对应找到代表话术,从而填充进待补全文本实现文本补全。基于此,本发明提供的问诊文本补全模型构建、补全方法、装置、设备及介质所实现的方案,通过对历史问诊文本数据进行标注,得到消息数据单元,并通过对消息数据单元进行聚类,确定每个所述消息数据集群中的代表话术,通过医生姓名和触发词确定实际文本补全过程中使用的代表
话术。使得补全内容均来自于相同医生说过的历史消息,具有较高的正确性,且符合医生本人的语言习惯。提高了问诊文本补全的效率。
附图说明
28.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
29.图1是本发明一实施例中问诊文本补全模型构建方法的一应用环境示意图;
30.图2是本发明一实施例中问诊文本补全模型构建方法的一流程示意图;
31.图3是本发明一实施例中问诊文本补全方法的一流程示意图;
32.图4是本发明一实施例中问诊文本补全模型构建装置的一结构示意图;
33.图5是本发明一实施例中计算机设备的一结构示意图;
34.图6是本发明一实施例中计算机设备的另一结构示意图。
具体实施方式
35.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
36.要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
37.在本说明书的描述中,参考术语“实施例”、“一些实施例”和“可选地实施例”等的描述意指结合该实施例或实施方式描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示实施方式中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实施方式。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或实施方式以合适的方式结合。
38.本发明实施例提供的问诊文本补全模型构建方法,可应用在如图1的应用环境中,所述问诊文本补全模型构建方法既可以应用在客户端设备中,也可以应用在服务端设备中,其中,客户端通过网络与服务端进行通信。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一些实施例中,客户端可以直接获取所述问诊文本训练数据和历史问诊文本数据,也可以通过服务端获取所述问诊文本训练数据和历史问诊文本数据。服务端可以直接获取所述问诊文本训练数据和历史问诊文本数据,也可以通过客户端获取所述问诊文本训练数据和历史问诊文本数据。在一些实施例中,所述问诊文本补全方法可应用于线上问诊环境中,由于目前互联网技术的高度发展,许多患者选择线上问诊的方式进行诊疗活动,相同的医生往往在诊疗过程中接待相似病症的患者,同时医
生对患者的诊断等情况说明也存在一定的重复性。在医生进行诊疗文本输入的过程中,如果完全靠医生输入,效率较低,通过在客户端或服务端使用本发明实施例中的问诊文本补全方法,可以提高医生输入问诊文本的效率,为诊疗活动提供便利。在一些实施例中,所述问诊文本补全方法也可以应用于医疗领域其他需要输入问诊文本的应用场景中,例如医生书写电子病历、医生整理患者资料等。在这些需要输入问诊文本的场景中,通过所述问诊文本补全方法均可以在保证正确性的情况下,提高输入效率。
39.结合图2所示,图2为本发明实施例提供的问诊文本补全模型构建方法的流程示意图一,包括如下步骤:
40.步骤s1:获取问诊文本训练数据和历史问诊文本数据;
41.步骤s2:构建问诊文本标注模型,通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛;
42.步骤s3:通过训练好的所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,且通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到消息数据单元,其中,所述消息数据单元包括所述疾病名称、所述知识类型、所述医生姓名和所述医生话术;
43.步骤s4:在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,得到消息数据集群;
44.步骤s5:在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术;
45.步骤s6:在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对;
46.步骤s7:将所述触发词代表话术对按医生姓名分类存储,构建问诊文本补全模型。
47.对于步骤s1,获取问诊文本训练数据和历史问诊文本数据,所述问诊文本训练数据是指供问诊文本标注模型训练用的数据,数据形式为问诊对话文本。所述历史问诊文本数据是指收集到的尽可能全面的医生的历史问诊文本数据,数据形式为问诊对话文本。
48.对于步骤s2,构建问诊文本标注模型,通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛,所述文本文本标注模型是指用于对问诊对话文本中的知识类型进行标注的模型。
49.对于步骤s3,通过训练好的所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,且通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到消息数据单元,其中,所述消息数据单元包括所述疾病名称、所述知识类型、所述医生姓名和所述医生话术,所述知识类型可根据实际需要人为设置,可包括但不限于病因、生活建议、危害、药品功效等知识类型。若对话文本不属于任何一个知识类型,则标注为无类型。所述语义识别模型是指一种基于自然语言处理技术的模型,主要实现的是在计算机中模拟人类语言理解效果。它能够有效识别出每句话中所包含的意义,深入了解语句与句子中的内容。在本实施例中,通过语义识别模型识别出所述历史问诊文本数据中的疾病名称、医生姓名和医生话术,从而进行标注,得到消息数据单元。所述医生话术是指所述历史问诊文本数据中医生的语言文本。
50.对于步骤s4,在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算
法对所有所述消息数据单元进行聚类,得到消息数据集群,在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,是指将在疾病名称、知识类型和医生姓名上均具有较高相似度的所述消息数据单元聚为一类,得到一个消息数据集群。由此可构建多个所述消息数据集群,每个所述消息数据集群内的所述消息数据单元在疾病名称、知识类型和医生姓名上相似度较高。
51.对于步骤s5,在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术,所述代表话术是指消息数据集群中的一个消息数据单元中的医生话术,具体选择消息数据集群中的那一个消息数据单元,在本实施例中不具体限定,因为所述消息数据集群中的消息数据单元之间在疾病名称、知识类型和医生姓名上相似度较高。
52.对于步骤s6,在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对,所述触发词是指医生在输入的文本中触发文本补全的文本,也是所述代表话术中的文本。所述触发词代表话术对是指将触发词和代表话术放在一起形成的一一对应的关系对。
53.对于步骤s7,将所述触发词代表话术对按医生姓名分类存储,构建问诊文本补全模型,所述问诊文本补全模型是指包含触发词代表话术对和医生姓名的数据库模型。
54.上述问诊文本补全模型构建方法,通过构建问诊文本标注模型,并通过所述问诊文本训练数据训练所述问诊文本标注模型,通过所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到了消息数据单元,实现了对所述历史问诊文本数据的标注。通过对所述消息数据单元进行聚类,可以实现在疾病名称、知识类型和医生姓名上相似度高的消息数据单元组成消息数据集群。即消息数据集群中的所述消息数据单元在疾病名称、知识类型和医生姓名上相似度高。在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术。由于所述消息数据集群中的所述消息单元在疾病名称知识类型和医生姓名上相似度高,因此选出一个所述消息数据单元中的医生话术作为代表话术即可,避免了数据冗余。通过在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对,可以实现通过触发词找到代表话术。通过将所述触发词代表话术对按医生姓名分类存储,由此通过触发词和医生姓名即可对应找到代表话术,从而填充进待补全文本实现文本补全。基于此,本发明提供的问诊文本补全模型构建方法,通过对历史问诊文本数据进行标注,得到消息数据单元,并通过对消息数据单元进行聚类,确定每个所述消息数据集群中的代表话术,通过医生姓名和触发词确定实际文本补全过程中使用的代表话术。使得补全内容均来自于相同医生说过的历史消息,具有较高的正确性,且符合医生本人的语言习惯。提高了问诊文本补全的效率。
55.在本发明的另一可选地实施例中,所述通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛,包括:
56.步骤s21:获取所述问诊文本训练数据对应的知识类型标注数据;
57.步骤s22:构建问诊文本标注模型,所述问诊文本标注模型包括albert编码器和softmax分类器;
58.步骤s23:将所述知识类型标注数据输入所述albert编码器得到编码结果,将所述编码结果输入所述softmax分类器对所述问诊文本标注模型进行训练,直到模型收敛,其
中,所述问诊文本标注模型训练过程中的损失函数为交叉熵损失函数,收敛条件为损失函数的值最小。
59.对于步骤s21,获取所述问诊文本训练数据对应的知识类型标注数据,所述知识类型标注数据是指对所述问诊文本训练数据进行知识类型标注后得到的知识类型标注数据。
60.对于步骤s22和步骤s23,构建问诊文本标注模型,所述问诊文本标注模型包括albert编码器和softmax分类器;将所述知识类型标注数据输入所述albert编码器得到编码结果,将所述编码结果输入所述softmax分类器对所述问诊文本标注模型进行训练,直到模型收敛,其中,所述问诊文本标注模型训练过程中的损失函数为交叉熵损失函数,收敛条件为损失函数的值最小。所述albert(基于变换神经网络的大规模预训练精简语言模型)编码器和softmax(归一化指数函数)分类器通过输入某一句文本,可输出这句话属于某一知识类型的概率。
61.在本发明的另一可选地实施例中,所述层次聚类算法的距离方程为:
[0062][0063]
其中,x,y为不同的所述消息数据单元,distance(x,y)为所述消息数据单元x与y之间的距离,为归一化编辑距离,entity_distance(x,y)为结巴分词后实体的杰卡德距离。
[0064]
具体地,在本实施例中,所述归一化编辑距离是指归一化的两个字串之间的编辑距离。所述结巴是指结巴算法,用于将文本语句拆分成短语。所述杰卡德距离是用来衡量两个集合差异性的一种指标,被定义为1减去杰卡德相似系数。其中,杰卡德相似系数被定义为两个集合交集的元素个数除以并集的元素个数。
[0065]
在本发明的另一可选地实施例中,所述在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术,包括:
[0066]
在所述消息数据集群中选择所述疾病名称出现频次最高的所述消息数据单元中的所述医生话术作为代表话术;
[0067]
或,在所述消息数据集群中选择所述知识类型出现频次最高的所述消息数据单元中的所述医生话术作为代表话术;
[0068]
或,在所述消息数据集群中选择所述医生姓名出现频次最高的所述消息数据单元中的所述医生话术作为代表话术。
[0069]
具体地,在本实施例中,所述代表话术的选取可依据所述疾病名称在所述消息数据单元中出现的频次最高进行选取,也可以依据所述知识类型在所述消息数据单元中出现的频次最高进行选取,还可以依据所述医生姓名在所述消息数据单元中出现的频次最高进行选取。在实际使用过程中可根据实际需要人为设置选取标准。
[0070]
在本发明的另一可选地实施例中,所述在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对,包括:
[0071]
步骤s61:选取所述代表话术中的前n个字符作为触发词,将所述触发词和所述代表话术配对组成所述触发词代表话术对,其中,n为预设数量。
[0072]
对于步骤s61,选取所述代表话术中的前n个字符作为触发词,将所述触发词和所
述代表话术配对组成所述触发词代表话术对,所述触发词是指医生在输入的文本中触发文本补全的文本,也是所述代表话术中的文本。所述预设数量是根据实际需要人为设置的数量值,用于确定采用作为触发词的字符数量。
[0073]
结合图3所示,本发明的实施例还提供一种问诊文本补全方法,包括:
[0074]
步骤s8:获取待补全问诊文本和医生姓名;
[0075]
步骤s9:将所述待补全问诊文本和所述医生姓名输入问诊文本补全模型,得到补全文本内容;其中,所述问诊文本补全模型采用如上述的问诊文本补全模型构建方法构建得到。
[0076]
对于步骤s8,获取待补全问诊文本和医生姓名,所述待补全问诊文本是指医生在医疗工作中已经输入的文本。
[0077]
对于步骤s9,将所述待补全问诊文本和所述医生姓名输入问诊文本补全模型,得到补全文本内容;其中,所述问诊文本补全模型采用如上述的问诊文本补全模型构建方法构建得到。所述补全文本内容是指对所述待补全问诊文本进行补全的文本内容。
[0078]
本发明实施例所述的问诊文本补全方法,相对与现有技术的优势与上述问诊文本补全模型构建方法相同,在此不再赘述。
[0079]
在本发明的另一可选地实施例中,所述将所述待补全问诊文本和所述医生姓名输入问诊文本补全模型,得到补全文本内容,包括:
[0080]
步骤s91:将所述待补全问诊文本与所述问诊文本补全模型中的触发词进行匹配,确定匹配分数;
[0081]
步骤s92:根据所述匹配分数由高到低排序,确定所述匹配分数最高的目标触发词;
[0082]
步骤s93:根据所述目标触发词,寻找并确定所述目标触发词对应的目标触发词代表话术对;
[0083]
步骤s94:根据所述目标触发词代表话术对和医生姓名,确定补全文本内容。
[0084]
对于步骤s91,将所述待补全问诊文本与所述问诊文本补全模型中的触发词进行匹配,确定匹配分数,所述匹配是指进行相似度比对,相似度越高所述匹配分数越高。
[0085]
对于步骤s92,根据所述匹配分数由高到低排序,确定所述匹配分数最高的目标触发词,所述目标触发词是指所述待补全文本与所述问诊文本补全模型中相似度最高的触发词。
[0086]
对于步骤s93,根据所述目标触发词,寻找并确定所述目标触发词对应的目标触发词代表话术对,在所述问诊文本补全模型中存储有按医生姓名分类的触发词代表话术对,通过目标触发词和医生姓名可找到对应的目标触发词代表话术对,由此通过目标触发词对应的代表话术对所述待补全文本进行补全。
[0087]
对于步骤s94,根据所述目标触发词代表话术对和医生姓名,确定补全文本内容,所述补全文本内容是指通过代表话术对待补全文本进行补全的文本内容。
[0088]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0089]
结合图4所示,在一实施例中,本发明提供一种问诊文本补全模型构建装置,该问
诊文本补全模型构建装置与上述实施例中问诊文本补全模型构建方法一一对应。该问诊文本补全模型构建装置包括获取模块101、构建模块102、标注模块103、聚类模块104、第一处理模块105、第二处理模块106、存储模块107。各功能模块详细说明如下:
[0090]
获取模块101,用于获取问诊文本训练数据和历史问诊文本数据;
[0091]
构建模块102,用于构建问诊文本标注模型,通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛;
[0092]
标注模块103,用于通过训练好的所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,且通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到消息数据单元,其中,所述消息数据单元包括所述疾病名称、所述知识类型、所述医生姓名和所述医生话术;
[0093]
聚类模块104,用于在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,得到消息数据集群;
[0094]
第一处理模块105,用于在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术;
[0095]
第二处理模块106,用于在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对;
[0096]
存储模块107,用于将所述触发词代表话术对按医生姓名分类存储,得到问诊文本补全模型。
[0097]
在一实施例中,所述构建模块102,具体用于:
[0098]
获取所述问诊文本训练数据对应的知识类型标注数据;
[0099]
构建问诊文本标注模型,所述问诊文本标注模型包括albert编码器和softmax分类器;
[0100]
将所述知识类型标注数据输入所述albert编码器得到编码结果,将所述编码结果输入所述softmax分类器对所述问诊文本标注模型进行训练,直到模型收敛,其中,所述问诊文本标注模型训练过程中的损失函数为交叉熵损失函数,收敛条件为损失函数的值最小。
[0101]
在一实施例中,所述聚类模块104,具体用于:
[0102]
在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,得到消息数据集群,所述层次聚类算法的距离方程为:
[0103][0104]
其中,x,y为不同的所述消息数据单元,distance(x,y)为所述消息数据单元x与y之间的距离,为归一化编辑距离,entity_distance(x,y)为结巴分词后实体的杰卡德距离。
[0105]
在一实施例中,所述第一处理模块105,具体用于:
[0106]
在所述消息数据集群中选择所述疾病名称出现频次最高的所述消息数据单元中的所述医生话术作为代表话术;
[0107]
或,在所述消息数据集群中选择所述知识类型出现频次最高的所述消息数据单元
中的所述医生话术作为代表话术;
[0108]
或,在所述消息数据集群中选择所述医生姓名出现频次最高的所述消息数据单元中的所述医生话术作为代表话术。
[0109]
在一实施例中,所述第二处理模块106,具体用于:
[0110]
选取所述代表话术中的前n个字符作为触发词,将所述触发词和所述代表话术配对组成所述触发词代表话术对,其中,n为预设数量。
[0111]
本发明提供了一种问诊文本补全模型构建装置,通过构建问诊文本标注模型,并通过所述问诊文本训练数据训练所述问诊文本标注模型,通过所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到了消息数据单元,实现了对所述历史问诊文本数据的标注。通过对所述消息数据单元进行聚类,可以实现在疾病名称、知识类型和医生姓名上相似度高的消息数据单元组成消息数据集群。即消息数据集群中的所述消息数据单元在疾病名称、知识类型和医生姓名上相似度高。在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术。由于所述消息数据集群中的所述消息单元在疾病名称知识类型和医生姓名上相似度高,因此选出一个所述消息数据单元中的医生话术作为代表话术即可,避免了数据冗余。通过在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对,可以实现通过触发词找到代表话术。通过将所述触发词代表话术对按医生姓名分类存储,由此通过触发词和医生姓名即可对应找到代表话术,从而填充进待补全文本实现文本补全。基于此,本发明提供的问诊文本补全模型构建装置,通过对历史问诊文本数据进行标注,得到消息数据单元,并通过对消息数据单元进行聚类,确定每个所述消息数据集群中的代表话术,通过医生姓名和触发词确定实际文本补全过程中使用的代表话术。使得补全内容均来自于相同医生说过的历史消息,具有较高的正确性,且符合医生本人的语言习惯。提高了问诊文本补全的效率。
[0112]
关于问诊文本补全模型构建装置的具体限定可以参见上文中对于问诊文本补全模型构建方法的限定,在此不再赘述。上述问诊文本补全模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0113]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种问诊文本补全模型构建方法服务端侧的功能或步骤。
[0114]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机
程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种问诊文本补全模型构建方法客户端侧的功能或步骤。
[0115]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0116]
步骤s1:获取问诊文本训练数据和历史问诊文本数据;
[0117]
步骤s2:构建问诊文本标注模型,通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛;
[0118]
步骤s3:通过训练好的所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,且通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到消息数据单元,其中,所述消息数据单元包括所述疾病名称、所述知识类型、所述医生姓名和所述医生话术;
[0119]
步骤s4:在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,得到消息数据集群;
[0120]
步骤s5:在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术;
[0121]
步骤s6:在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对;
[0122]
步骤s7:将所述触发词代表话术对按医生姓名分类存储,构建问诊文本补全模型。
[0123]
本发明实施例中提供的计算机设备,与上述问诊文本补全模型构建方法、问诊文本补全模型构建装置相对于现有技术的优势相同,在此不再赘述。
[0124]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0125]
步骤s1:获取问诊文本训练数据和历史问诊文本数据;
[0126]
步骤s2:构建问诊文本标注模型,通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛;
[0127]
步骤s3:通过训练好的所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,且通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到消息数据单元,其中,所述消息数据单元包括所述疾病名称、所述知识类型、所述医生姓名和所述医生话术;
[0128]
步骤s4:在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,得到消息数据集群;
[0129]
步骤s5:在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术;
[0130]
步骤s6:在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对;
[0131]
步骤s7:将所述触发词代表话术对按医生姓名分类存储,构建问诊文本补全模型。
[0132]
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里
不再一一描述。
[0133]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0134]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0135]
本发明实施例提供的计算机可读存储介质,与上述问诊文本补全模型构建方法、问诊文本补全模型构建装置相对于现有技术的优势相同,在此不再赘述。
[0136]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。