问诊文本补全模型构建、补全方法、装置、设备及介质与流程-j9九游会真人

文档序号:35696960发布日期:2023-10-11 19:56阅读:来源:国知局

技术特征:
1.一种问诊文本补全模型构建方法,其特征在于,包括:获取问诊文本训练数据和历史问诊文本数据;构建问诊文本标注模型,通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛;通过训练好的所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,且通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到消息数据单元,其中,所述消息数据单元包括所述疾病名称、所述知识类型、所述医生姓名和所述医生话术;在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,得到消息数据集群;在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术;在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对;将所述触发词代表话术对按医生姓名分类存储,构建问诊文本补全模型。2.根据权利要求1所述的问诊文本补全模型构建方法,其特征在于,所述通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛,包括:获取所述问诊文本训练数据对应的知识类型标注数据;构建问诊文本标注模型,所述问诊文本标注模型包括albert编码器和softmax分类器;将所述知识类型标注数据输入所述albert编码器得到编码结果,将所述编码结果输入所述softmax分类器对所述问诊文本标注模型进行训练,直到模型收敛,其中,所述问诊文本标注模型训练过程中的损失函数为交叉熵损失函数,收敛条件为损失函数的值最小。3.根据权利要求1所述的问诊文本补全模型构建方法,其特征在于,所述层次聚类算法的距离方程为:其中,x,y为不同的所述消息数据单元,distance(x,y)为所述消息数据单元x与y之间的距离,为归一化编辑距离,entity_distance(x,y)为结巴分词后实体的杰卡德距离。4.根据权利要求1所述的问诊文本补全模型构建方法,其特征在于,所述在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术,包括:在所述消息数据集群中选择所述疾病名称出现频次最高的所述消息数据单元中的所述医生话术作为代表话术;或,在所述消息数据集群中选择所述知识类型出现频次最高的所述消息数据单元中的所述医生话术作为代表话术;或,在所述消息数据集群中选择所述医生姓名出现频次最高的所述消息数据单元中的所述医生话术作为代表话术。5.根据权利要求1所述的问诊文本补全模型构建方法,其特征在于,所述在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术
对,包括:选取所述代表话术中的前n个字符作为触发词,将所述触发词和所述代表话术配对组成所述触发词代表话术对,其中,n为预设数量。6.一种问诊文本补全方法,其特征在于,包括:获取待补全问诊文本和医生姓名;将所述待补全问诊文本和所述医生姓名输入问诊文本补全模型,得到补全文本内容;其中,所述问诊文本补全模型采用如权利要求1至5中任一项所述的问诊文本补全模型构建方法构建得到。7.根据权利要求6所述的问诊文本补全方法,其特征在于,所述将所述待补全问诊文本和所述医生姓名输入问诊文本补全模型,得到补全文本内容,包括:将所述待补全问诊文本与所述问诊文本补全模型中的触发词进行匹配,确定匹配分数;根据所述匹配分数由高到低排序,确定所述匹配分数最高的目标触发词;根据所述目标触发词,寻找并确定所述目标触发词对应的目标触发词代表话术对;根据所述目标触发词代表话术对和医生姓名,确定补全文本内容。8.一种问诊文本补全模型构建装置,其特征在于,包括:获取模块,用于获取问诊文本训练数据和历史问诊文本数据;构建模块,用于构建问诊文本标注模型,通过所述问诊文本训练数据训练所述问诊文本标注模型,直到模型收敛;标注模块,用于通过训练好的所述问诊文本标注模型对所述历史问诊文本数据标注知识类型,且通过语义识别算法对所述历史问诊文本数据标注疾病名称、医生姓名和医生话术,得到消息数据单元,其中,所述消息数据单元包括所述疾病名称、所述知识类型、所述医生姓名和所述医生话术;聚类模块,用于在所述疾病名称、所述知识类型和所述医生姓名上,通过层次聚类算法对所有所述消息数据单元进行聚类,得到消息数据集群;第一处理模块,用于在所述消息数据集群中选择一种所述消息数据单元中的所述医生话术作为代表话术;第二处理模块,用于在所述代表话术中选取部分语段作为触发词,将所述触发词和所述代表话术配对组成触发词代表话术对;存储模块,用于将所述触发词代表话术对按医生姓名分类存储,得到问诊文本补全模型。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述问诊文本补全模型构建方法的步骤,和/或如权利要求6或7所述的问诊文本补全方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述问诊文本补全模型构建方法的步骤,和/或如权利要求6或7所述的问诊文本补全方法的步骤。

技术总结
本发明涉及人工智能技术、文本构建、智慧医疗技术领域,公开了一种问诊文本补全模型构建、补全方法、装置、设备及介质。本发明提供的问诊文本补全模型构建、补全方法、装置、设备及介质所实现的方案,通过对历史问诊文本数据进行标注,得到消息数据单元,并通过对消息数据单元进行聚类,确定每个所述消息数据集群中的代表话术,通过医生姓名和触发词确定实际文本补全过程中使用的代表话术。使得补全内容均来自于相同医生说过的历史消息,具有较高的正确性,且符合医生本人的语言习惯。提高了问诊文本补全的效率。本补全的效率。本补全的效率。


技术研发人员:徐卓扬
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.30
技术公布日:2023/10/10
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图