一种敏感数据识别方法、装置、设备及存储介质与流程-j9九游会真人

文档序号:35696900发布日期:2023-10-11 19:52阅读:来源:国知局

技术特征:
1.一种敏感数据识别方法,其特征在于,包括:监听新增和/或变更的元数据,并对所述元数据进行敏感字段识别,确定敏感字段和非敏感字段;获取所述元数据的操作信息并进行解析,确定所述元数据中各数据表的字段引用信息;根据所述敏感字段、所述非敏感字段以及所述字段引用信息,基于预训练的元数据质量检测模型,确定所述元数据中待整改的数据表;对所述待整改的数据表进行整改,得到变更的元数据。2.根据权利要求1所述的敏感数据识别方法,其特征在于,所述根据所述敏感字段、所述非敏感字段以及所述字段引用信息,基于预训练的元数据质量检测模型,确定所述元数据中待整改的数据表,包括:基于预训练的元数据质量检测模型执行:根据预设信息中存在空值的非敏感字段以及敏感度感知模型,确定疑似敏感字段,其中,所述敏感度感知模型是根据所述敏感字段和所述预设信息中不存在空值的非敏感字段训练得到的;根据各数据表中的所述疑似敏感字段、所述预设信息的空值信息以及所述字段引用信息,基于预设评分规则,确定各数据表的评分值;将所述评分值与预设阈值进行比较,确定所述元数据中待整改的数据表;基于预训练的强化学习模型,更新所述预设评分规则以及所述预设阈值。3.根据权利要求2所述的敏感数据识别方法,其特征在于,所述基于预训练的强化学习模型,更新所述预设评分规则以及所述预设阈值,包括:获取所述元数据中待整改的数据表是否被整改的整改信息,并根据所述评分值、所述预设阈值以及所述整改信息,确定奖励值;根据所述奖励值、历史整改信息以及预训练的强化学习模型的策略,更新所述预设评分规则以及所述预设阈值。4.根据权利要求3所述的敏感数据识别方法,其特征在于,所述根据所述评分值、所述预设阈值以及所述整改信息,确定奖励值,包括:根据所述评分值、所述预设阈值、所述整改信息的取值以及奖励计算公式,确定奖励值,所述奖励计算公式为f=αx β(y-n)其中,f为所述奖励值,α、β为权值参数,y为所述评分值,n为所述预设阈值,x为所述整改信息的取值,当所述元数据中待整改的数据表被整改时,x为1,否则x为-1。5.根据权利要求2~4任一所述的敏感数据识别方法,其特征在于,所述预训练的强化学习模型的训练步骤包括:根据当前的奖励值、历史整改信息以及当前的强化学习模型的策略,更新当前的预设评分规则和预设阈值;根据更新后的预设评分规则和预设阈值,确定更新后的评分值和所述元数据中待整改的数据表;获取所述元数据中待整改的数据表是否被整改的整改信息,并根据更新后的评分值和预设阈值以及获取的整改信息,更新当前的奖励值;
根据更新后的奖励值,更新当前的强化学习模型的策略,重复迭代直至所述强化学习模型的策略收敛。6.根据权利要求2所述的敏感数据识别方法,其特征在于,所述根据预设信息中存在空值的非敏感字段以及敏感度感知模型,确定疑似敏感字段,包括:将预设信息中存在空值的非敏感字段作为预测样本;利用预训练的大语言模型对所述预测样本进行向量化并拼接,得到预测样本向量;将所述预测样本向量输入至所述敏感度感知模型中,得到疑似敏感字段。7.根据权利要求2或6所述的敏感数据识别方法,其特征在于,所述敏感度感知模型的训练步骤包括:将所述敏感字段和所述预设信息中不存在空值的非敏感字段作为训练样本;利用预训练的大语言模型对所述训练样本进行向量化并拼接,得到训练样本向量;利用所述训练样本向量对预设分类器进行训练,得到所述敏感度感知模型。8.一种敏感数据识别装置,其特征在于,包括字段识别模块、引用信息确定模块、待整改数据表确定模块以及整改模块;所述字段识别模块,用于监听新增和/或变更的元数据,并对所述元数据进行敏感字段识别,确定敏感字段和非敏感字段;所述引用信息确定模块,用于获取所述元数据的操作信息并进行解析,确定所述元数据中各数据表的字段引用信息;所述待整改数据表确定模块,根据所述敏感字段、所述非敏感字段以及所述字段引用信息,基于预训练的元数据质量检测模型,确定所述元数据中待整改的数据表;所述整改模块,用于对所述待整改的数据表进行整改,得到变更的元数据。9.一种敏感数据识别设备,其特征在于,包括存储器和处理器,其中:所述存储器用于存储计算机程序;所述处理器用于读取所述存储器中的计算机程序,并执行如权利要求1~7任一所述的敏感数据识别方法的步骤。10.一种计算机可读存储介质,其特征在于,其上存储有可读的计算机程序,该程序被处理器执行时实现如权利要求1~7任一所述的敏感数据识别方法的步骤。

技术总结
本发明公开了一种敏感数据识别方法、装置、设备及存储介质,所述敏感数据识别方法包括:监听新增和/或变更的元数据,并对所述元数据进行敏感字段识别,确定敏感字段和非敏感字段;获取所述元数据的操作信息并进行解析,确定所述元数据中各数据表的字段引用信息;根据所述敏感字段、所述非敏感字段以及所述字段引用信息,基于预训练的元数据质量检测模型,确定所述元数据中待整改的数据表;对所述待整改的数据表进行整改,得到变更的元数据。利用本发明公开的敏感数据识别方法,可以实现对元数据的质量检测并整改,提高数据敏感度识别的准确度。确度。确度。


技术研发人员:曹智杰 商渭清
受保护的技术使用者:深圳市跨越新科技有限公司
技术研发日:2023.06.29
技术公布日:2023/10/10
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图