技术特征:
1.一种计算机实现方法,包括:在数据载入过程期间接收数据集;对所述数据集内的数据点进行分类;将机器学习数据标准化模型应用于所述数据集内的每个分类的数据点;以及基于随着应用所述机器学习数据标准化模型而确定的任何标准化修改来得到针对所述数据集的所提出的数据标准化规则的集合。2.根据权利要求1所述的计算机实现的方法,进一步包括:呈现所提出的数据标准化规则组用于客户端审阅;以及响应于对所提出的数据标准化规则的集合的接受,将所提出的数据标准化规则的集合应用于所述数据集。3.根据权利要求1所述的计算机实现的方法,进一步包括:响应于对所提出的数据标准化规则的集合的接受,基于所提出的数据标准化规则的集合来更新所述机器学习数据标准化模型。4.根据权利要求1所述的计算机实现的方法,其中,配置所述机器学习数据标准化模型包括:在多个相应的数据载入场景期间对多个数据集进行采样;基于所述多个采样的数据集识别相应的数据异常场景;识别现有数据异常纠正技术来解决所述相应的数据异常场景;以及基于所述现有数据异常纠正技术对所述相应的数据异常场景的适用性来训练所述机器学习数据标准化模型。5.根据权利要求1所述的计算机实现的方法,其中,将所述机器学习数据标准化模型应用于所述数据集内的每个分类的数据点包括:响应于确定所述数据点是由合并到所述机器学习数据标准化模型中的预先存在的标准化规则处理的异常值,通过应用所述预先存在的标准化规则来动态地修改所述异常值。6.根据权利要求1所述的计算机实现的方法,其中,将所述机器学习数据标准化模型应用于所述数据集内的每个分类的数据点包括:响应于确定所述数据点是未被任何预先存在的标准化规则修正的异常值,确定至少一个标准化修改以纠正所述数据点。7.根据权利要求6所述的计算机实现的方法,其中,确定至少一个标准化修改以纠正所述数据点包括:响应于确定所述数据点是空值,基于包括所述空值的第一数据列与至少一个相关数据列之间的关系或基于所述第一数据列内的相关值之间的关系来确定所述空值的替换。8.根据权利要求6所述的计算机实现的方法,其中,确定至少一个标准化修改以纠正所述数据点包括:响应于确定所述数据点是具有大于或等于预定的数据集频率阈值的发生率的频繁的异常字符串值,将所述频繁的异常字符串值分类为有效值。9.根据权利要求6所述的计算机实现的方法,其中,确定至少一个标准化修改以纠正所述数据点包括:响应于确定所述数据点是具有小于预定的数据集频率阈值的发生率的不频繁的异常
字符串值,应用数据抓取算法以经由自动应用来评估所述不频繁的异常字符串值,其中对所述数据抓取算法的输入包括所述不频繁的异常字符串值和相关联的数据类名称。10.根据权利要求9所述的计算机实现的方法,其中,应用所述数据抓取算法来评估所述不频繁的异常字符串值包括:响应于识别与所述不频繁的异常字符串值和相关联的数据类名称二者相关联的阈值数量的数据点,将所述不频繁的异常字符串值分类为有效值。11.根据权利要求9所述的计算机实现的方法,其中,应用所述数据抓取算法来评估所述不频繁的异常字符串值包括:响应于未能识别与所述不频繁的异常字符串值和相关联的数据类名称二者相关联的阈值数量的数据点,确定所述数据集内是否存在具有与所述不频繁的异常字符串值的预定程度的字符串相似度的至少一个有效字符串值;以及响应于识别所述数据集内具有所述预定程度的字符串相似度的至少一个有效字符串值,通过在所述至少一个有效字符串值之中选择有效字符串值来确定对于所述不频繁的异常字符串值的纠正,以及基于所述不频繁的异常字符串值与所选择的有效字符串值之间的任何识别的字符差异来确定对所述不频繁的异常字符串值的至少一个修改。12.根据权利要求11所述的计算机实现的方法,其中,在所述至少一个有效字符串值之中选择有效字符串值包括评估所述不频繁的异常字符串值与所述至少一个有效字符串值中的每个之间的定量的相似度。13.根据权利要求11所述的计算机实现方法,其中,在所述至少一个有效字符串值之中选择有效字符串值包括至少部分基于字符串值选择历史应用一个或多个试探法。14.根据权利要求11所述的计算机实现方法,其中,应用所述数据抓取算法来评估所述不频繁的异常字符串值进一步包括:响应于无法识别所述数据集内具有预定程度的字符串相似度的至少一个有效字符串值,应用至少一种众包技术来确定对于所述不频繁的异常字符串值的纠正。15.根据权利要求6所述的计算机实现的方法,其中,确定至少一个标准化修改以纠正所述数据点包括:响应于确定所述数据点是异常非字符串值,确定用于所述异常非字符串值的纠正。16.根据权利要求15所述的计算机实现的方法,其中,确定针对所述异常非字符串值的纠正包括:识别与所述异常非字符串值有关的正则表达式格式;以及确定对所述异常非字符串值的至少一个修改以符合所述正则表达式格式。17.根据权利要求15所述的计算机实现的方法,其中,确定针对所述异常非字符串值的纠正包括:将所述异常非字符串值解析成至少一个字符串部分;以及对于所述至少一个字符串部分中的每个异常字符串部分:通过评估异常值串部分和至少一个有效串值中的每一个之间的定量的相似度来在至少一个有效字符串值之中选择有效字符串值;以及基于所述异常字符串部分和所选择的有效字符串值之间的任何识别的字符差异来确定对所述异常字符串部分的至少一个修改。
18.根据权利要求15所述的计算机实现的方法,其中,确定针对所述异常非字符串值的纠正包括:响应于确定所述异常非字符串值是重复值,基于包括所述重复值的第一数据列与至少一个相关数据列之间的关系来确定所述重复值的替换。19.一种计算机程序产品,包括具有程序指令的计算机可读存储介质,所述程序指令可由计算设备执行以使所述计算设备执行权利要求1至18中任一项所述的方法步骤。20.一种系统,包括:至少一个处理器;以及存储器,存储应用程序,所述应用程序当在所述至少一个处理器上执行时执行操作,所述操作包括:在数据载入过程期间接收数据集;对所述数据集内的数据点进行分类;将机器学习数据标准化模型应用于所述数据集内的每个分类的数据点;以及基于随着应用所述机器学习数据标准化模型而确定的任何标准化修改来得到针对所述数据集的所提出的数据标准化规则集。
技术总结
描述了涉及云计算环境的管理服务域中的自动数据标准化的技术。一种相关联的计算机实现的方法,包括在数据载入过程期间接收数据集,以及对数据集内的数据点进行分类。该方法还包括将机器学习数据标准化模型应用于数据集内的每个分类的数据点,以及基于因模型应用而确定的任何标准化修改得到针对数据集的所提出的数据标准化规则集。可选地,该方法包括呈现所提出的数据标准化规则集用于客户端审阅,以及响应于接受所提出的数据标准化规则集,将所提出的数据标准化规则集应用于数据集。该方法进一步包括:响应于接受所提出的数据标准化规则集,相应地更新机器学习数据标准化模型。化模型。化模型。
技术研发人员:n
受保护的技术使用者:国际商业机器公司
技术研发日:2022.02.18
技术公布日:2023/10/15