1.本发明涉及一种能够生成声音的音生成方法、训练方法、音生成装置、训练装置、音生成程序及训练程序。
背景技术:
2.已知基于由使用者指定的音量的时间序列而生成语音信号的应用。例如,在非专利文献1所记载的应用中,从使用者的输入音提取出基本频率、隐变量及响度作为特征量。通过对提取出的特征量进行频谱建模合成而生成语音信号。
3.非专利文献1:jesse engel,lamtharn hantrakul,chenjie gu andadam roberts,"ddsp:differentiable digital signal processing",arxiv:2001.04643v1[cs.lg]14jan 2020
技术实现要素:
[0004]
在使用非专利文献1所记载的应用而生成表示如人的歌唱或演奏那样自然地变化的语音的语音信号时,需要使用者详细地指定振幅、音量、音高、音色(timbre)等任意者的音乐特征量的时间序列。但是,详细地指定振幅、音量、音高、音色等任意者的音乐特征量的时间序列并不容易。
[0005]
本发明的目的在于提供能够容易地取得自然的语音的音生成方法、训练方法、音生成装置、训练装置、音生成程序及训练程序。
[0006]
根据本发明的一个方案的音生成方法是由计算机实现的,针对由多个区间构成的音符的各区间而接受音乐特征量的代表值,使用训练好的模型,对与所述各区间的代表值相对应的第1特征量列进行处理,生成与音乐特征量连续地变化的第2特征量列对应的音数据列。此外,“音乐特征量”这一用语表示特征量是音乐类别(例如,振幅、音高、音色等)。第1特征量列及第2特征量列都是“音乐特征量(特征量)”的时间序列数据的一个例子。即,在第1特征量列及第2特征量列各自中表示其变化的特征量都是“音乐特征量”。
[0007]
根据本发明的其他方案的训练方法是由计算机实现的,从表示音波形的参照数据,提取出音乐特征量连续地变化的参照音数据列和该音乐特征量的时间序列即输出特征量,根据输出特征量列,生成音乐特征量针对音的每个区间而变化的输入特征量列,通过使用了输入特征量列和参照音数据列的机器学习,构建对输入特征量列和参照音数据列之间的输入输出关系进行了学习的训练好的模型。此外,输入特征量列及输出特征量列都是“音乐特征量(特征量)”的时间序列数据的一个例子。即,在输入特征量列及输出特征量列各自中表示其变化的特征量都是“音乐特征量”。
[0008]
根据本发明的又一个方案的音生成装置具有:接受部,其针对由多个区间构成的音符的各区间而接受音乐特征量的代表值;以及生成部,其使用训练好的模型,对与所述各区间的代表值相对应的第1特征量列进行处理,生成与音乐特征量连续地变化的第2特征量
列对应的音数据列。
[0009]
根据本发明的又一个方案的训练装置具有:提取部,其从表示音波形的参照数据,提取出音乐特征量连续地变化的参照音数据列和该音乐特征量的时间序列即输出特征量列;生成部,其根据输出特征量列,生成音乐特征量针对音的每个区间而变化的输入特征量列;以及构建部,其通过使用了输入特征量列和参照音数据列的机器学习,构建对输入特征量列和参照音数据列之间的输入输出关系进行了学习的训练好的模型。
[0010]
发明的效果
[0011]
根据本发明,能够容易地取得自然的语音。
附图说明
[0012]
图1是表示包含本发明的一个实施方式涉及的音生成装置及训练装置的处理系统的结构的框图。
[0013]
图2是表示音生成装置的结构的框图。
[0014]
图3是用于说明音生成装置的动作例的图。
[0015]
图4是用于说明音生成装置的动作例的图。
[0016]
图5是是表示接受画面的其他例子的图。
[0017]
图6是表示训练装置的结构的框图。
[0018]
图7是用于说明训练装置的动作例的图。
[0019]
图8是表示由图2的音生成装置进行的音生成处理的一个例子的流程图。
[0020]
图9是表示由图6的训练装置进行的训练处理的一个例子的流程图。
[0021]
图10是表示第2实施方式的接受画面的一个例子的图。
具体实施方式
[0022]
(1)处理系统的结构
[0023]
以下,使用附图详细地说明本发明的第1实施方式涉及的音生成方法、训练方法、音生成装置、训练装置、音生成程序及训练程序详细。图1是表示包含本发明的一个实施方式涉及的音生成装置及训练装置的处理系统的结构的框图。如图1所示,处理系统100具有ram(随机存取存储器)110、rom(只读存储器)120、cpu(中央运算处理装置)130、存储部140、操作部150及显示部160。作为中央运算处理装置,cpu 130可以是cpu、mpu、gpu、asic、fpga、dsp及通用计算机之中的1个以上,也可以包含它们之中的1个或多个。
[0024]
处理系统100例如是通过pc、平板终端或智能手机等计算机实现的。或者,处理系统100可以通过用以太网等通信路径进行连接的多个计算机的共同动作而实现。ram 110、rom 120、cpu 130、存储部140、操作部150及显示部160与总线170连接。由ram 110、rom 120及cpu 130构成音生成装置10及训练装置20。在本实施方式中,音生成装置10和训练装置20由共通的处理系统100构成,但也可以由单独的处理系统构成。
[0025]
ram 110例如由易失性存储器构成,作为cpu 130的工作区域而使用。rom 120例如由非易失性存储器构成,对音生成程序及训练程序进行存储。cpu 130通过在ram 110上执行在rom 120存储的音生成程序而进行音生成处理。另外,cpu 130通过在ram 110上执行在rom 120存储的训练程序而进行训练处理。对于音生成处理及训练处理的详细内容,在后面
记述。
[0026]
音生成程序或训练程序可以不是存储于rom 120,而是存储于存储部140。或者,音生成程序或训练程序可以以存储于计算机可读取的存储介质的方式提供,也可以安装于rom 120或存储部140。或者,在处理系统100与互联网等网络连接的情况下,也可以将从该网络上的服务器(包含云服务器。)传送的音生成程序安装于rom 120或存储部140。
[0027]
存储部140包含硬盘、光盘、磁盘或存储卡等存储介质。在存储部140存储训练好的模型m、结果数据d1、多个参照数据d2、多个乐谱数据d3及多个参照乐谱数据d4。多个参照数据d2和多个参照乐谱数据d4各自对应。参照数据d2(音数据)和参照乐谱数据d4(乐谱数据)“对应”例如是指,由参照乐谱数据d4示出的乐谱表示的乐曲的各音符(及音韵)和由参照数据d2示出的波形数据表示的乐曲的各音符(及音韵)包含其演奏定时、演奏强度、演奏表现等而彼此相同。训练好的模型m是获取乐谱数据d3的乐谱特征量列和控制值(输入特征量列)并进行处理,对与上述乐谱特征量列和控制值相对应的结果数据d1(音数据列)进行推定的生成模型。训练好的模型m对输入特征量列和与输出特征量列对应的参照音数据列之间的输入输出关系进行学习,是由训练装置20构建的。在本例中,训练好的模型m是ar(回归)型的生成模型,但也可以是非ar型的生成模型。
[0028]
输入特征量列是针对声音的每个时间部分而离散地或间歇地缓慢变化的时间序列(时间序列数据)。输出特征量列是音乐特征量音乐特征量不断地或连续地快速变化的时间序列(时间序列数据)。输入特征量列及输出特征量列各自是特征量列,特征量列是音乐特征量的时间序列数据,还可称为表示音乐特征量的时间变化的数据。音乐特征量例如可以是振幅或其微分值、音高或其微分值。音乐特征量可以取代振幅等而是谱倾斜或谱重心,也可以是高频功率相对于低频功率之比(高频带功率/低频带功率)。“音乐特征量”这一用语表示特征量为音乐类别(例如,振幅、音高、音色等),以下,有时简记为“特征量”。本实施方式的输入特征量列、输出特征量列、第1特征量列、及第2特征量列都是“音乐特征量(特征量)”的时间序列数据的一个例子。即,在输入特征量列、输出特征量列、第1特征量列、及第2特征量列各自中示出其变化的特征量都是“音乐特征量”。另一方面,音数据列是能够变换为时间区域的音波形的频率区域的数据的列,例如可以是波形的振幅谱包络的时间序列和音高的时间序列的组合,或者可以是梅尔频谱等。
[0029]
这里,输入特征量列针对声音的每个区间(离散地或间歇地)变化,输出特征量列不断地或连续地变化,但时间分辨率(每个单位时间的特征量数)相互相等。
[0030]
结果数据d1表示与由音生成装置10生成的声音的特征量列对应的音数据列。参照数据d2是为了对训练好的模型m进行训练而使用的波形数据、即音波形的样本的时间序列(时间序列数据)。而且,将与声音的控制相关联地从各波形数据提取出的特征量的时间序列(时间序列数据)称为输出特征量列。乐谱数据d3及参照乐谱数据d4分别表示包含在时间轴上配置的多个音符(音符串)的乐谱。根据乐谱数据d3而生成的乐谱特征量在由音生成装置10进行的结果数据d1的生成中使用。参照数据d2及参照乐谱数据d4在由训练装置20进行的训练好的模型m的构建中使用。
[0031]
训练好的模型m、结果数据d1、参照数据d2、乐谱数据d3及参照乐谱数据d4可以不存储于存储部140而存储于计算机可读取的存储介质。或者,在处理系统100与网络连接的情况下,训练好的模型m、结果数据d1、参照数据d2、乐谱数据d3或参照乐谱数据d4可以存储
于该网络上的服务器。
[0032]
操作部150包含鼠标等定点设备或键盘,由使用者操作以进行规定的输入。显示部160例如包含液晶显示器,对规定的gui(graphical user interface)或音生成处理的结果等进行显示。操作部150及显示部160可以由触摸面板式显示器构成。
[0033]
(2)音生成装置
[0034]
图2是表示音生成装置10的结构的框图。图3及图4是用于说明音生成装置10的动作例的图。如图2所示,音生成装置10包含提示部11、接受部12、生成部13及处理部14。提示部11、接受部12、生成部13及处理部14的功能通过由图1的cpu 130执行音生成程序而实现。提示部11、接受部12、生成部13及处理部14的至少一部分可以由电路等硬件实现。
[0035]
提示部11如图3所示,将接受画面1作为用于接受来自使用者的输入的gui而显示于显示部160。在接受画面1设置参照区域2及输入区域3。在参照区域2,例如基于由使用者选择的乐谱数据d3而显示表示由多个音符构成的音符串的各音符的时间轴上的位置的参照图像4。参照图像4例如是钢琴卷轴。使用者能够通过对操作部150进行操作而从在存储部140等存储的多个乐谱数据d3选择表示期望的乐谱的乐谱数据d3,或进行编辑。
[0036]
输入区域3配置为与参照区域2对应。另外,在图3的例子中,以与参照图像4的各音符的起音、主体及释音这3个区间分别对应的方式将沿上下方向延伸的3根柱线显示于输入区域3。输入区域3的各柱线的上下方向的长度表示与对应的音符的区间中的特征量(在本例中为振幅)的代表值。使用者使用图1的操作部150使各柱线的长度变化,由此针对音符串的各音符的各区间而将振幅的代表值输入至输入区域3。这里,针对每个音符而输入3个代表值。接受部12接受被输入至输入区域3上的代表值。
[0037]
存储于存储部140等的训练好的模型m如图4所示,例如包含神经网络(在图4的例子中,dnn(深度神经网络)l1)。由使用者选择的乐谱数据d3及被输入至输入区域3的各音符的3个代表值被赋予至训练好的模型m(dnn)。生成部13使用训练好的模型m,对与乐谱数据d3对应的乐谱特征量列和与3个代表值对应的第1特征量列进行处理,生成包含乐谱中的音高的时间序列和频谱包络在内的结果数据d1。结果数据d1是与以振幅以比音符串的代表值的时间变化的精细度(fineness)高的精细度在时间上变化的方式排列的第2特征量列对应的音数据列。此外,结果数据可以是表示乐谱中的频谱的时间序列的结果数据d1。
[0038]
第1特征量列包含根据起音的代表值而生成的起音的特征量列、根据主体的代表值而生成的主体的特征量列、和根据释音的代表值而生成的释音的特征量列。可以将各区间的代表值以从前一个音符的代表值平滑地变换为下一个音符的代表值的方式进行平滑化,将该平滑化后的代表值作为该区间的代表值列。音符串的各区间的代表值例如在特征量列中,是在该区间内排列的振幅的统计值。统计值可以是振幅的最大值、平均值、中央值、众数值、方差或标准偏差。另一方面,代表值不限定于振幅的统计值。例如,代表值可以是特征量列中的配置于各区间内的振幅的第1高谐波的最大值和第2高谐波的最大值之比,或者该比的对数值。或者,代表值可以是上述的第1高谐波的最大值和第2高谐波的最大值的平均值。
[0039]
生成部13可以将所生成的结果数据d1存储于存储部140等。处理部14例如作为声码器起作用,根据由生成部13生成的频率区域的结果数据d1而生成表示时间区域的波形的语音信号。通过将生成的音信号供给至与处理部14连接的、包含扬声器等的音响系统,输出
基于语音信号的声音。在本例中,音生成装置10包含处理部14,但实施方式不限定于此。音生成装置10也可以不包含处理部14。
[0040]
在图3的例子中,在接受画面1中,输入区域3配置于参照区域2的下方,但实施方式不限定于此。在接受画面1中,输入区域3也可以配置于参照区域2的上方。或者,在接受画面1中,输入区域3可以配置为与参照区域2重叠。可以在钢琴卷轴的各音符的附近显示该音符的3个代表值。
[0041]
另外,在图3的例子中,接受画面1包含参照区域2,在参照区域2显示参照图像4,但实施方式不限定于此。图5是表示接受画面1的其他例子的图。在图5的例子中,接受画面1不包含参照区域2。在输入区域3中,各音符的时间轴上的位置由相邻的2个虚线表示。另外,各音符的多个区间的边界由单点划线表示。使用者使用操作部150,进行在输入区域3上表示振幅的代表值的希望的时间序列的描绘。由此,能够针对音符串的各音符的各区间而输入振幅的代表值。
[0042]
在图4的例子中,训练好的模型m包含1个dnn l1,但实施方式不限定于此。训练好的模型m可以包含多个dnn。
[0043]
(3)训练装置
[0044]
图6是表示训练装置20的结构的框图。图7是用于说明训练装置20的动作例的图。如图6所示,训练装置20包含提取部21、生成部22及构建部23。提取部21、生成部22及构建部23的功能通过由图1的cpu 130执行训练程序而实现。提取部21、生成部22及构建部23的至少一部分也可以由电路等硬件实现。
[0045]
提取部21从在存储部140等存储的各参照数据d2,提取出参照音数据列和输出特征量列。参照音数据列是参照数据d2示出的时间区域的波形的表示频率区域的频谱的数据,例如可以是对应的参照数据d2示出的波形的振幅谱包络的时间序列和音高的时间序列的组合,也可以是梅尔频谱等。通过使用规定的时间帧对参照数据d2进行频率解析,生成每隔规定间隔(例如,5ms)的参照音数据的列。输出特征量列是与参照音数据列对应的波形的特征量(例如,振幅)的时间序列(时间序列数据),特征量以与所述规定间隔(例如,5ms)对应的精细度在时间上变化。各种数据列的数据间隔可以比5ms短,也可以比5ms长,另外可以彼此相同,也可以不同。
[0046]
生成部22根据各输出特征量列和对应的参照乐谱数据d4而决定各音符的各区间的特征量(例如,振幅)的代表值,根据决定出的代表值而生成特征量(例如,振幅)在时间上(离散地或间歇地)变化的输入特征量列。具体而言,生成部22如图7所示,首先,基于输出特征量列和参照乐谱数据d4,对各音符的起音、主体及释音的3区间进行确定,进一步地在输出特征量列中提取出各区间内的特征量(例如,振幅)的代表值。在图7的例子中,各区间内的特征量(例如,振幅)的代表值为最大值,但可以为该区间内的特征量(例如,振幅)的其他统计值,也可以为统计值以外的代表值。生成部22基于所提取出的多个区间内的特征量(例如,振幅)的代表值,生成与音符串的起音、主体及释音的3区间各自对应的3个特征量(例如,振幅)的时间序列即输入特征量列。
[0047]
输入特征量列为针对每个音符而生成的代表值的时间序列,因此与输出特征量列相比精细度低得多。生成的输入特征量列可以是使每个区间的代表值直接在时间轴上的该对应的区间排列的阶梯状地变化的特征量列,也可以是进行平滑化而使得值不会急剧地变
化的特征量列。平滑化后的输入特征量列例如是下述特征量列,即,以在各区间的起点成为代表值的方式,在该区间的近前处特征量从零起逐渐增大,在该区间中特征量维持代表值,在该区间的终点及其以后,特征量从代表值逐渐减小至零。在使用平滑化后的特征量的情况下,除了在各区间生成的声音的特征量以外,还能够通过该区间的代表值对在紧邻其前或紧邻其后生成的声音的特征量进行控制。
[0048]
构建部23准备由dnn构成的生成模型m(未训练或预训练好的),进行下述机器学习,即,基于根据从各参照数据d2提取出的参照音数据列、所生成的输入特征量列及根据对应的参照乐谱数据d4而生成的乐谱特征量列,对该生成模型m进行训练。通过该训练,构建对输入特征量列及乐谱特征量列和参照音数据列之间的输入输出关系进行了学习的训练好的模型m。准备的生成模型m可以如图4所示包含1个dnn l1,也可以包含多个dnn。构建部23使所构建的训练好的模型m存储于存储部140等。
[0049]
(4)音生成处理
[0050]
图8是表示由图2的音生成装置10进行的音生成处理的一个例子的流程图。图8的音生成处理通过由图1的cpu 130执行在存储部140等存储的音生成程序而进行。首先,cpu 130对是否由使用者选择了乐谱数据d3进行判定(步骤s1)。在没有选择乐谱数据d3的情况下,cpu 130直至选择乐谱数据d3为止进行等待。
[0051]
在选择了乐谱数据d3的情况下,cpu 130使图3的接受画面1显示于显示部160(步骤s2)。在接受画面1的参照区域2,显示基于在步骤s1中选择出的乐谱数据d3的参照图像4。接下来,cpu 130在接受画面1的输入区域3上接受音符串的各区间的特征量(例如,振幅)的代表值(步骤s3)。
[0052]
接着,cpu 130使用训练好的模型m,对在步骤s1中选择出的乐谱数据d3的乐谱特征量列及根据在步骤s4中接受到的代表值而生成的第1特征量列进行处理,生成结果数据d1(步骤s4)。然后,cpu 130根据在步骤s4中生成的结果数据d1而生成作为时间区域的波形的语音信号(步骤s5),将音生成处理结束。
[0053]
(5)训练处理
[0054]
图9是表示由图6的训练装置20进行的训练处理的一个例子的流程图。图9的训练处理通过由图1的cpu 130执行在存储部140等存储的训练程序而进行。首先,cpu 130从存储部140等取得在训练中使用的多个参照数据d2(步骤s11)。接下来,cpu 130从在步骤s11中取得的各参照数据d2提取出参照音数据列(步骤s12)。另外,cpu 130从各参照数据d2提取出输出特征量列(例如,振幅的时间序列)(步骤s13)。
[0055]
接着,cpu 130根据提取出的输出特征量列和对应的参照乐谱数据d4而决定音符串的各区间的代表值(例如,振幅的最大值),基于决定出的各区间的代表值而生成输入特征量列(例如,3个振幅的时间序列)(步骤s14)。然后,cpu 130准备生成模型m,根据基于与各参照数据d2对应的参照乐谱数据d4的乐谱特征量列及输入特征量列和参照音数据列,对该生成模型m进行训练,由此使生成模型m对乐谱特征量列及输入特征量列和参照音数据列之间的输入输出关系进行机器学习(步骤s15)。
[0056]
接下来,cpu 130对是否执行了对于生成模型m学习输入输出关系而言充分的机器学习进行判定(步骤s16)。在机器学习不充分的情况下,cpu 130返回至步骤s15。直至执行充分的机器学习为止,反复进行步骤s15~s16。机器学习的反复次数与所构建的训练好的
模型m应满足的品质条件相对应地变化。步骤s16的判定是基于作为品质条件的指标的损失函数而进行的。例如,如果表示由供给了输入特征量列(以及乐谱特征量列)的生成模型m输出的音数据列和参照音数据列之间的差异的损失函数小于规定的值,则判定为机器学习充分。规定的值可以由处理系统100的利用者与期望的品质(品质条件)相对应地适当设定。另外,也可以取代这样的判定或者与这样的判定一起,判定反复次数是否达到了规定的次数。在执行了充分的机器学习的情况下,cpu 130将通过该训练而对乐谱特征量列及输入特征量列、和参照音数据列之间的输入输出关系进行了学习的生成模型m作为已构建的训练好的模型m进行保存(步骤s17),将训练处理结束。通过该训练处理,构建对输入特征量列及参照乐谱数据d4(或根据参照乐谱数据d4而生成的乐谱特征量列)和参照音数据列之间的输入输出关系进行了学习的训练好的模型m。
[0057]
此外,在实施方式中,说明了将1个音符划分为起音、主体、释音这3个区间的例子,但区间的划分方法不限定于此。例如,可以划分为起音和其后(主体和释音)这2个区间。或者,如果主体比规定长度长,则也可以将该主体划分为多个子主体,作为整体而划分为4个以上的区间。
[0058]
另外,在实施方式中,说明了第1特量量列及输入特征量列各自包含音符的所有区间的特征量列、例如起音、主体和释音这3个特征量列的例子。但是,第1特量量列及输入特征量列并非必须各自包含音符的被划分出的所有区间的特征量列。即,第1特量量列及输入特征量列可以各自不包含音符的被划分出的多个区间的内的任意的区间的特征量列。例如,第1特征量列及输入特征量列可以各自仅包含起音的特征量列。或者,第1特征量列及输入特征量列可各自仅包含起音和释音这2个特征量列。
[0059]
进一步地,在实施方式中,说明了第1特量量列及输入特征量列各自包含针对音符的被划分出的每个区间(例如,起音、主体及释音)而独立的多个特征量列的例子。但是,第1特量量列及输入特征量列并非必须各自包含针对音符的被划分出的每个区间而独立的多个特征量列。例如,可以将第1特征量列设为单一特征量列,在该单一特征量列包含音符的被划分出的区间的特征量的代表值(例如,起音的代表值、主体的代表值及释音的代表值)。在该单一特征量列中,也可以在将某个区间和其下一个区间连接的微小范围(几个帧左右的长度),将特征量平滑化为从某个区间的代表值向下一个区间的代表值逐渐变化。
[0060]
(6)实施方式的效果
[0061]
如以上所说明的那样,本实施方式涉及的音生成方法是由计算机实现的,针对由多个区间构成的音符的各区间而接受音乐特征量的代表值,使用训练好的模型,对与所述各区间的代表值相对应的第1特征量列进行处理,生成与音乐特征量连续地变化的第2特征量列对应的音数据列。如前述那样,“音乐特征量”这一用语表示特征量是音乐类别(例如,振幅、音高、音色等)。第1特征量列及第2特征量列都是“音乐特征量”的时间序列数据的一个例子。在第1特征量列及第2特征量列各自中表示其变化的特征量都是“音乐特征量”。
[0062]
根据该方法,即使在输入音乐特征量的音符的每个部分的代表值的情况下,也能够生成与以高精细度连续地变化的特征量列对应的音数据列。所生成的音数据列表示音乐特征量详细地(换言之,不断地或连续地快速)时间变化的自然的音波形。因此,使用者无需输入音乐特征量的详细的时间变化。
[0063]
多个区间可以至少包含起音。根据该方法,针对由至少包含起音的多个区间的音
符的各区间而接受音乐特征量的代表值,使用训练好的模型,对与所述各区间的代表值相对应的第1特征量列进行处理,生成与音乐特征量连续地变化的第2特征量列对应的音数据列。
[0064]
多个区间可以还包含主体和释音的任意者。根据该方法,针对由包含主体和释音的任意者的多个区间构成的音符的各区间而接受音乐特征量的代表值,使用训练好的模型,对与所述各区间的代表值相对应的第1特征量列进行处理,生成与音乐特征量连续地变化的第2特征量列对应的音数据列。
[0065]
训练好的模型可以通过机器学习对表示音波形的参照数据的与各区间的音乐特征量的代表值对应的输入特征量列和表示该参照数据的连续地变化的音乐特征量的输出特征量列之间的输入输出关系进行了学习即可。此外,输出特征量列及输入特征量列都是“音乐特征量”的时间序列数据的一个例子。即,在输出特征量列及输入特征量列各自中表示其变化的特征量都是“音乐特征量”。
[0066]
输入特征量列可以包含针对每个区间而独立的多个特征量。
[0067]
输入特量量列可以是被平滑化为其值不会急剧地变化的特征量列。
[0068]
各区间的代表值在输出特征量列中可以表示该区间内的音乐特征量的统计值。
[0069]
音生成方法可以进一步对显示音符串中的音符的各区间的音乐特征量的接受画面进行提示,代表值是使用接受画面而由用户(使用者)输入的。在该情况下,使用者能够一边目视确认音符串的多个音符的时间轴上的位置一边容易地输入代表值。
[0070]
所述音生成方法可以进一步将表示频率区域的波形的所述音数据列向时间区域的波形进行变换。
[0071]
本实施方式涉及的训练方法是由计算机实现的,从表示音波形的参照数据,提取出音乐特征量连续地变化的参照音数据列和该音乐特征量的时间序列即输出特征量列,根据输出特征量列,生成音乐特征量针对音符的每个区间而变化的输入特征量列,通过使用了输入特征量列和参照音数据列的机器学习,构建对输入特征量列和参照音数据列之间的输入输出关系进行了学习的训练好的模型。
[0072]
根据该方法,能够构建下述训练好的模型m,即,即使在输入音符串的各音符的各区间的音乐特征量的代表值的情况下,也能够生成与音乐特征量以高精细度不断地或连续地时间变化的第2特征量列对应的音数据列。
[0073]
输入特征量列可以是基于在输出特征量列中根据多个区间各自的音乐特征量决定出的代表值而生成的。
[0074]
(7)使用振幅以外的特征量的例子
[0075]
在上述实施方式中,使用者输入各音符的各区间的振幅的最大值作为对所生成的声音进行控制的控制值,但实施方式不限定于此。作为控制值而使用的,可以是振幅以外的任意的特征量,也可以是最大值以外的任意的代表值。以下,针对第2实施方式涉及的音生成装置10及训练装置20,对与第1实施方式涉及的音生成装置10及训练装置20共通的点和不同的点进行说明。
[0076]
本实施方式的音生成装置10除了以下的点以外与参照图2说明的第1实施方式的音生成装置20相同。提示部11基于由使用者选择出的乐谱数据d3,使接受画面1显示于显示部160。图10是表示第2实施方式的接受画面1的一个例子的图。如图10所示,在本实施方式
的接受画面1,取代图3的输入区域3而与参照区域2对应地配置3个输入区域3a、3b、3c。
[0077]
在图10的例子中,参照画像4的各音符的起音、主体及释音这3区间的特征量的代表值作为沿上下方向延伸的柱线而分别显示于3个输入区域3a、3b、3c。第2实施方式的特征量是音高,代表值是各区间的音高的方差。输入区域3a的各柱线的长度表示对应的音符的起音的音高的方差。输入区域3b的各柱线的长度表示对应的音符的主体的音高的方差。输入区域3c的各柱线的长度表示对应的音符的释音的音高的方差。
[0078]
使用者通过使用操作部150使各柱线的长度变化,从而将音符串的各音符的起音、主体及释音的各区间的特征量的代表值分别输入至输入区域3a、3b、3c。接受部12接受被输入至输入区域3a~3c上的代表值。
[0079]
生成部13使用训练好的模型m,对基于乐谱数据d3的乐谱特征量列及基于各音符的3个代表值(音高的方差)的第1特征量列进行处理,生成结构数据d1。结构数据d1是包含音高以高精细度连续地变化的第2特征量列的音数据列。生成部13可以使所生成的结构数据d1存储于存储部140等。另外,生成部13基于频率区域的结果数据d1而生成时间区域的波形即语音信号并供给至音响系统。此外,生成部13可以使结果数据d1所包含的第2特征量列(音高的时间序列)显示于显示部160。
[0080]
本实施方式的训练装置20除了以下的点以外,与参照图6而说明的第1实施方式的训练装置20相同。在本实施方式中,在图9的训练处理的步骤s13中应当提取的输出特征量列即音高的时间序列在前一步骤s12中作为参照音数据列的一部分已提取。cpu 130(提取部21)在步骤s13中,将多个参照数据d2各自的振幅的时间序列不是作为输出特征量列,而是作为将音分离为3个部分的指标进行提取。
[0081]
在接下来的步骤s14中,cpu 130基于该振幅的时间序列,将参照音数据列所包含的音高的时间序列(输出特征量列)划分为声音的起音、声音的释音、及起音和释音之间的主体这3个部分的区间,分别对各区间的音高列进行统计分析而决定该区间的音高的方差,基于所决定出的各区间的代表值而生成输入特征量列。
[0082]
另外,cpu 130(构建部23)通过在步骤s15~s16中基于根据各参照数据d2而生成的参照音数据列和与输入特征量对应的参照乐谱数据d4,反复进行机器学习(生成模型m的训练),从而构建训练好的模型m,该对与参照乐谱数据d4对应的乐谱特征量列及输入特征量列和与输出特征量对应的参照音数据列之间的输入输出关系进行了学习
[0083]
在本实施方式的音生成装置10中,使用者通过输入音符串的各音符的起音、主体及释音的各区间的音高的方差,能够有效地控制在该区间的附近生成的声音的、以高精细度连续地变化的音高的变化幅度。此外,接受画面1包含输入区域3a~3c,但实施方式不限定于此。接受画面1可以不包含输入区域3a、3b、3c中的任意1个或2个输入区域。另外,在本实施方式中,接受画面1也可以不包含参照区域2。
[0084]
标号的说明
[0085]1…
接受画面,2
…
参照区域,3、3a~3c
…
输入区域,4
…
参照图像,10
…
音生成装置,11
…
提示部,12
…
接受部,13
…
生成部,14
…
处理部,20
…
训练装置,21
…
提取部,22
…
生成部,23
…
构建部,100
…
处理系统,110
…
ram,120
…
rom,130
…
cpu,140
…
存储部,150
…
操作部,160
…
显示部,170
…
总线,d1
…
结果数据,d2
…
参照数据,d3
…
乐谱数据,d4
…
参照乐谱数据,l1
…
dnn,m
…
生成模型,m
…
训练好的模型