CVAEを用いたウェーブテーブル合成の意味的な音色制御についての検討

概要

スクリーンショット 2023-02-21 9 33 26

本研究では、ウェーブテーブル合成¹と呼ばれる音響合成方式において、深層生成モデルを用いて意味的な音色制御を行う手法を提案する。ウェーブテーブル合成とは、1周期分の波形(以下、ウェーブテーブルと称する）を繰り返し読み出す事で音響合成を行う方式である。

提案手法では、Conditional Variational Autoencoder (CVAE) ²を用いて、ウェーブテーブルの条件付け生成を行う。条件付けには、音響特徴に基づいて算出した明るさ(bright), 暖かさ(warm), リッチさ(rich)という3つの意味的なラベルを用いる。また、ウェーブテーブルの特徴を捉えるために、畳み込みとアップサンプリングを用いたCVAEのアーキテクチャを設計する。これらは、リアルタイム性を高めるために推論時に周波数領域に変換せずに実行可能とする。

実験には、Adventure Kid Research & Technology ³が提供するモノラルのウェーブテーブル4158件をデータセットとして用いる。実験の結果、提案手法は意味的なラベルを変化させることでウェーブテーブルの音色をリアルタイムに操作できる事を定性的・定量的に示す。本研究は、データに基づいた意味的なウェーブテーブル制御の実現による音色探索の直感性向上を目的する。

序論

音楽制作やパフォーマンスにおいて、シンセサイザーは重要な役割を果たしている。しかし、望む音色を生成するためには、知識と経験が必要である。多くの音響合成方式が存在するが、ここではデジタル音響合成の最小単位である「ウェーブテーブル合成」に注目し、データに基づいた意味的なウェーブテーブル制御を実現する。この方法は、1周期分の波形を対象とする事で、ウェーブテーブル合成及び加算/減算合成,AM/FMなどの他合成方式にも適用できるものとする。

方法

Wavetable Synthesis

スクリーンショット 2023-02-13 22 52 23

デジタル音響合成の基礎となる技術
1周期分の波形（ウェーブテーブル）を保存し繰り返し読み出す事で音を生成
繰り返し速度を変える事で任意の音高を出力する

▶︎参考動画(クリックで開く)

CVAE(Conditional Variational Autoencoder)

Encoder-Decoderネットワークに基づいた、確率分布からサンプリングされた潜在変数を持つ生成モデルの一種
入力データに対して条件付きで生成を行うことが可能

提案手法

スクリーンショット 2023-02-17 4 16 47

①. データセット

Adventure Kid Research & Technology³が提供しているモノラルのSingle Cycle Waveformを使用
データ長は600[sample]であり、先行研究と比較して⁴⁵解像度が高いものを採用

②. 教師ラベルの算出

Wavetableの分析は、静的音色について表される音響特徴量を用いる必要がある
Kreković⁴は、明るさ(bright), 暖かさ(warm), リッチさ(rich)の３種類の意味的なラベルをそれぞれ、スペクトル重心、スペクトル密度、奇数時倍音のエネルギー比から算出
本研究でも同様の手法を使用しデータセットからラベルを抽出し学習と生成に用いる

静的音色:時間的な変化のない音(定常音)について、周波数スペクトルによって規定される音⁶

▶︎ラベルの分布と相関の図(クリックで開く)

③. モデル構成

波形の時間依存性を捉えるために、畳み込みとアップサンプリングを行うモデルを設計
潜在変数の入力と出力部分で条件付けを実施
リアルタイム性を高めるために推論時に周波数領域に変換せずに実行可能とする

▶︎モデル構成詳細(クリックで開く)

④. 損失関数

音響信号は位相が異なっていても同じスペクトルを得る事がある
特徴を正確に捉える為にSTFT(Short Term Fourier Transform)を行い、スペクトルからロスを計算
スペクトルの分解能を上げる為に、6つ分のウェーブテーブルを連結し、下記のスペクトル距離を使用

\[S(x,y) = \frac{||STFT(x) - STFT(y)||_F}{||STFT(x)||_F} + log(||STFT(x) -STFT(y)||_1)\]

$||・||_F$ , $||・||_1$ はそれぞれフロべニウスノルム、L1ノルムである
上記スペクトル距離は、Engelら⁷やCaillonら⁸が使用しているマルチスペクトル距離を参考に設定

実験

実験目的

再構成誤差の最小化と条件付け精度と滑らかさを実現するモデルの検証
提案手法の有効性を定性的・定量的に確認

条件

学習率は0.001、Adam optimizerを使用
バッチサイズは32
エポック数は30000回

結果

再構成品質

再構成品質と条件付け生成の結果を確認
条件付けラベルと出力ウェーブテーブルの特徴量の平均絶対誤差(MAE)を算出

examples

意味的なラベルによる合成の結果を以下に示す(サンプル音あります)
元になるWavetableをモデルに入力(入力Wavetableの詳細は上記参照)
明るさ、リッチさ、暖かさをそれぞれ3段階の値(0,0.5,1.0)で条件付け生成し楽曲にて確認

(折りたたみのタブになっているのでクリックすると展開されます。)

▶︎sine_wave

Condition value	0	0.5	1.0
明るさ(bright)
Estimate value	b=0.109, r=0.112, w=0.00	b=0.277, r=0.305, w=0.193	b=0.374, r=0.444, w=0.813
リッチさ(rich)
Estimate value	b=0.109, r=0.115, w=0.00	b=0.124, r=0.421, w=0.012	b=0.198, r=0.559, w=0.083
暖かさ(warm)
Estimate value	b=0.109, r=0.117, w=0.00	b=0.143, r=0.204, w=0.450	b=0.173, r=0.180, w=0.889

▶︎square_wave

Condition value	0	0.5	1.0
明るさ(bright)
Estimate value	b=0.140, r=0.433, w=0.233	b=0.280, r=0.426, w=0.178	b=0.352, r=0.465, w=0.632
リッチさ(rich)
Estimate value	b=0.109, r=0.140, w=0.00	b=0.176, r=0.419, w=0.064	b=0.195, r=0.549, w=0.127
暖かさ(warm)
Estimate value	b=0.151, r=0.441, w=0.032	b=0.226, r=0.466, w=0.517	b=0.297, r=0.483, w=0.886

▶︎distorted_wave1

Condition value	0	0.5	1.0
明るさ(bright)
Estimate value	b=0.123, r=0.413, w=0.306	b=0.323, r=0.451, w=0.620	b=0.390, r=0.481, w=0.905
リッチさ(rich)
Estimate value	b=0.200, r=0.260, w=0.600	b=0.250, r=0.450, w=0.533	b=0.214, r=0.544, w=0.235
暖かさ(warm)
Estimate value	b=0.162, r=0.385, w=0.045	b=0.223, r=0.404, w=0.461	b=0.250, r=0.551, w=0.817

グラフは縦軸が振幅、横軸がデータ長
b=bright, r=rich, w=warm
Prelude of Suite No. 1 in G major, BWV 1007, J.S. Bachを使用

推論時間

本研究では、Apple M1 MacBook Pro（2020） CPUを使用し、pytorch-lightning 1.7.7で推論時間を計測した。その結果、推論時間は約2.6[ms]であった。この推論時間は、西ら⁹によって示された弁別しやすい音（スネアドラムとピアノ）において認知される遅延時間である30[ms]の1/10程度であり、リアルタイムに十分に使用できる可能性を示す。

まとめ

考察・今後の展望

本研究では、ウェーブテーブル合成における意味的な音色制御を可能にする手法を提案し、特に、ラベルを変化させることで、ウェーブテーブルの音色を操作することができることを示した。ただし、再構成精度やラベルの効き具合や滑らかさ、潜在空間がもつれた表現になっているなどの課題が残っている。

また、提案手法では、音響特徴に基づいて算出した3つのラベルを用いた条件付け生成を行った。しかし、ラベルの種類や数を増やすことで、より細かい音色の制御が可能となると考えられる。今後は、より多様なラベルを用いた音色制御の実現を目指すことが重要である。

データセットとして、モノラルのウェーブテーブル4158件を使用したが、データセットの増加によって、より多様な音色の生成や条件付けが可能となると考えられる。今後は、より多様なウェーブテーブルを含むデータセットの構築が求められる。

また、生成された音色の評価指標として、人間の主観的な評価や音響特徴を用いた客観的な評価が必要であり、今後、検討を進める必要がある。

UI案

スクリーンショット 2023-02-18 17 12 39

潜在空間の操作部分をNistalら¹⁰を参考にデザインした

▶︎おまけ：DAW上での使用イメージ(クリックで開きます)

謝辞

This work was supported by Cybozu Labs youth.

参考文献

Robert Bristow-Johnson, “Wavetable synthesis 101, a fundamental perspective,” in Audio Engineering Society Convention 101. Audio Engineering Society, 1996. ↩
Kingma, Durk P., et al. “Semi-supervised learning with deep generative models.” Advances in neural information processing systems 27, 2014. ↩
“Adventure Kid Research & Technology (AKRT)” https://www.adventurekid.se/akrt/ ↩ ↩²
Kreković, Gordan. “DEEP CONVOLUTIONAL OSCILLATOR: SYNTHESIZING WAVEFORMS FROM TIMBRAL DESCRIPTORS.” Sound and Music Computing, 2022. ↩ ↩² ↩³
Hyrkas Jeremy. “WaVAEtable Synthesis” Computer Music Multidisciplinary Research (CMMR) 2021. ↩ ↩²
岩宮眞一郎：音響サイエンスシリーズ1 音色の感性学，コロナ社，pp.64-67， 2010. ↩
Engel, Jesse, et al. “DDSP: Differentiable digital signal processing.” In International Conference on Learning Representations, The International Conference on Learning Representations, 2020. ↩
Caillon, Antoine, and Philippe Esling. “RAVE: A variational autoencoder for fast and high-quality neural audio synthesis.” arXiv preprint arXiv:2111.05011, 2021. ↩
西堀佑, 多田幸生, and 曽根卓朗. “遅延のある演奏系での遅延の認知に関する実験とその考察.” 情報処理学会研究報告音楽情報科学 (MUS) 2003.127 2003-MUS-053, 2003. ↩
Nistal, Javier, et al. “DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis with Autoencoding Generative Adversarial Networks.” arXiv preprint arXiv:2206.14723, 2022. ↩