Skip to the content.

目次

先に音を確認したい方はこちらから👉examples

概要

スクリーンショット 2023-02-21 9 33 26

本研究では、ウェーブテーブル合成1と呼ばれる音響合成方式において、深層生成モデルを用いて意味的な音色制御を行う手法を提案する。 ウェーブテーブル合成とは、1周期分の波形(以下、ウェーブテーブルと称する)を繰り返し読み出す事で音響合成を行う方式である。

提案手法では、Conditional Variational Autoencoder (CVAE) 2を用いて、ウェーブテーブルの条件付け生成を行う。 条件付けには、音響特徴に基づいて算出した明るさ(bright), 暖かさ(warm), リッチさ(rich)という3つの意味的なラベルを用いる。 また、ウェーブテーブルの特徴を捉えるために、畳み込みとアップサンプリングを用いたCVAEのアーキテクチャを設計する。 これらは、リアルタイム性を高めるために推論時に周波数領域に変換せずに実行可能とする。

実験には、Adventure Kid Research & Technology 3が提供するモノラルのウェーブテーブル4158件をデータセットとして用いる。 実験の結果、提案手法は意味的なラベルを変化させることでウェーブテーブルの音色をリアルタイムに操作できる事を定性的・定量的に示す。 本研究は、データに基づいた意味的なウェーブテーブル制御の実現による音色探索の直感性向上を目的する。

序論

音楽制作やパフォーマンスにおいて、シンセサイザーは重要な役割を果たしている。 しかし、望む音色を生成するためには、知識と経験が必要である。 多くの音響合成方式が存在するが、ここではデジタル音響合成の最小単位である「ウェーブテーブル合成」に注目し、 データに基づいた意味的なウェーブテーブル制御を実現する。 この方法は、1周期分の波形を対象とする事で、ウェーブテーブル合成及び加算/減算合成,AM/FMなどの他合成方式にも適用できるものとする。

方法

Wavetable Synthesis

スクリーンショット 2023-02-13 22 52 23

▶︎参考動画(クリックで開く)

CVAE(Conditional Variational Autoencoder)

関連研究

Kreković4は、オートエンコーダーを用いて知覚に基づいたラベルからウェーブテーブルを生成している。 しかし、同研究においては、ウェーブテーブルのサイズを3つのパラメタに圧縮し、 オートエンコーダーのデコーダー部分のみを用いて生成を行うという手法が用いられており、生成の多様性に制限がある。 また、Hyrkasら5は、ランダムにウェーブテーブルの潜在空間を探索することで音色の操作を試みたが、音色の特徴を表現するパラメタを使用することができず、 操作の自由度や直感性が制限されている。 本研究では、これらの課題を解決し、より直感的かつ多様な音色の生成を実現するために、 CVAEを採用し意味的なラベルでの条件付け生成を行う手法を提案する

提案手法

スクリーンショット 2023-02-17 4 16 47

①. データセット

②. 教師ラベルの算出

静的音色:時間的な変化のない音(定常音)について、周波数スペクトルによって規定される音6

▶︎ラベルの分布と相関の図(クリックで開く) スクリーンショット 2023-02-25 20 08 53

③. モデル構成

▶︎モデル構成詳細(クリックで開く)

④. 損失関数

\[S(x,y) = \frac{||STFT(x) - STFT(y)||_F}{||STFT(x)||_F} + log(||STFT(x) -STFT(y)||_1)\]

実験

実験目的

条件

結果

再構成品質


examples

(折りたたみのタブになっているのでクリックすると展開されます。)

▶︎sine_wave
Condition value 0 0.5 1.0
明るさ(bright)
Estimate value b=0.109, r=0.112, w=0.00 b=0.277, r=0.305, w=0.193 b=0.374, r=0.444, w=0.813
リッチさ(rich)
Estimate value b=0.109, r=0.115, w=0.00 b=0.124, r=0.421, w=0.012 b=0.198, r=0.559, w=0.083
暖かさ(warm)
Estimate value b=0.109, r=0.117, w=0.00 b=0.143, r=0.204, w=0.450 b=0.173, r=0.180, w=0.889
▶︎square_wave
Condition value 0 0.5 1.0
明るさ(bright)
Estimate value b=0.140, r=0.433, w=0.233 b=0.280, r=0.426, w=0.178 b=0.352, r=0.465, w=0.632
リッチさ(rich)
Estimate value b=0.109, r=0.140, w=0.00 b=0.176, r=0.419, w=0.064 b=0.195, r=0.549, w=0.127
暖かさ(warm)
Estimate value b=0.151, r=0.441, w=0.032 b=0.226, r=0.466, w=0.517 b=0.297, r=0.483, w=0.886
▶︎distorted_wave1
Condition value 0 0.5 1.0
明るさ(bright)
Estimate value b=0.123, r=0.413, w=0.306 b=0.323, r=0.451, w=0.620 b=0.390, r=0.481, w=0.905
リッチさ(rich)
Estimate value b=0.200, r=0.260, w=0.600 b=0.250, r=0.450, w=0.533 b=0.214, r=0.544, w=0.235
暖かさ(warm)
Estimate value b=0.162, r=0.385, w=0.045 b=0.223, r=0.404, w=0.461 b=0.250, r=0.551, w=0.817

推論時間

本研究では、Apple M1 MacBook Pro(2020) CPUを使用し、pytorch-lightning 1.7.7で推論時間を計測した。 その結果、推論時間は約2.6[ms]であった。この推論時間は、西ら9によって示された弁別しやすい音(スネアドラムとピアノ)において認知される遅延時間である30[ms]の1/10程度であり、リアルタイムに十分に使用できる可能性を示す。

まとめ

考察・今後の展望

本研究では、ウェーブテーブル合成における意味的な音色制御を可能にする手法を提案し、 特に、ラベルを変化させることで、ウェーブテーブルの音色を操作することができることを示した。 ただし、再構成精度やラベルの効き具合や滑らかさ、潜在空間がもつれた表現になっているなどの課題が残っている。

また、提案手法では、音響特徴に基づいて算出した3つのラベルを用いた条件付け生成を行った。 しかし、ラベルの種類や数を増やすことで、より細かい音色の制御が可能となると考えられる。 今後は、より多様なラベルを用いた音色制御の実現を目指すことが重要である。

データセットとして、モノラルのウェーブテーブル4158件を使用したが、 データセットの増加によって、より多様な音色の生成や条件付けが可能となると考えられる。 今後は、より多様なウェーブテーブルを含むデータセットの構築が求められる。

また、生成された音色の評価指標として、 人間の主観的な評価や音響特徴を用いた客観的な評価が必要であり、 今後、検討を進める必要がある。

UI案

スクリーンショット 2023-02-18 17 12 39

潜在空間の操作部分をNistalら10を参考にデザインした

▶︎おまけ:DAW上での使用イメージ(クリックで開きます) スクリーンショット 2023-02-18 17 10 33

謝辞

This work was supported by Cybozu Labs youth.

参考文献

  1. Robert Bristow-Johnson, “Wavetable synthesis 101, a fundamental perspective,” in Audio Engineering Society Convention 101. Audio Engineering Society, 1996. 

  2. Kingma, Durk P., et al. “Semi-supervised learning with deep generative models.” Advances in neural information processing systems 27, 2014. 

  3. “Adventure Kid Research & Technology (AKRT)” https://www.adventurekid.se/akrt/  2

  4. Kreković, Gordan. “DEEP CONVOLUTIONAL OSCILLATOR: SYNTHESIZING WAVEFORMS FROM TIMBRAL DESCRIPTORS.” Sound and Music Computing, 2022.  2 3

  5. Hyrkas Jeremy. “WaVAEtable Synthesis” Computer Music Multidisciplinary Research (CMMR) 2021.  2

  6. 岩宮眞一郎:音響サイエンスシリーズ1 音色の感性学, コロナ社,pp.64-67, 2010. 

  7. Engel, Jesse, et al. “DDSP: Differentiable digital signal processing.” In International Conference on Learning Representations, The International Conference on Learning Representations, 2020. 

  8. Caillon, Antoine, and Philippe Esling. “RAVE: A variational autoencoder for fast and high-quality neural audio synthesis.” arXiv preprint arXiv:2111.05011, 2021. 

  9. 西堀佑, 多田幸生, and 曽根卓朗. “遅延のある演奏系での遅延の認知に関する実験とその考察.” 情報処理学会研究報告音楽情報科学 (MUS) 2003.127 2003-MUS-053, 2003. 

  10. Nistal, Javier, et al. “DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis with Autoencoding Generative Adversarial Networks.” arXiv preprint arXiv:2206.14723, 2022.