企画記事

AI作曲家、Melonチャートで見ることができるか

アイキャッチ
目次

AI作曲家、映像コンテンツ時代に注目されるビジネス


Here is now on The Jazz Lounge 🎷🎺 l Groovy Playlist l No Lyrics l Royalty Free Music

🎵 Playlist Title : The Invitation🎵 Artist : viodioviodio is POZAlabs AI background music subscription service without worrying about copyright.We provide u...

event.stibee.com

og_img


年末を迎え、今日のレターは歌を聞きながら始めてみましょう。年末感溢れる甘いジャズ音楽です。この曲のYouTubeにアクセスするとアーティストは「viodio(ビオディオ)」となっています。新人作曲家でしょうか?いいえ、スタートアップPOZAlabs(ポザラボ)が作ったAI作曲家です。凄いでしょう?

GPTやDALL・Eなどのチャットボット、絵AIが話題になっている中、AIは音楽にも浸透しています。楽器を演奏するのではなく、完全に曲を書くのです。AI作曲家のパフォーマンスが気になった2号は、POZAlabsにメールで欲しい曲のコンセプトを短く伝え、どれだけ早く作業が完了するかを確認したいと思いました。そして人間が作曲をしているのでは、と思い作業過程を録画して送ってもらいました。SF映画が好きな2号は「SF映画に出てきそうな、壮大なオーケストラ映画のOSTを作ってくれ」と頼んだところ、送ってすぐ約10分で下のような音楽が戻ってきました。作業過程の動画を見ても、ノートパソコン一台で数回のクリックと命令入力がすべてでした。



포자랩스_AI 음원_샘플

event.stibee.com

og_img


AI作曲家はどのように歌を作ったのでしょうか。和声学を学んだのか、人間の色々な作曲パターンを単純に模写しているのか気になりました。そして、こうして作った歌を、お金を出して聞いたり買ったりするのは誰なのかも。POZAlabsの創業家ホ・ウォンギル(29)代表にお会いしました。  


POZAlabsのホ・ウォンギル代表/POZAlabs提供


バンドをしていた工学部生、5年前にAI作曲大会に出て

 -フォークレーンというバンドから始まったとお聞きしました。 

「工学部に通っており、専攻もコンピュータ工学、人工知能でした。工学部でバンド活動もしていました。バンド名は工学部らしく「フォークレーン」でした。キーボードを担当していました。音楽が好きだったんです。幼い頃からピアノを弾き、今も趣味で弾いています。

人工知能で新しい事業を試み続けてきました。最初は新薬、がん診断などのホットで有名な分野で事業を準備していました。しかし、とても難しかったのです。

人工知能自体も難しく、馴染みのない分野であるためです。作る側もそう感じる程なのに、受け入れる側はどうでしょうか。そのため、人々が簡単に触れることができる分野、日常の中の人工知能、というような分野を考えました。そうして2017年ごろ、韓国コンテンツ振興院で音楽人工知能公募展がありました。それに出場しました」


-大会で成果があったようですね。2017年にAI作曲なので、早い時点です。

「実のところ、今のようにAIが完全な作曲をすることができるレベルではありませんでした。曲には核となるメロディやリズムのように全体を決める重要なポイントがありますが、これをソースと言います。ソースだけAIが作って全体的なものを調整して編曲する作業はすべて人がしていました。別に作曲家を交渉していました。当時作詞もAIがやっていました。実のところ、作詞でより良い評価を受けて、優勝をしました。その時自信を得て、何かになりそうだったし、ビジネスに発展させることができるという直感のようなものがありました。そうして、友達2人を誘い、3人になり、2018年創業しました。


-2021年に試作品を出していますが、そうなるとデスバレーが3年?

「はい。売上なしでシード投資、TIPSでほぼ3年を耐えました。長いといえば長かったですが、全部AIの高度化と製品を作るのに時間を費やしましたね。共同創業者2人も結局去りました。私は耐えられたんです。音楽が好きで、AIが作る音楽を見守って、楽しんでいました。2人の友人はもっと大変だったと思います。7~8人のチームで頑張り続けました。耐えられた理由は、私たちが音楽を愛する開発者だったということです。2021年に「それでも聞ける音楽」をAIが作り始め、その時投資を受けました。だからといって今売り上げがものすごく出ているだとか、そういうわけではありません。



-デスバレーがそれほど長くなった理由が?

「音楽とAIを融合する分野の研究があまり進んでいなかったためです。データの定義自体が不足していました。AIを学習させるにはラベリングという過程が必要です。

(例えば、自律走行AIには、カメラを通して入ってくる映像のうちどれが人、車、標識なのかを教え、それを学習させなければなりません。画面の中の人、車、標識を区分してラベルをつけてAIを学習させる作業をラベリングといいます。)

問題はラベリングされたデータがほとんどないだけでなく、ラベリングされたデータがあってもそのデータでAIを教えると、不思議な音楽を作りました。例えば、AIに幸せな音楽と悲しい音楽を同時に学習させると、AIに悲しい音楽を作ってと言っても、幸せな音楽が出てくるとか。

音楽の文脈をAIが知らなかったのです。私たちにとって幸せな音楽、エキサイティングな音楽と言えば、その音楽の定義が必要です。AIを学習させるにはルールが必要ですが、人間にもルールがあいまいなことを学ぶのはAIにも難しいのです。音楽は他の分野より主観的で、芸術に近い領域ですから。音階を数字として認識するAIに教えるのは、まずAIが理解できるように音楽のルールを整理しなければなりません。その作業も時間がかかりました。

何よりもディープラーニングの複雑なニューラルネットワークから出てくる結果物について、人間にはなぜこのような結果が出たのか解釈できないのです。GPT3でも私の予想外の答えが出てきますから。AIはブラックボックスのような存在なのです。ブラックボックスのような存在を制御できるようにするのに時間がかかりました。


-音楽にも和声学というルールがあります。このルールをAIが受け入れるのは難しいのでしょうか?

「作曲をするAIはほぼ新生児レベルでした。GoogleのAlphaGo(アルファゴ)は、少なくともAIに囲碁で勝つ方法、囲碁のルールを教えて棋譜を学習させました。AIにはそれすらなかった状態でした。音符のドを数字1、レを数字2 このように定義したとき、私たちが感じる幸せな音楽がどんな数字の組み合わせなのか、悲しい音楽がどんな数字の組み合わせなのかから定義していきました。現在では、韓国にも、海外にもありますが、AI作曲プログラムを作ったスタートアップたちは、すべて同様の状況でAIを最初から教えたわけです。教える学習法にも少しずつ違いがあります。和声学をアルゴリズムにして厳格なルールで教えるやり方もありますし、POZAlabsは自然言語処理方式でAIを学習させています。音楽は音階で表現する言語体系というアプローチで教えました」


-音楽も言語だ?

「一つのシンボル体系ですから。私たちが話す言語には流れがあります。 「あの、こんにちは。私は〇〇です。」前後の文脈、前の文を聞くと、後ろにどんな文が来るのか予想できるでしょう。音楽も前の節にどんな音階とリズムが続いたかによって後ろにも反映されます。完璧に自然言語モデルと同じではなく、音楽に合わせて若干の変更をして、それを元にAIは訓練して学習します。

 

去る16日済州(チェジュ)島にワークショップに行ったPOZAlabsの団体写真。売上0ウォン36ヶ月を耐えたPOZAlabsのチームメンバーはこれ程に増えた。団体写真を求めたところ、PR担当者イ・ジュンファンは「これまで一度も団体写真を撮れなかった」とし「今回ちょい事情通の記者を言い訳に撮らないと」と写真を送ってきた。 /POZAlabs提供


自然言語処理方式と同様に音楽学習、「音楽も言語」

-AIを学習させるデータ、このデータの出所が論争になっています。一般の既成曲を持って来れば明らかに著作権論争が起こると思いますが。

「社内に作曲家がおり、外部作曲家にも頼んで70万個に達するサンプル(曲の骨格)を直接作ってAIに入れました。著作権問題もありますし、好みに合ったデータを作るのにもその方が良かったのです。AIに実際に存在する既成曲を教えれば、出てくるデータもすでに出ている曲とかなり似るでしょう。そうすると盗作論争がおき、また自由に出来なくなります。できるだけ問題を避けながら、AIだけの曲を作るようにするために直接創作した曲を学習させました。」


-作曲は作曲家の自由で?それでは、AIには様々な作曲家の個性が混ざっているのでしょうか?

「具体的に注文しました。ロマンチックなワルツというジャンルがあれば、メロディはこの数オクターブを基準に構成し、楽器はこんな楽器が使われなければならず、曲の速度はこう、など該当ジャンルの最も代表的な特徴とルールを定義した後に作曲家たちに依頼をします。そのルールの中で作曲してもらいます。」


-チェス、囲碁、スタークラフト、人工知能翻訳もある程度の客観的な基準がありますよね?実力や品質や勝敗など。ところが音楽は芸術の領域に近づくにつれ、音楽性や芸術的個性のスペクトラムがとても広いですよね。

「はい。そのためPOZAlabsが焦点を当てているのは大衆性です。たとえば、100人のリスナーがいれば、90人が満足する、ほとんどのユーザーが好きな音楽を作ります。少数の好みをターゲットにはしません。一般的に有名な曲を見ると、誰が聞いても好むような感じの曲ですよね。無難で、普遍的な曲。大ヒットするような歌をAIが作る必要はないと思っています。


-本質的な質問として、なぜAIが音楽を作るのですか?

「音楽が必要なコンテンツ市場のペインポイントによるものです。メインビジネスの1つとしてBGMを納品しています。B2Bで注文単位が数百曲に達することもあります。なぜそうなるのかというと、人間の作曲家が多くのBGM用音楽を作曲するには時間がかかりすぎるのです。例えばフリーランサーの作曲家に曲を依頼する際、10~20曲を1人の人が作曲することはできません。そうなると、また10~20人の作曲家に交渉し、多くの人々とコミュニケーションをする作業が企業としてはすべてコストとなるのです。直接的な話としては、曲の価格もAIが作曲した曲の方が安いです」  



映像コンテンツ、OTT企業がAI作曲家に関心を示す理由  

- 企業はそんなに新しい曲をたくさん必要としているのですか?既成曲をBGMとして使えばいいのに。

「それは有名なドラマや映画などに限定される話です。私たちは非常に多くのコンテンツに音楽を使っています。YouTubeクリエイターの場合も映像に音楽を主に使うのですが、既成曲を使うと著作権料の負担がかなり大きくなります。詳しく観察していると、YouTubeクリエイターがBGM音楽として既成曲は絶対に使用せず、もし映像撮影中に流れてしまっても、「著作権問題で編集します」と言って音楽だけを除去するケースを見かけることも多いと思います。音楽著作権はとても複雑で、流通会社ごとに権利関係が異なり、特に地上波テレビや放送チャンネルに音楽が流れる際に多くの費用を課しています。もちろん既成曲を映像コンテンツに使う費用は、放送社としても負担になりはするでしょう。

ところが、1人でやってる映像クリエイターには別の話です。思ったより高額であり、音源流通社の立場としても音源価格をYouTubeでは安くしテレビには高くするというわけにもいきません。YouTubeのアルゴリズムはかなり詳細に映像に使われた既成曲を見つけ出してメールを送ります。あなたの動画収入から音源流通会社に著作権料を支払わなければなりません、というものです。金額は曲ごとに異なりますが、配信にマイケルジャクソンの曲を使ったら?少し使っても本当に大金を支払わなければなりません。

消費する映像コンテンツはとても増えており、多様になりましたが、そこに入る音楽は制限的でとても高価だということです。これをAIが代わります。映像コンテンツの他にも使い道があります。例えば瞑想アプリのようなケースでも音楽が入ります。このようなアプリに既製のクラシックを使用することも、かなり負担になります。曲も数百曲必要です。そのためAIが映像のテーマ、雰囲気、コンテキストに合わせて様々な数十~数百曲を作って納品し、映像制作会社がその時その時使う仕組みです。


- プラットフォームごとに著作権料が違うという話も聞きました。

「地上波テレビで放送し、OTTに上がったコンテンツを注意深く観察すると、放送時とBGM音楽が変わっているのを見つけることができます。あるポップソングを韓国で使用した時と海外で使用した時で著作権を支給する流通会社が異なる場合があります。金額が異なる場合もあります。1曲のために、この問題をすべて解決しなければならなくなるのです。特にKコンテンツが海外に行くことが多くなるほど、このような音源著作権料の問題は大きくなるでしょう。映像制作者の立場では音楽はメインというよりは映像を際立たせるための甘味料の役割ですが、音楽のために輸出ができなかったり費用が高くなりすぎるという主客転倒してしまうこともあります。最初から曲自体を購入したり、AI作曲の曲を買うと、このような問題をかなり避けることができます。再製作と言われるこの市場はまだ実際にコラボレーションしている企業はありませんが、企業の問い合わせが着実に入ってきている市場です。AI作曲家が最も必要な市場でもあります」

(インタビューが行われて約1週間後、CJ E&Mは戦略的投資家としてPOZAlabsに投資しました。投資額は非公開です。)


- それにしても全国民がYouTubeチャンネルをしている訳でもありませんし、ある程度多様なAI作曲の歌が作られれば需要はバラバラに分かれそうです。

「写真機の発明を考えてみてください。カメラの発明で映像が生まれ、映画、映画産業、俳優、テレビ、そしてInstagramやみんながYouTubeで映像を撮る時代がやってきました。カメラの発明から始まったコンテンツの世界です。以前は写真、映画は非常に高価な趣味で芸術でしたが、今は誰にでもカメラがありますよね。私は音楽もそうなると思っています。誰でもAIの助けを借りて作曲ができる時代。音楽が普及し、曲を所有できる時代です。難しかった「作曲」が容易になるのです。子供の頃ピアノ教室に通っていた人は多いですが、作曲はとても難しいことです。1人の作曲家が1曲を作曲するのに平均34日かかるといいます。私は趣味で作曲をしようと和声学の基礎から学んで作曲をしていますが、一般的な趣味としての作曲は進入障壁が本当に高いです。

「写真機が出てもまだ絵が描かれるように、人間の音楽創造は続くだろう」 



-「viodio」というAI音楽サブスクリプションサービスがあるとお聞きしました。個人ユーザーがAI作曲家を使うことはまだできないのでしょうか?

「AI作曲家を利用するサービスではなく、AIが作ったBGM音楽をサブスクリプション方式で使用できるサービスです。個人クリエイターの場合は月1万~4万ウォン(約1000円~4000円)程度の価格で安くBGM音楽を使用でき、企業の場合は別途契約します。

作曲機能自体をオープンしたいのですが、最適化やハードウェア性能などの限界で1曲の作曲にかなり時間がかかります。私たちの用語で「レンダリング」と言います。曲は1曲ですが、楽器は20個使われる場合もあり、最終的に聴くMP3ファイルではなく、曲ソース自体はまた容量が大きいのです。それで、作曲自体よりもこれを後処理する作業が時間とリソースをかなりとってしまうので、この問題を解決すれば、一般の個人ユーザーも数回のクリックで作曲が可能なAI作曲家機能をオープンするでしょう。


-曲一曲の価格、そして月に何曲のAI曲を作るのでしょうか。

「価格を公開的に明らかにするのは難しいですが、人間の作曲家の1曲あたりの作業コストの半分、そして月に300曲ほどを生産しています。今は依頼がかなり多く入ってきて、注文が入っても顧客は待機期間が少しある状態です」


-ブラインドテストはされていますか?完成度についてどう考えられているのでしょうか。

「ある程度プロ作曲家のレベルまで来ました。私たちがAI作曲の歌をAIが作曲したという事を書かずにYouTubeにアップロードしてみました。そうすると好評でいっぱいでした。人が作曲した曲だと思われていました。」


-作曲家は最終的に、将来AIに席を奪われる?

「いえ。実際、AIは作曲家をサポートツールであり、市場をマッチングするサポーターの役割です。今作曲市場では需要者と供給者が出会えずにいます。1000万ウォン(約105万円)を超える大型ヒット曲を除いた一般的なBGM音楽を作曲する作曲家たちは新人がほとんどで、月に多くても5~6曲しか作れません。このように曲を作っても月の損益分岐点に届きません。依頼する側も継続的に修正を要請しなければならず、音楽という特性上完全に気に入らない曲でも購入せざるを得ません。生産性のためにミスマッチングが行われているのです。

AIが作曲家をサポートすれば生産性が大きく上げられます。AIが作曲をしても、結局人が最終仕上げをしたり、手を加えてこそクオリティが上がります。作曲は創造的な作業でもありますが、よく言われるようにかなりの土方作業でもあります。複数のツールがあるビデオ編集、ウェブトゥーン制作に繰り返し時間をかける作業があるように作曲も同様です。これをAIが省略します。そして依頼者が「こんな楽器が使われてほしい」と言えば、AIが手助けしても、結局人が編曲と最終仕上げをするしかありません。考えてみるとPhotoshopなど、イラストツールがたくさん出てきましたが、結局絵も、漫画も人が最終的には描いていますよね。同じ事だと思います」


- それでも作曲家の数自体は減るのではないでしょうか。MelonチャートにもAI作曲家が?

「いえ。私はむしろエリートだけを中心に音楽を作っていた文化が大衆に広がると思います。カメラ、映像文化が発展しても美術は依然として存在し、人間の創造性の領域として残っています。人間の作曲家は今、AIが作れない新しいジャンル、創造的な音楽に集中するようになるでしょう。K-POPのようなヒット曲、洗練された曲は依然として人間の領域となるでしょう」

 

-工学部卒業後すぐに創業しました。

「はい。だから、よかったですね。売上0ウォン3年を耐えるのに。お金が使うところがなかったんです。1人暮らしをするわけでもなく、実家から出退勤する公共交通費以外には特に使うことがありませんでした」


- オフィスの中で歌が絶えず流れています。

「一から作曲の授業をしています。POZAlabsでは、音楽を知らないと開発者として働くのは辛いと思います。社内に作曲家が12人おり、この方々が開発者たちに作曲クラスを開いてくれています。基礎クラスから始まったのですが、深化クラスまで行ったら、趣味で作曲の副業をする方もいらっしゃいます。実際に共に働いているエンジニアのほとんどが音楽が大好きな方です」


-AI作曲家のアルバム、そうしたものは想像していないのでしょうか。

「すでにあります。コラボレーションプロジェクトとして進行し、YouTubeにも曲がありアルバムも発売されました。反応はなかなか悪くありませんでした。まだ秘密です」


会議中のPOZAlabsチームメンバー。実際に訪れたPOZAlabsオフィスには、あちこちにキーボードや楽器が隠されており、スタートアップと音楽工場の間というような雰囲気だ。 /POZAlabs提供

/media/ちょい事情通の記者(쫌아는기자들)
記事を書いた人
ちょい事情通の記者(쫌아는기자들)

朝鮮日報のニュースレター、「ちょい事情通の記者(쫌아는기자들)」です。