Podle akademiotoelektronik, 22/03/2022

Des «artistes augmentés» par l'IA: comment Sony CSL et Whim Therapy créent la musique du futur

La musique, sa création comme son industrie, n'ont rien de longs fleuves tranquilles. Laissées exsangues par la révolution du MP3 et des formats numériques, essayant de se rebâtir notamment autour du streaming dans lequel elles ont placé quelques billes, les majors du disque échaudées craignent un avenir froid –et tentent désormais de reprendre un coup d'avance sur la technologie, pour façonner un futur dont elles n'auront cette fois pas perdu le contrôle.

Chez Sony, c'est au sein de Sony CSL –pour «Computer Science Laboratories»– que ces nouveaux horizons se cherchent et s'inventent. «Sony CSL a été créé en 1988 à Tokyo par l'inventeur du CD, qui constatait que les avancées technologiques accéléraient et qu'elles avaient de plus en plus d'impacts sur le monde», explique Michael Turbot, Technology promotion manager de la branche parisienne de la structure.

«Il souhaitait monter une structure indépendante du cœur du business de Sony, qui allait se concentrer sur la compréhension de toutes les nouvelles technologies, quels que soient les domaines d'activité, et s'assurer que Sony allait les employer de manière positive pour le monde et la planète», poursuit-il.

«Tous mes collègues chez Sony CSL sont des docteurs, chercheurs et ingénieurs, donc une grande partie de mon travail est de reussir à comprendre puis traduire des discussions ou réflexions scientifiques dans un language adapté pour l'industrie musicale, et reussir à les faire entrer dans des réflexions ou stratégies artistiques chez Sony Music ou Sony Music Publishing.»

«À Paris, il y a quatre domaines d'activités, principalement basés sur l'intelligence artificielle: le langage, la créativité, le développement durable et une grosse équipe dédiée à la recherche sur l'IA et à la compréhension de son apport dans le processus créatif des artistes et producteurs de demain.»

Cela veut-il dire que les tubes qui tournent aujourd'hui dans vos tympans sont déjà écrits par des robots? Pas tout à fait –et ce ne sera sans doute jamais le cas.

À lire aussiJean-Michel Jarre, musique et IA: «Des algorithmes vont pouvoir déterminer quelle chanson vous touche»

Mais les choses avancent à leur rythme, et l'impact de ces recherches commence à se faire comprendre. «Nous rentrons dans une phase où tous nos prototypes sont suffisamment maniables et commencent à être utilisés concrètement par des artistes. Tout cela prend énormément de temps et nous n'avions pas envie de communiquer tant que nous n'étions pas sûrs que ce que nous faisions apportait une vraie valeur ajoutée en studio pour les artistes.»

C'est désormais le cas. «Le producteur Twenty9 a sorti en décembre dernier le premier drumkit dans lequel tous les sons ont été générés par nos IA, avant qu'il ne retravaille dessus. Beaucoup de morceaux sortis récemment contiennent donc peut-être des sons issus de notre labo, sans qu'on ne le sache», déclare Michael Turbot.

«Nous collaborons en permanence avec des artistes afin qu'ils testent nos prototypes et que l'on puisse s'assurer qu'ils leur sont utiles. C'est ce qui est fait en ce moment avec Jean-Michel Jarre, Niro, Uele Lamore, Twenty9 et d'autres.»

Des «artistes augmentés» par l'IA: comment Sony CSL et Whim Therapy créent la musique du futur

Parmi ces autres, il y a notamment Whim Therapy. Sony CSL, qui dans son travail de défrichage technologique est joint par des structures comme Google Magenta, Open AI, Spotify ou l'Ircam, présente ces jours-ci l'un des morceaux du Parisien au 2021 AI Song Contest, sorte d'Eurovision de la musique assistée par l'intelligence artificielle.

Whim Therapy a répondu à quelques-unes de nos questions sur la genèse de ce «Let it go», pour lequel vous pouvez voter à cette adresse, et sur la manière dont machines et algorithmes se sont mêlés à son âme pour accoucher du morceau.

korii.: Quelle a été ta première approche des intelligences artificielles? Quelle était ta vision de la chose, avant de pouvoir l'explorer concrètement toi-même?

Whim Therapy: Tout a commencé par un scroll Instagram nocturne. Je suis tombé sur la page de Sony CSL, qui expliquait développer des outils d'IA destinés aux artistes.

Intrigué, je suis entré en contact avec eux grâce à Jean-Christophe Bourgeois, mon éditeur chez Sony Music Publishing en France, et ils m'ont invité dans leur labo pour que je puisse découvrir leur technologie, avant de me la prêter pour que je puisse l'expérimenter. J'avais l'impression de mettre un pied dans le futur, d'avoir accès à quelque chose qui sera partout dans vingt ans, c'était assez excitant.

Que peux-tu me dire des outils créés par Sony CSL? Comment un compositeur peut-il les aborder, de quelle manière peut-il les utiliser?

CSL a tendance à appeler les artistes qui utilisent leur technologie des «artistes augmentés». Ça m'a fait rire au début, mais je crois finalement qu'ils ont raison. Plus j'utilise les outils et plus je me rends compte de leur apport, notamment dans l'aptitude à débloquer le compositeur, grâce aux propositions de l'IA.

Ça nécessite d'adapter un peu le processus créatif. Au lieu de décider de tout tout seul, je laisse l'IA faire des propositions et j'essaye de comprendre ce qu'elle tente de suggérer.

On pourrait l'imaginer comme un pote dans la pièce, qui a du mal à articuler ses idées mais qui possède un esprit particulièrement créatif. Les outils de génération de sons sont également super intéressants pour chercher des couleurs uniques.

À quoi ressemble la musique du futur? Un peu à ça –les interfaces de DrumNet et NOTONO, deux des outils proposés par Sony CSL. | Sony

Plus spécifiquement, que peux-tu me dire sur Impact Drums, DrumGan, BassNet, DrumNet, Poiesis, Resonance EQ et NOTONO, les outils de Sony CSL que tu as utilisés?

Impact Drums et DrumGan sont assez similaires, tous deux sont des générateurs de sons de batteries, avec des possibilités infinies: c'est royal pour disposer instantanément de sonorités uniques.

BassNet et DrumNet sont des générateurs de patterns et de mélodies, l'un créant des lignes de basse et l'autre des parties de batterie. Il y a quelques boutons à tourner pour changer la façon dont l'IA va approcher la musique, comme par exemple la complexité de la partie générée ou les durées de notes.

Je les trouve intéressants, notamment parce qu'ils vont apporter des idées très différentes de celles que je peux avoir, nourries par mes automatismes. Cela permet d'amener les morceaux dans de nouvelles directions ou de leur offrir de nouvelles couleurs.

À lire aussiKim Giani, ou le guide de survie du musicien en période de pandémie

Poiesis est un assistant pour auteur: il lit et comprend le texte qu'on lui fournit, et vient proposer d'autres possibilités sur les parties du texte où je bloque. C'est un gain de temps énorme d'avoir des idées out of the box, générées en un clic. Même si franchement, Poiesis aime beaucoup faire revenir les thèmes de l'argent, la drogue ou le sexe, c'est un super partenaire d'écriture.

Resonance EQ est un atténuateur de fréquences résonantes, que je trouve particulièrement intéressant utilisé à l'envers: ça amène beaucoup de grain et d'imperfections dans le son, donc du caractère.

Quant à NOTONO, c'est un générateur de sons via spectrogramme. On mélange des timbres d'instruments différents sur chaque zone du spectre harmonique, et on décide de la durée des notes pour générer des sons uniques. Je m'en sers pour créer des samples, qui sont ensuite transformés en instruments et qui amènent une texture particulière dans les morceaux.

Comment s'articule le travail de l'humain et celui de la machine dans le cas de l'écriture d'un morceau comme «Let it go»? Tu parles d'un fonctionnement similaire à celui d'un groupe...

Sur «Let it go», je suis parti d'une grille d'accords et d'une intention, histoire de laisser le maximum de place possible à l'IA. Il y a eu une première session de studio, où on a travaillé avec mes gars sur un début de texte, de topliner, d'arrangements, et l'où on a enregistré plein d'instruments pour donner à manger à l'IA.

J'ai ensuite utilisé DrumGan, Impact Drums et NOTONO pour créer les sons de batterie, de basse et de synthétiseurs que l'on entend dans le morceau. Puis je me suis servi de DrumNet et BassNet pour proposer des choses.

Après, j'ai utilisé les sons créés précédemment pour jouer les patterns générés, et c'est là que le morceau a pris une tournure inattendue, notamment dans sa deuxième partie. Le côté groupe est arrivé, grâce à un apport de propositions que je n'aurais probablement pas pu avoir seul –les influences de l'IA sont très différentes des miennes.

Une fois la partie instrumentale bouclée, j'ai fini le texte avant de le retravailler avec Poiesis. Pour être honnête, certaines des phrases les plus cool du morceau viennent de lui.

Que penses-tu que l'IA puisse apporter, à terme, au monde de la musique et de l'art en général? Est-ce que l'IA peut être limitative ou, au contraire, peut-elle ouvrir la voie à de toutes nouvelles choses, et en quoi?

J'ai l'impression que l'IA permettra d'ajouter des cordes à l'arc d'un artiste, d'où cette notion «d'artistes augmentés». Son aptitude à proposer des choses quel que soit le track sur lequel on est en train de travailler est un apport important. Pour l'instant, elle nécessite que l'artiste adapte son workflow à elle, se limitant au passage, mais la balance arrivera probablement à s'inverser avec les années.

J'ai une vraie curiosité quant aux artistes du futur, qui vont pouvoir démarrer avec cette technologie déjà à disposition. N'ayant plus besoin d'être aussi performants dans les choses que l'IA pourra créer avec eux, ils pourront se concentrer sur ce qui, à mon goût, fait le plus évoluer l'art: les idées.

Que dire aux gens qui pourraient avoir peur d'une certaine «déshumanisation» de la création, ou d'une création visant trop directement le succès par l'analyse de la data?

Pas de stress, on est bien loin d'avoir le bouton magique qui crée un tube. L'IA ne propose des idées qu'en fonction de ce avec quoi on la nourrit, donc sans artistes, il n'y aura rien. Et l'IA n'est pas dotée de la capacité à différencier une bonne idée d'une mauvaise.

Elle a beau pouvoir proposer des évolutions intéressantes à une chanson, ce sont les compositeurs et auteurs qui ont toujours le dernier mot. Il n'y a pas de recette à une bonne chanson. Il n'y en avait pas avant l'IA, et c'est toujours le cas. Je pense que le mieux, c'est de l'aborder comme une évolution des outils à disposition pour créer.

Tagy: