Définitions de la hauteur, de la vitesse et du tempo.

Message

Kak Miortvi Pengvin

Bonjour.

Suite à un topic récent, je me suis rendu compte que j'avais fini par oublier la définition mathématique de ce que sont la hauteur, la vitesse et le tempo d'un son. J'ai passé pas mal de temps dans la recherche du forum pour remonter quatre messages au sujet du pitch:
- une ancienne explication de Mitch,
- ainsi qu'une seconde,
- des possibilités de modification proposées par Kradukman
- et un tutoriel Audacity par Dychollin.
Cependant, malgré avoir ces 4 messages et les 18 pages de résultats que j'ai fouillées, je ne suis toujours pas complètement certain de comprendre les explications à ce sujet. Et comme je suppose que je ne suis pas le seul à m'emmêler parfois les pinceaux, je viens vous poser ma question.

Ainsi donc, quelles sont les définitions mathématiques de la hauteur, de la vitesse et du tempo d'un son ou tout simplement d'une onde sonore? Mathématiquement, comment agissent les modifications correspondantes à chacune des ces variables?
Bon, vous pouvez aussi répondre quelque chose de plus intuitif qu'une définition mathématique mais pour ma part, je vous avouerais que je comprendrais mieux avec ça. Mais comme je ne suis pas tout le monde non plus...

En vous remerciant d'avance,
KMP.

#2 Message par **Kradukman** » lun. 05 avr. 2010, 16:56

Dans l'ordre (si tu te sens apte à comprendre en english) :
-Pitch : Pitch
-Pitch shifter (alias changement de hauteur) : Pitch shifter
-Time stretching (changement de vitesse/tempo) : Time stretching

Mais plus intéressant: https://ccrma.stanford.edu/~pdelac/rese ... h_best.pdf .

Kak Miortvi Pengvin

Je te remercie pour ces liens mais ça manque un poil de maths à mon goût pour les définitions. Je relirai ça dans quelques temps histoires de digérer le tout.

#4 Message par **MimiRyudo** » lun. 05 avr. 2010, 17:45

Un peu plus de maths là-dessus (page 74/85 par exemple pour la vitesse) : http://www.sciences.ch/dwnldbl/physique ... ations.pdf

J'espère que tu trouveras ton bonheur "équatique", M. Pingouin.

#5 Message par **Alinor** » lun. 05 avr. 2010, 18:08

[attention la partie qui va suivre résulte entierement de l'hypothèse fumeuse du néophyte que je suis]

si on s'interresse seulement au principe, il est préférable de s'interresser à la sinusoïde dans sa forme la plus simple du type :

u=cos(t)

avec "u" le potentiel, et "t" le temps

pour la vitesse je pense que le principe est "d'aplatire l'onde" donc la période qui est dans notre cas de 2pis va être réduite ou agrandite suivant le coeff de vitesse.

on aura donc une formule du genre :

u=cos(d*t)

avec "d" le coeff de vitesse (<1 dans le cas d'une vitesse négative et >1 dans le cas d'une vitesse positive)

la nouvelle période "x" sera :
2pis = d*x
2pis/d=x

[fin des spéculations]

Kak Miortvi Pengvin

Mouais, trop hasardeux pour accorder de la valeur à tes spéculations. Désolé.

@MimiRyudo: Très chouette poly. Je doute un peu que les pages 74 à 85 correspondent à la définition de la vitesse que je recherche mais cela reste surtout un doute. Sinon, au paragraphe 4.14, l'application de l'analyse de Fourier amène à la définition de la hauteur (4.14.1, page 42) : il s'agit de la fréquence fondamentale dans le cas d'une note émise par une corde vibrante. Me reste donc à comprendre ce que le changement de hauteur implique.

#7 Message par **Kradukman** » lun. 05 avr. 2010, 21:05

Bon, je ne sais pas si je spécule mais pour moi:
-Changement de hauteur:
Soit un son à 440Hz. Après le changement, il passe à 550Hz (par exemple) et le temps ne change pas. Ça, c'est valable pour une bête sinusoïde.
Pour une voix, c'est plus compliqué vu que c'est un mélange de fréquences. Donc ici, je spécule à fond.
On fait une transformée de fourrier inverse => on approxime la fonction onde du nain par une somme de sinus et cosinus. on obtient donc les différentes fréquences composant le son. Ensuite, on applique un changement de hauteur aux différentes fréquences. Ce qui est un peu compliqué car il ne me semble pas que ce soit linéaire.

-Time stretch (tempo) :
on a un son sur 8 secondes. Après stretch, il est sur 6 secondes (par exemple). Donc, ce qu'on a du faire, c'est un fourrier inverse et puis raccourcir les périodes de chaques fréquences.

Le truc bizarre, c'est comment on fait pour ne pas raccourcir dans le cas d'un pitch shifting?

Pour retenir: stretch = étirer (et par extension "compresser").

#8 Message par **Kradukman** » mer. 07 avr. 2010, 22:24

Bon, les cocos, c'est autrement plus compliqué comme histoire. Kak voulait des maths, il va y en avoir.
Avant tout: l'analogie qu'on fait avec la vidéo et la fréquence d'échantillonnage est fausse. Si les studios échantillonnent à du 96kHz, c'est pour une autre raison que celle que l'on pense.
Entrons d'emblée dans l'histoire...
Une petite précision avant d'entrer dans le sujet: je me doute qu'à part Kak, très peu comprendront et je ne me vexerai pas

. (et ceci n'est pas à considérer comme un double post)

Je ferai un tuto plus précis avec les bases mathématiques nécessaires un autre jour (c'est un peu le seul truc qui me motive à suivre les cours d'analyse et d'algèbre).
Ceci est le fruit de deux heures de discussion avec L'Ingénieur (alias Le Doc Yves, alias mon papa).
Tout ce qui suit est très très vulgarisé car je n'ai pas encore les maths pour les expliquer entièrement.

Commençons par l'échantillonage.
D'abord, il ne faut pas confondre fréquence d'un son et fréquence d'échantillonnage.
Un son est une vibration de l'air. Si on a une vibration sinusoïdale, on peut associer une fréquence à un son = l'inverse de la période. (j'en vois beaucoup qui ont déjà décraché XD).
La fréquence d'échantillonnage, c'est le nombre d'échantillons qu'on prend sur une seconde. Là, on peut faire une analogie avec la vidéo.
Prenez deux photos à intervalle régulier sur une seconde. Vous avez deux échantillons par seconde => 2Hz. (comme fréquence d'échantillonnage, hein!!).

On fait un arrêt par l'interpolation. Kézako? Aucun rapport avec interpol. Une interpolation, c'est une manière de relier deux points.
Une interpolation du premier degré, c'est une bête droite qui relie les deux points (comme fait ce couillon d'excell).
Une interpolation plus intelligente consiste à prendre une sinusoïde, la multiplier par l’amplitude du point échantilloné et la placer entre les deux points. (là, tout le monde est largué, sauf Kak, Celebo, Blast et Aspic (j’en oublie, hein !

))

Le théorème de Shanon-Nyquist sur la théorie de l'information dit qu'il faut deux fois plus d'échantillons que ce qu'on veut échantillonner.
Exemple : on veut entendre un son à 10kHz, donc on échantillonne à 20kHz et un chouilla.
OK, là, vous comprenez pourquoi ça ne sert à rien d’échantillonner à 48kHz. Ça voudrait dire qu’on entend jusqu’à 24Hz. Ce qui est faux ou extrêmement rare. Et à 18 ans, on n’entend plus au delà de 20kHz, donc on s’en fout.
Si on le fait en vidéo, c’est pour une raison de synchronisation : 24 images/s. Ooooh !! Trop fou XD.

Et le rapport avec le pitch et le stretch ? J’y viens coco, j’y viens.
Prenons un exemple simple :
Une sinusoïde de fréquence 5 Hz. Si j’échantillonne à 5Hz, ben je prendrai toujours les points au même endroit. Donc toutes les interpolations ne me serviront à rien. Une infinité de sinusoïdes peuvent passer par ces points. Et pour faire une bonne interpolation, il faut au moins 3 points.

Ok, normalement, on a la base pour catcher le stretch là. Quand on échantillonne, on regarde la tension à un instant t, puis le suivant à un instant delta t (que je noterai dt parce que j’ai pas delta… Ne pas confondre avec un accroissement infinitésimal).
Donc on a un point en t, tension = constante entre t et dt.

Et hop, pour un stretch, on allonge ou augmente dt. Trop fou, les maths !!

Ce qui explique la modification de la durée.

Pour le pitch, c’est une autre paire de manches.

Commençons dans l’ordre : la transformée de fourrier.
La transformée de fourrier, c’est un truc génial qui sert à approximer une fonction par une somme de fonctions type sinusoïde/cosinusoïde (ça y est, j’ai tué les plus réticents).

Quel est l’intérêt ? Et bien, plutôt que de jouer avec une fonction dégueulasse, on joue avec une somme de fonctions faciles dont on peut calculer les coefficients. (mais ça, c’est une autre histoire).
Revenons au schmilblik.
Une transformée de fourrier qui va de moins l’infini à + l’infini pour une fonction non périodique s’appelle une intégrale de fourrier. Ça, on s’en fout, c’est juste pour la culture.

Ce qui est stylé, c’est qu’on peut représenter une transformée de fourrier sur un histogramme allant de 0Hz à la fréquence de Nyquist (moitié de la fréquence d’échantillonnage).

Donc, pour un son composé d’une sinusoïde à 5Hz et une autre à 25Hz, on a un truc comme ça :

Pour un changement de hauteur, on va simplement translater les petits rectangles d’intensité soit vers la droite (changement vers le haut), soit vers la gauche (vers le bas). Puis, on fait une transformée de fourrier inverse (qui consiste à sommer les différentes sinusoïdes pour en obtenir qu’une seule).
Par chance, la transformée inverse conserve le même nombre de points d’échantillonnage => la durée reste la même.

Un problème survient si on veut amener un son au-delà de la fréquence de Nyquist (je crois que la fréquence disparaît, mais je ne suis pas sûr).

Un autre truc, concernant l’interpolation et l’échantillonnage. Si j’échantillonne un son de 12kHz à 10kHz, il sera perçu comme un son à 2kHz. (cherchez modulation d’amplitude, vous comprendrez… Quoique, lisez le truc sur la modulation d’amplitude de mon rapport de projet, histoire que ça serve à quelque chose).

Voilà. Vous savez tout (sauf pourquoi l’analogie à la vidéo est fausse, mais là, j’ai pas compris toute l’explication de l’ingénieur :s).

Modulation: http://kradukmanprod.redline-prod.com/p ... apport.pdf

Sources pour la transformée de fourrier (images) :
http://www.files.chem.vt.edu/chem-ed/data/graphics/

#9 Message par **Alinor** » mer. 07 avr. 2010, 22:36

Waaa ! effectivement c'est du lourd, je relirais ça à tête reposé demain.

Ps : Ha ! effectivement il ne faut pas confondre dt et la différence t1 moins t2 dont tu parles, moi j'appel ça le "pas" (pour correlé habilement avec la méthode de je-sais-plus-quel-glandu pour tracer une fonction à partir de sa dérivée

)

Commentaire suivra.

Au fait pendant que tu y es Krak, tu pourrais demander à ton père si ma spéculation était vrai ou pas ...

EDIT : à propos de l'échantillonnage, mettont que j'echantillonne à 48 000 HZ, cela voudra dire que le "pas" sera de 1/48 000 sec ?

Bon ok, je vais me coucher !

#10 Message par **Kradukman** » mer. 07 avr. 2010, 22:59

Yep. Vu que tu prends 48000 échantillons en 1 seconde et que tu prends ça de manière constante.

Kak Miortvi Pengvin

Bon, j'ai lu tout ça deux ou trois fois pour être sûr de voir où tu voulais en venir. Y a pas mal d'imprécisions mathématiques mais on va dire que ça va si on a un peu de bagage qui va bien. Avec tes explications du channel, je commence à y voir un peu plus clair sur les définitions. Mais j'ai toujours un peu de mal sur les effets impliquer par le changement de ces variables. Je reviendrai bientôt en essayant de rédiger ce que j'ai compris et ce que je rate.

#12 Message par **Schnouk** » mer. 07 avr. 2010, 23:58

Si ça peut clarifier les choses :
il n'y a que la vitesse (et sa variation donc) qui ait une définition mathématique précise.

Tempo et hauteur sont gérés par un trilliard d'algorithmes, changeant selon le logiciel ou le plug-in. Alors après il y en a probablement des plutôt simples, jouant avec les "marches d'escalier" de la fréquence d'échantillonnage (ouais je cause intuitif moi)...
Mais il est peu pertinent d'aborder ces notions comme un traitement mathématique appliqué aux fonctions d'ondes sonores, puisque, dans la pratique, une fois qu'on a changé tempo et hauteur, on ne peut pas faire un changement dans l'autre sens et espérer retrouver le résultat de départ. Je pense donc qu'il ne faut pas chercher les "outils mathématiques" régissant ces changements, ce ne sont pas de gentilles variables applicables à loisir dans tous les sens.

Imaginons, intuitivement, des manipulations qui changeraient de manière simple tempo et hauteur :

le changement de tempo découpe le son en petites tranches et :
- en retire une sur deux pour accélérer
- en duplique une sur deux pour ralentir
le changement de hauteur modifie la vitesse, puis modifie le tempo comme décrit ci-dessus jusqu'à ce que le son ait repris sa durée de départ.

Ce n'est probablement jamais aussi simple (cette technique créerait un effet "alien" même avec des changements légers).
Mais le truc, c'est que, MÊME SI aucun logiciel ne fait ça, ça reste un "changement de tempo/hauteur". Ce qui prouve qu'il n'y a pas de vraie bonne définition technique; ce sont des notions "artistiques" qui ne sont pas quantifiables.
Ou alors, il faut poser la question pour UN plug-in/ logiciel donné.

The_Juju_Stormer

Alinor a écrit :
Ps : Ha ! effectivement il ne faut pas confondre dt et la différence t1 moins t2 dont tu parles, moi j'appel ça le "pas" (pour correlé habilement avec la méthode de je-sais-plus-quel-glandu pour tracer une fonction à partir de sa dérivée )

Le je-sais-plus-quel-glandu s'appelle Leonhard Paul Euler, né le 15 avril 1707 à Bâle et mort le 18 septembre 1783 à Saint-Pétersbourg.

C'était pour votre culture général !
Mais si je vous assure que cela vous sera utile...enfin... sans doute...
D'accord je sors...

#14 Message par **Kradukman** » sam. 22 mai 2010, 10:13

Petite relance du topic:
1°) j'ai trouvé un article intéressant (en anglais) sur l'utilisation de la transformée de fourrier: http://www.dspdimension.com/admin/pitch ... ng-the-ft/

2°) On illustre la puissance de ce truc avec un freeware permettant de pitcher des bandes de fréquences (VST windows) :
http://fr.audiofanzine.com/plugin-fx-di ... 12468.html

Définitions de la hauteur, de la vitesse et du tempo.

Définitions de la hauteur, de la vitesse et du tempo.

Qui est en ligne