Bon, les cocos, c'est autrement plus compliqué comme histoire. Kak voulait des maths, il va y en avoir.
Avant tout: l'analogie qu'on fait avec la vidéo et la fréquence d'échantillonnage est fausse. Si les studios échantillonnent à du 96kHz, c'est pour une autre raison que celle que l'on pense.
Entrons d'emblée dans l'histoire...
Une petite précision avant d'entrer dans le sujet: je me doute qu'à part Kak, très peu comprendront et je ne me vexerai pas

. (et ceci n'est pas à considérer comme un double post)
Je ferai un tuto plus précis avec les bases mathématiques nécessaires un autre jour (c'est un peu le seul truc qui me motive à suivre les cours d'analyse et d'algèbre).
Ceci est le fruit de deux heures de discussion avec L'Ingénieur (alias Le Doc Yves, alias mon papa).
Tout ce qui suit est très très vulgarisé car je n'ai pas encore les maths pour les expliquer entièrement.
Commençons par l'échantillonage.
D'abord, il ne faut pas confondre fréquence d'un son et fréquence d'échantillonnage.
Un son est une vibration de l'air. Si on a une vibration sinusoïdale, on peut associer une fréquence à un son = l'inverse de la période. (j'en vois beaucoup qui ont déjà décraché XD).
La fréquence d'échantillonnage, c'est le nombre d'échantillons qu'on prend sur une seconde. Là, on peut faire une analogie avec la vidéo.
Prenez deux photos à intervalle régulier sur une seconde. Vous avez deux échantillons par seconde => 2Hz. (comme fréquence d'échantillonnage, hein!!).
On fait un arrêt par l'interpolation. Kézako? Aucun rapport avec interpol. Une interpolation, c'est une manière de relier deux points.
Une interpolation du premier degré, c'est une bête droite qui relie les deux points (comme fait ce couillon d'excell).
Une interpolation plus intelligente consiste à prendre une sinusoïde, la multiplier par l’amplitude du point échantilloné et la placer entre les deux points. (là, tout le monde est largué, sauf Kak, Celebo, Blast et Aspic (j’en oublie, hein !

))
Le théorème de Shanon-Nyquist sur la théorie de l'information dit qu'il faut deux fois plus d'échantillons que ce qu'on veut échantillonner.
Exemple : on veut entendre un son à 10kHz, donc on échantillonne à 20kHz et un chouilla.
OK, là, vous comprenez pourquoi ça ne sert à rien d’échantillonner à 48kHz. Ça voudrait dire qu’on entend jusqu’à 24Hz. Ce qui est faux ou extrêmement rare. Et à 18 ans, on n’entend plus au delà de 20kHz, donc on s’en fout.
Si on le fait en vidéo, c’est pour une raison de synchronisation : 24 images/s. Ooooh !! Trop fou XD.
Et le rapport avec le pitch et le stretch ? J’y viens coco, j’y viens.
Prenons un exemple simple :
Une sinusoïde de fréquence 5 Hz. Si j’échantillonne à 5Hz, ben je prendrai toujours les points au même endroit. Donc toutes les interpolations ne me serviront à rien. Une infinité de sinusoïdes peuvent passer par ces points. Et pour faire une bonne interpolation, il faut au moins 3 points.
Ok, normalement, on a la base pour catcher le stretch là. Quand on échantillonne, on regarde la tension à un instant t, puis le suivant à un instant delta t (que je noterai dt parce que j’ai pas delta… Ne pas confondre avec un accroissement infinitésimal).
Donc on a un point en t, tension = constante entre t et dt.
Et hop, pour un stretch, on allonge ou augmente dt. Trop fou, les maths !!
Ce qui explique la modification de la durée.
Pour le pitch, c’est une autre paire de manches.
Commençons dans l’ordre : la transformée de fourrier.
La transformée de fourrier, c’est un truc génial qui sert à approximer une fonction par une somme de fonctions type sinusoïde/cosinusoïde (ça y est, j’ai tué les plus réticents).
Quel est l’intérêt ? Et bien, plutôt que de jouer avec une fonction dégueulasse, on joue avec une somme de fonctions faciles dont on peut calculer les coefficients. (mais ça, c’est une autre histoire).
Revenons au schmilblik.
Une transformée de fourrier qui va de moins l’infini à + l’infini pour une fonction non périodique s’appelle une intégrale de fourrier. Ça, on s’en fout, c’est juste pour la culture.
Ce qui est stylé, c’est qu’on peut représenter une transformée de fourrier sur un histogramme allant de 0Hz à la fréquence de Nyquist (moitié de la fréquence d’échantillonnage).
Donc, pour un son composé d’une sinusoïde à 5Hz et une autre à 25Hz, on a un truc comme ça :
Pour un changement de hauteur, on va simplement translater les petits rectangles d’intensité soit vers la droite (changement vers le haut), soit vers la gauche (vers le bas). Puis, on fait une transformée de fourrier inverse (qui consiste à sommer les différentes sinusoïdes pour en obtenir qu’une seule).
Par chance, la transformée inverse conserve le même nombre de points d’échantillonnage => la durée reste la même.
Un problème survient si on veut amener un son au-delà de la fréquence de Nyquist (je crois que la fréquence disparaît, mais je ne suis pas sûr).
Un autre truc, concernant l’interpolation et l’échantillonnage. Si j’échantillonne un son de 12kHz à 10kHz, il sera perçu comme un son à 2kHz. (cherchez modulation d’amplitude, vous comprendrez… Quoique, lisez le truc sur la modulation d’amplitude de mon rapport de projet, histoire que ça serve à quelque chose).
Voilà. Vous savez tout (sauf pourquoi l’analogie à la vidéo est fausse, mais là, j’ai pas compris toute l’explication de l’ingénieur :s).
Modulation:
http://kradukmanprod.redline-prod.com/p ... apport.pdf
Sources pour la transformée de fourrier (images) :
http://www.files.chem.vt.edu/chem-ed/data/graphics/