Je ne suis pas expert en montage de vidéos, mais il me semble que la vidéo que vous avez vu est la résultante de trois vidéos superposées:
1ère prise: le guitariste
2ème prise: le tambourin
3ème prise: le refrainiste
Sans bouger la caméra et sans placer deux personnages de deux prises au même endroits, on doit arriver en superposant à tripler la personne, en fonction des trois endroits ou elle se trouve.
Sinon: découper la scène en trois images, et prendre en trois scènes les endroits ou est misterfox.
Et oui, il y a des logiciels pour ça: j'en ai déjà vu, payants...
