Temps et tarif d'une transcription : ce qu'il faut savoir

Que l'on soit étudiant, chercheur ou indépendant et à la recherche d'une transcription, on peut parfois ne pas réaliser à quel point ce travail est une tâche chronophage et minutieuse qui prend beaucoup, beaucoup, beaucoup de temps!

 

En effet, à la question "mais pourquoi les délais sont-ils si longs?", je répondrais dans un premier temps que la transcription nécessite une très bonne qualité d'enregistrement pour être optimale, rapide et efficace à transcrire.

 

Pour une heure d'enregistrement audio, il faudra en moyenne un temps de production de 3 à 6 heures, mais cela peut être plus long si la qualité de l'enregistrement laisse à désirer, par exemple.

 

Le logiciel de reconnaissance vocale qui produirait une transcription parfaite en quelques minutes en reconnaissant les propos énoncés à l'oral sans commettre de fautes de français ou (surtout) des fautes de syntaxe n'a pas encore été inventé. 

 

Imaginons qu'une technologie assez bien ficelée existerait pour faire le travail de transcription. Dans ce cas, le fichier audio devra être de très bonne qualité. Il sera composé d'un seul intervenant qui posera des questions à un seul répondant, et ces deux locuteurs s'exprimeront distinctement sans accent ni bruit parasite en terminant chacune de leurs phrases sans exception!

 

Vous l'avez compris, ce cas est très rare, voire presque inatteignable dans la réalité. En effet, l'accent d'une personne, sa façon de ne pas terminer ses phrases ou de passer d'une idée à l'autre, ou encore tout simplement le fait de bafouiller implique toujours un certain nombre de retour en arrière, et des segments partiellement voire totalement inaudibles sur une transcription audio d'une heure.

 

Y compris à l'oral, la communication entre deux ou plusieurs locuteurs n'est jamais sans entraves! En effet, communiquer un message clair, précis et intelligible nécessite un ensemble de conditions propices à transmettre notre pensée.

 

Mais il y a des choses à l'oral que l'on se permet que l'écrit ne peut tolérer, et vice-versa. Les fautes à l'oral apparaissent avec moins d'intensité, et l'on peut compter sur tout le langage non verbal pour compléter notre intention, et se faire comprendre. Dans le cas d'une transcription, une partie de l'échange ne nous ait pas fourni, et l'essentiel est alors d'être le plus fidèle aux propos, en faisant face aux aléas inhérents au passage oral/écrit. 

 

Pour avoir déjà travaillé avec ce genre de technologie de reconnaissance vocale, je peux affirmer que tout comme un dictionnaire intelligent ne pourra pas rendre une traduction exempte de contre-sens, coquilles et autres fautes graves de syntaxe, une transcription a besoin d'une écoute et d'un cerveau humain pour être de qualité. Exactement comme la traduction a besoin d'un œil et de la subtilité d'une intelligence humaine pour traduire le message d'une langue à une autre en préservant le sens originel.

 

En revanche, si un enregistrement laisse entendre un grand nombre de bruits parasites, ou que les intervenants se coupent la parole, le temps de transcription va automatiquement être multiplié par deux. Évidemment, la technique peut aider à mieux "entendre" les propos qui se cachent derrière un rire un peu bruyant ou se fondant dans la voix d'un autre participant, mais une transcription reste très dépendante de certains critères, comme nous allons le voir.

 

Le temps de remise des livrables va être déterminé en fonction de plusieurs paramètres qui sont à prendre en compte lorsque l'on veut rendre un fichier audio exploitable. C'est pourquoi le temps de remise, ainsi que le tarif peuvent varier.

 

 

Par exemple, quelques critères à considérer :

 

 

  • La qualité de l'enregistrement : le fichier a-t-il été enregistré avec un téléphone portable, un enregistreur, avec un micro de qualité.
  • Le nombre de locuteurs : s'agit-il d'un groupe de personnes qui parlent en même temps et se coupent souvent la parole, d'une entrevue entre deux personnes ou encore d'une discussion enregistrée sur Zoom?
  • La voix et ses particularités : débit (très rapide, très faible), la tonalité (on entend très peu une personne, par exemple), l'accent et l'élocution (l'accent d'un locuteur peut rendre difficile la transcription).   
  • Les bruits parasites : l'enregistrement peut être difficile à déchiffrer si des bruits parasites viennent s'insérer dans la discussion. Par exemple, une fenêtre donnant sur une rue bruyante, une entrevue qui se poursuit dans la rue, des bruits de travaux discernables depuis une pièce proche, etc.
  • Le niveau de langage : le ou les thèmes abordés nécessitent plus ou moins de recherche afin de transcrire correctement la terminologie spécifique d'un sujet. Exemple : jargon, termes scientifiques, mots en langues étrangères, etc.
  • L'échéance et l'urgence du projet : s'agit-il de cinq entrevues d'une heure à remettre dans un délai de 10 jours ou bien d'un projet à long terme de plus de 10 fichiers s'échelonnant sur plusieurs mois.

Toutes ces informations permettent ainsi de déterminer de manière plus précise le temps de remise d'un livrable, ainsi que le calendrier de production (le rythme auquel seront livrées les transcriptions) et donc, de fixer un tarif juste.

Écrire commentaire

Commentaires: 0