Transcrire du son en texte : l’autre révolution de l’IA

Le Plaud Note est un dictaphone révolutionnaire au format carte de crédit associé à une application mobile qui transcrit l'audio en texte grâce à l'IA et utilise chatGPT 4 pour produire des résumés personnalisés (réunion, discours, conférence, etc). - PLAUD
Le Plaud Note est un dictaphone révolutionnaire au format carte de crédit associé à une application mobile qui transcrit l'audio en texte grâce à l'IA et utilise chatGPT 4 pour produire des résumés personnalisés (réunion, discours, conférence, etc). - PLAUD
Le Plaud Note est un dictaphone révolutionnaire au format carte de crédit associé à une application mobile qui transcrit l'audio en texte grâce à l'IA et utilise chatGPT 4 pour produire des résumés personnalisés (réunion, discours, conférence, etc). - PLAUD
Publicité

C’est l’une des utilisations très concrètes de l’intelligence artificielle : la transcription automatique en texte à partir d’un fichier audio : une révolution pour les étudiants, les médecins, les journalistes notamment, mais aussi en entreprises.

Depuis un an, le nombre de solutions logicielles ou matérielles de transcription automatique à base d’IA, a explosé. Depuis septembre 2022 – pour être précis – et la sortie de Whisper, une autre technologie d’intelligence artificielle, mise à disposition par OpenAI. On est alors deux mois avant le lancement public de son autre bébé, chatGPT, qui va faire encore plus parler de lui… Mais en parallèle à ce succès planétaire, Whisper va commencer à servir de fondation à une multitude d’applications de conversion de fichier audio vers du texte.

Un gain de temps spectaculaire

Prenons l’exemple d’un journaliste qui réalise une interview, et qui a besoin de transcrire le son des questions-réponses : un exercice fastidieux qui peut prendre plusieurs heures. Désormais, grâce à l’IA, il suffit d’importer le fichier audio dans une application ou un logiciel pour obtenir, en quelques secondes, la transcription intégrale de l’interview sous forme de texte.

Publicité

La fidélité de ce texte dépend de la qualité audio, de la qualité de l’IA et de son modèle : plus il est grand, plus il nécessite de la mémoire et de la puissance, plus le traitement demande du temps mais aussi plus la transcription est précise. La fidélité du texte dépend enfin de la langue. Les IA américaines sont moins entraînées sur le français que l’anglais. Et donc, oui, il reste toujours des erreurs à corriger mais le gain de temps est, dans tous les cas, spectaculaire.

Pour profiter de ces transcriptions automatiques avec l’IA, on peut donc utiliser une application ou un logiciel. Il en existe des dizaines qui reposent soit sur Whisper, soit sur d’autres technologies comme Watson d’IBM. Par exemple, sur Android, Speechnotes de Google ; Transcribe sur iPhone ; sur PC, la reconnaissance vocale intégrée à Windows ; et sur Mac, MacWhisper. Dans cette galaxie, on rencontre plusieurs modèles économiques : du gratuit au payant en passant par des abonnements avec un quota de minutes de transcription par mois, voire de traduction dans d’autres langues.

Dans tous les cas, préférez les applications qui assurent la transcription en local, c’est-à-dire sans passer par le Cloud, comme Chuchotis, proposé sur Mac par Denis Delbecq, ancien chercheur et journaliste au quotidien suisse Le Temps, un confrère très attentif à confidentialité et à la protection des informations sensibles.

chatGPT dans un dictaphone révolutionnaire

Et puis, il y a cet accessoire, le Plaud Note, lancé en Europe, la semaine dernière, lors du salon Viva Technology à Paris. Imaginez un dictaphone révolutionnaire en aluminium, au format carte de crédit, et aussi fin, collé magnétiquement, dans son étui, au dos de votre smartphone. Une pression sur un bouton et le Plaud Note enregistre, via des micros et des capteurs de vibration, soit le son autour de vous, soit votre conversation téléphonique. Le passage en mode enregistrement est confirmé par une vibration haptique, et par l’activation d’une diode rouge.

L’application mobile permet ensuite d’obtenir la transcription, et même un résumé bluffant, grâce à chatGPT version 4, avec plusieurs formats possibles (conférence, cours, consultation médicale, discussion, etc). Je l’ai essayé pour une soutenance de mémoire, c’était spectaculaire. Seul bémol : le recours à un Cloud encore nébuleux. Une prochaine mise à jour pourrait permettre de cibler un Cloud en France, pour plus de sécurité des données, et de choisir une autre IA comme celle du français Mistral AI.

L'équipe