A Benchmarking on Cloud based Speech-To-Text Services for French Speech and Background Noise Effect - IMT Mines Alès Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

A Benchmarking on Cloud based Speech-To-Text Services for French Speech and Background Noise Effect

Binbin Xu
  • Fonction : Auteur
  • PersonId : 747446
  • IdHAL : binbinxu
Youssef Raqui
  • Fonction : Auteur
  • PersonId : 1195143
Sylvie Ranwez

Résumé

This study presents a large scale benchmarking on cloudbased Speech-To-Text systems : Google Cloud Speech-To-Text, Microsoft Azure Cognitive Services, Amazon Transcribe, IBM Watson Speech to Text. For each systems, 40 158 clean and noisy speech files about 101 hours are tested. Effect of background noise on STT quality is also evaluated with 5 different Signal-to-noise ratios from 40 dB to 0 dB. Results showed that Microsoft Azure provided lowest transcription error rate 9.09% on clean speech, with high robustness to noisy environment. Google Cloud and Amazon Transcribe gave similar performance, but the latter is very limited for time-constraint usage. Though IBM Watson could work correctly in quiet conditions, it is highly sensible to noisy speech which could strongly limit its application in real life situations.
Alors que les applications de reconnaissance vocale se sont imposées dans notre quotidien, il existe peu d'études à grande échelle pour comparer les performances des solutions de l'état de l'art. Ceci est d'autant plus vrai dans une langue autre que la langue anglaise. Cet article propose une telle analyse comparative basée sur 17 heures d'enregistrement en Français. Quatre systèmes sont analysés : Google Cloud Speech-To-Text, Microsoft Azure Cognitive Services, Amazon Transcribe, et IBM Watson Speech to Text. Chacun ayant été mis à l'épreuve de cinq niveaux de bruit de fond, c'est l'équivalent de 400 heures de discours qui sont analysées. Microsoft Azure Cognitive Services a montré les meilleurs résultats en terme de taux d'erreur et une bonne résistance au bruit, tandis que la sensibilité au bruit d'IBM Watson Speech to Text compromet son usage en situation réelle.
Fichier principal
Vignette du fichier
APIA2021_paper_12.pdf (1.98 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03874256 , version 1 (27-11-2022)

Identifiants

  • HAL Id : hal-03874256 , version 1

Citer

Binbin Xu, Tao Chongyang, Youssef Raqui, Sylvie Ranwez. A Benchmarking on Cloud based Speech-To-Text Services for French Speech and Background Noise Effect. Conférence Nationale sur les Applications Pratiques de l’Intelligence Artificielle (APIA 2021), Jul 2021, Bordeaux, France. p. 102-107. ⟨hal-03874256⟩
193 Consultations
356 Téléchargements

Partager

Gmail Facebook X LinkedIn More