Speech-to-Text生成AIの利用結果

音声認識テキスト生成AIシステム ー speech to text (video to text)の比較
1.使用した音声ファイル
 
2.上記音声ファイルの日本語テキスト・データ
 
今回の授業では、先のスライドにあげた四つのポイントに関して、part1とpart2でスライドの第1項目のようにプロダクトイノベーションと差異化を、part3と part4でスライドの第2項目のようにプロセスイノベーションと低コスト化を取り上げます。
 
3.上記音声ファイルの生成AIによる認識結果

  1. Google Cloud : Speech-to-text AIによる認識結果
    https://cloud.google.com/speech-to-text?hl=ja

    今回の授業では、さっきのスライドにあげた四つのポイントに関して、パート1とパート2でスライドの第1項目のようにプロダクトイノベーションと再会part 3と Part 4でスライドの第2項目のようにプロセスイノベーションと低コスト化を取り上げます。

    不適切な認識箇所は、上記の赤で示した2箇所である。「先の」が「さっきの」に、「差異化」が「再会」と誤って認識されている。

    1 さっきの 先の
    2 再会 差異化
     

  2. facebook SeamlessM4Tによる認識結果
     
    今回の授業では ⁇ 先刻のスライドに挙げた四つのポイントに関して ⁇ パーツワンとパーツトゥーで ⁇ スライドの第1項目のように ⁇ プロダクトイノベーションと再加を ⁇ パーツスリーとパーツフォーで ⁇ スライドの第2項目のように ⁇ プロセスイノベーションと低コスト化を取り上げます ⁇

    不適切な認識箇所は、上記の赤で示した3箇所である。「先の」が「先刻の」に、「part(パート)」が「パーツ」に誤って認識されている。「差異化」が音声的には正しく「さいか」と認識されているが、漢字表記において「再加」と誤って表示されている。なお、「ワン、トゥー、スリー、フォー」は音の認識としては間違ってはいないが、Google Cloud : Speech-to-text AIのように、数字の1,2,3,4と表記されていない点も問題である。(facebook SeamlessM4Tは、Google Cloud: speech-to-textに比べて、読み込ませることができる音声ファイルが1分間(?)以下と短いだけでなく、このように最終的な日本語表記に関しても問題が少し多いある。)
     
    1 先刻の 先の
    2 再加 差異化
    3 パーツ part(あるいは、パート)
カテゴリー: Speech-to-Text, 生成AI パーマリンク