音声認識テキスト生成AIシステム ー speech to text (video to text)の比較
1.使用した音声ファイル
2.上記音声ファイルの日本語テキスト・データ
今回の授業では、先のスライドにあげた四つのポイントに関して、part1とpart2でスライドの第1項目のようにプロダクトイノベーションと差異化を、part3と part4でスライドの第2項目のようにプロセスイノベーションと低コスト化を取り上げます。
3.上記音声ファイルの生成AIによる認識結果
- Google Cloud : Speech-to-text AIによる認識結果
- facebook SeamlessM4Tによる認識結果
今回の授業では ⁇ 先刻のスライドに挙げた四つのポイントに関して ⁇ パーツワンとパーツトゥーで ⁇ スライドの第1項目のように ⁇ プロダクトイノベーションと再加を ⁇ パーツスリーとパーツフォーで ⁇ スライドの第2項目のように ⁇ プロセスイノベーションと低コスト化を取り上げます ⁇不適切な認識箇所は、上記の赤で示した3箇所である。「先の」が「先刻の」に、「part(パート)」が「パーツ」に誤って認識されている。「差異化」が音声的には正しく「さいか」と認識されているが、漢字表記において「再加」と誤って表示されている。なお、「ワン、トゥー、スリー、フォー」は音の認識としては間違ってはいないが、Google Cloud : Speech-to-text AIのように、数字の1,2,3,4と表記されていない点も問題である。(facebook SeamlessM4Tは、Google Cloud: speech-to-textに比べて、読み込ませることができる音声ファイルが1分間(?)以下と短いだけでなく、このように最終的な日本語表記に関しても問題が少し多いある。)
誤 正 1 先刻の → 先の 2 再加 → 差異化 3 パーツ → part(あるいは、パート)
https://cloud.google.com/speech-to-text?hl=ja
今回の授業では、さっきのスライドにあげた四つのポイントに関して、パート1とパート2でスライドの第1項目のようにプロダクトイノベーションと再会part 3と Part 4でスライドの第2項目のようにプロセスイノベーションと低コスト化を取り上げます。
不適切な認識箇所は、上記の赤で示した2箇所である。「先の」が「さっきの」に、「差異化」が「再会」と誤って認識されている。
誤 | 正 | ||
1 | さっきの | → | 先の |
2 | 再会 | → | 差異化 |