Speech-to-Text生成AIの利用結果

音声認識テキスト生成AIシステムー speech to text (video to text)の比較

１.使用した音声ファイル

２.上記音声ファイルの日本語テキスト・データ

今回の授業では、先のスライドにあげた四つのポイントに関して、part1とpart2でスライドの第1項目のようにプロダクトイノベーションと差異化を、part3と part4でスライドの第2項目のようにプロセスイノベーションと低コスト化を取り上げます。

３.上記音声ファイルの生成AIによる認識結果

Google Cloud : Speech-to-text AIによる認識結果
https://cloud.google.com/speech-to-text?hl=ja

今回の授業では、さっきのスライドにあげた四つのポイントに関して、パート1とパート2でスライドの第1項目のようにプロダクトイノベーションと再会part 3と Part 4でスライドの第2項目のようにプロセスイノベーションと低コスト化を取り上げます。

不適切な認識箇所は、上記の赤で示した2箇所である。「先の」が「さっきの」に、「差異化」が「再会」と誤って認識されている。

誤正

1 さっきの → 先の

2 再会 → 差異化

　
facebook SeamlessM4Tによる認識結果
https://huggingface.co/spaces/facebook/seamless-m4t-v2-large

　

今回の授業では ⁇ 先刻のスライドに挙げた四つのポイントに関して ⁇ パーツワンとパーツトゥーで ⁇ スライドの第1項目のように ⁇ プロダクトイノベーションと再加を ⁇ パーツスリーとパーツフォーで ⁇ スライドの第2項目のように ⁇ プロセスイノベーションと低コスト化を取り上げます ⁇

不適切な認識箇所は、上記の赤で示した3箇所である。「先の」が「先刻の」に、「part（パート）」が「パーツ」に誤って認識されている。「差異化」が音声的には正しく「さいか」と認識されているが、漢字表記において「再加」と誤って表示されている。なお、「ワン、トゥー、スリー、フォー」は音の認識としては間違ってはいないが、Google Cloud : Speech-to-text AIのように、数字の１，２，３，４と表記されていない点も問題である。(facebook SeamlessM4Tは、Google Cloud: speech-to-textに比べて、読み込ませることができる音声ファイルが1分間（？）以下と短いだけでなく、このように最終的な日本語表記に関しても問題が少し多いある。）

　

誤正

1 先刻の → 先の

2 再加 → 差異化

3 パーツ → part(あるいは、パート）

メタ情報

最新の投稿

カテゴリー

アーカイブ

最近の投稿

最近のコメント

アーカイブ

カテゴリー

メタ情報

	誤		正
1	先刻の	→	先の
2	再加	→	差異化
3	パーツ	→	part(あるいは、パート）