生成AIシステムの総合的性能の向上に関わる基本的要因としては、「ハードウェア」的要因、「ソフトウェア」的要因、「trainingデータ要因」、「training内容要因(事前学習pre-training vs 事後学習post-training、教師あり学習など)の4種類がある。
- ハードウェアー「より高い計算精度、おり高い計算速度」(両者は技術的に相反的)
(GPU性能,CPU性能,メモリの量・読込速度性能・書込速度性能など) - ソフトウェア-「より優れたアルゴリズム・学習モデル、より大規模でより優れた言語モデル」
- データセットの質と量-「より良質なデータ、より大量のデータ」
- 学習(Training)の質と量-「より適切な学習、より大量の学習」
[参考資料1]言語モデルのパラメータ数による性能比較
表:大規模言語モデル(GPT-3.5/4のパラメータ数は推定)
言語モデル | リリース日 | 開発元 | 最大パラメータ数 |
---|---|---|---|
GPT-3 | 2020年6月 | OpenAI | 1750億 |
GShard | 2020年6月 | 6000億 | |
Swich Transformer | 2021年1月 | Google Brain | 1.57兆 |
悟道(WuDao)2.0 | 2021年6月 | 北京智源人工知能研究院 | 1.75兆 |
HyperCLOVA | 2021年11月 | LINEとNAVER | 390億 |
Gopher | 2022年1月 | DeepMind | 2800億 |
日本語GPT | 2022年1月 | rinna | 13億 |
GPT-3.5 | 2022年3月 | OpenAI | (推定)3550億 |
PaLM | 2022年4月 | Google Reserch | 5400億 |
GPT-4 | 2023年3月 | OpenAI | (推定)5000億~1兆 |
[表の出典] 梅田弘之(2023)「GPTで始まる大規模言語モデル時代」2023/6/1
https://thinkit.co.jp/article/22084
各言語モデルに関して、Wikipedia英語版の”Large Language Model”(https://en.wikipedia.org/wiki/Large_language_model)の中のList of large language modelsにより詳細な紹介がある。