2025年1月30日現在の情報です。
突然無名の中国製のAIが出てきて話題に。実力はOpen AI o1と同等。
しかし OpenAI o1は DeepSheek の約五か月前にリリースされているため、OpenAIが五か月進んでいるともいえる。
モデル名 | 時期 | 特徴 | 備考 |
DeepSeek V1 | 2023年頃 | ・初期モデル ・70億パラメータと670億パラメータの2構成 |
|
DeepSeek V2 | 2023年末〜2024年前半 | ・Mixture-of-Experts (MoE) アーキテクチャ、総パラメータ2360億、トークンあたり210億が活性化(省リソース設計) ・MLA(Multi-head Latent Attention) ・KVキャッシュを圧縮してメモリ効率と推論速度を大幅に改善。 |
|
DeepSeek V3 | 2024年末〜2025年初頭 | ・MoEアーキテクチャの進化版、総パラメータ6710億、トークンあたり370億が活性化 ・オープンソースのLLM ・NVIDIA H800など性能が抑えられたGPUでも大規模学習 |
開発費用開発費用600万ドルと言われている |
DeepSeek R1 | OpenAIの最新モデルと同等の性能、API価格が25分の1以下 | ||
DeepSeek R1-Zero | R1の改良版、シミュレーションに基づく推論が可能 |
価格競争に巻き込まれる可能性はあるのか?要するにA社サービスのAIとB社サービスのAIは同じになるのか?もしそうなったら価格競争になる。
あるいはどこかが独占するのか、あるいはサービスごとに特徴のあるサービスとなるのか?
コモディティ化されると考える。今回のようにオープンソース化されると誰でもローカルでできることになる。サービスが似通ってくるであろう。
ただしOpenAIなど時差的にトップを走っていく可能性がある。オープンソースが追いつくのか。この時差を待てるならコモディティ化となるだろう。
今後も無名のスタートアップがよいAIをオープンソースで出してくる可能性もある。それによりAIのコモディティ化が加速される可能性はある。
・賢いモデルに対してルール報酬で強化学習
・蒸留という方式で大きいモデルを小さくする
ルール報酬で強化学習は業界ごとにカスタマイズする余地がある。(人間が入って学習するなど)
需要が減ることはない。
ただし学習用のNVIDIA のGPU需要は減る可能性がある。
なぜなら"学習"と"推論"という2フェーズがある。
DeepSeekの推論は強化学習、ルールベースで学習している。今後は推論フェーズが重要になるのではないか?
"Apple シリコン"、"Groq"は推論に向いている。
DeepSeek登場により、推論フェーズが重要なのではないかと考える。なぜなら、DeepSeekがこれほど安いコストで学習フェーズを構築したからだ。
ただ短期的にはGPUは必要。
DeepSeek API は明らかに安い。あれだけのモデルを赤字でサービス提供している可能性が高い。知名度アップ、宣伝で行ているのか?
600万ドルといってもこれが何を意味するのか不明。開発には「リソース」「データーセンター代」「人件費」「開発費」「電気代」などがある。また学習も何度も失敗する。もしかしたら600万ドルは成功したときの電気代だけかもしれない。また他のLLMを学習に使用したのかもしれない。
ただ効率的革新的であることには変わりないので、これで価値が落ちるということは全くない。
CEOが若くて優秀。優秀な人材で少ないリソースでのアルゴリズムを開発したのだろう。