DeepSeek まとめ




2025年1月30日現在の情報です。

突然無名の中国製のAIが出てきて話題に。実力はOpen AI o1と同等。
しかし OpenAI o1は DeepSheek の約五か月前にリリースされているため、OpenAIが五か月進んでいるともいえる。

DeepSeek のモデル

モデル名 時期 特徴 備考
DeepSeek V1 2023年頃 ・初期モデル
・70億パラメータと670億パラメータの2構成
 
DeepSeek V2 2023年末〜2024年前半 ・Mixture-of-Experts (MoE) アーキテクチャ、総パラメータ2360億、トークンあたり210億が活性化(省リソース設計)
・MLA(Multi-head Latent Attention)
・KVキャッシュを圧縮してメモリ効率と推論速度を大幅に改善。
 
DeepSeek V3 2024年末〜2025年初頭 ・MoEアーキテクチャの進化版、総パラメータ6710億、トークンあたり370億が活性化
・オープンソースのLLM
・NVIDIA H800など性能が抑えられたGPUでも大規模学習
開発費用開発費用600万ドルと言われている
DeepSeek R1   OpenAIの最新モデルと同等の性能、API価格が25分の1以下  
DeepSeek R1-Zero   R1の改良版、シミュレーションに基づく推論が可能  

AIはコモディティ化するのか?

価格競争に巻き込まれる可能性はあるのか?要するにA社サービスのAIとB社サービスのAIは同じになるのか?もしそうなったら価格競争になる。
あるいはどこかが独占するのか、あるいはサービスごとに特徴のあるサービスとなるのか?

コモディティ化されると考える。今回のようにオープンソース化されると誰でもローカルでできることになる。サービスが似通ってくるであろう。
ただしOpenAIなど時差的にトップを走っていく可能性がある。オープンソースが追いつくのか。この時差を待てるならコモディティ化となるだろう。

今後も無名のスタートアップがよいAIをオープンソースで出してくる可能性もある。それによりAIのコモディティ化が加速される可能性はある。

日本のDeepSeekの仕組み

・賢いモデルに対してルール報酬で強化学習
・蒸留という方式で大きいモデルを小さくする

ルール報酬で強化学習は業界ごとにカスタマイズする余地がある。(人間が入って学習するなど)

NVIDIA の GPU 需要は減少するのか?

需要が減ることはない。

ただし学習用のNVIDIA のGPU需要は減る可能性がある。

なぜなら"学習"と"推論"という2フェーズがある。

DeepSeekの推論は強化学習、ルールベースで学習している。今後は推論フェーズが重要になるのではないか?
"Apple シリコン"、"Groq"は推論に向いている。

DeepSeek登場により、推論フェーズが重要なのではないかと考える。なぜなら、DeepSeekがこれほど安いコストで学習フェーズを構築したからだ。
ただ短期的にはGPUは必要。

DeepSeek vs OpenAI

DeepSeek API は明らかに安い。あれだけのモデルを赤字でサービス提供している可能性が高い。知名度アップ、宣伝で行ているのか?

本当に安くDeepSheekを作れたのか?

600万ドルといってもこれが何を意味するのか不明。開発には「リソース」「データーセンター代」「人件費」「開発費」「電気代」などがある。また学習も何度も失敗する。もしかしたら600万ドルは成功したときの電気代だけかもしれない。また他のLLMを学習に使用したのかもしれない。

ただ効率的革新的であることには変わりないので、これで価値が落ちるということは全くない。

CEOが若くて優秀。優秀な人材で少ないリソースでのアルゴリズムを開発したのだろう。