DeepSeek まとめ




2025年1月30日現在の情報です。

突然無名の中国製のAIが出てきて話題に。実力はOpen AI o1と同等。
しかし OpenAI o1は DeepSheek の約五か月前にリリースされているため、OpenAIが五か月進んでいるともいえる。

DeepSeek のモデル

モデル名 時期 特徴 備考
DeepSeek V1 2023年頃 ・初期モデル
・70億パラメータと670億パラメータの2構成
 
DeepSeek V2 2023年末〜2024年前半 ・Mixture-of-Experts (MoE) アーキテクチャ、総パラメータ2360億、トークンあたり210億が活性化(省リソース設計)
・MLA(Multi-head Latent Attention)
・KVキャッシュを圧縮してメモリ効率と推論速度を大幅に改善。
 
DeepSeek V3 2024年末〜2025年初頭 ・MoEアーキテクチャの進化版、総パラメータ6710億、トークンあたり370億が活性化
・オープンソースのLLM
・NVIDIA H800など性能が抑えられたGPUでも大規模学習
開発費用開発費用600万ドルと言われている
DeepSeek R1   OpenAIのo1モデルと同等の性能、API価格が25分の1以下
中国語、英語で最適化
 
DeepSeek R1-Zero   R1の改良版、シミュレーションに基づく推論が可能  

簡単まとめ

・オープンソースなので成果を誰でも利用できる。他社も研究成果を活用できる、ブレークスルー。

・V3は重みも公開しているので、自分のPCにダウンロードして使うことも可能。o3などはクローズド。

・DeepSeek-R1 は推論型(Chain-of-Thought)、reasoning モデル。o1並みで料金も安い、モデルも公開されている。

比較ページ
DeepSeek-R1は、低コストとオープンソースの柔軟性を重視するプロジェクトに適しており、数学的問題解決ではわずかに優位ですが、一般的な推論能力やコーディング能力ではOpenAIに若干劣ります。

モデルも公開:「モデルアーキテクチャ・学習手法の詳細をドキュメントで公開」「学習済みモデルウェイトの提供」「推論用コード/学習スクリプト」

モデルの構造、何がうまく行ったのかなどを公開。(ただしどのデータを利用したかは記載されていない)

・DeepSeekは思考のプロセスを詳細に出力する。他のモデルは(学習を拒否するためか)思考のプロセスを出力しない。

・利用規約として入力データは学習に利用される場合があるということで注意が必要。OpenAIや Anthropicは拒否するオプションあり。

・ルールベースでの学習。
今までは例えば数学の学習でも文章で学習を行っていた。
DeepSeekは大量の正解がある問題で学習した。(←単純に答えが正解かどうかで学習、途中経過は考慮しない、思考過程はどうでも良い)
そうしたら、自分で間違いを気が付いて修正するようになった。(人間らしい)

この方式なら評価しやすいので、モデルが強化されていった。

・サイバーエージェントのDeepSeek(蒸留モデル) + 日本語で追加学習
DeepSeek-R1-Distill-Qwen-32B-Japanese
→ 約320億パラメータ(32B = 32 Billion Parameters)

DeepSeek-R1-Distill-Qwen-14B-Japanese
→ 約140億パラメータ(14B = 14 Billion Parameters)

中国バイアスが外されている。おそらく中国へデータは送信されない。

・Azure上のデプロイ
Azure AI Foundry で DeepSeek-R1 推論モデルを使用する。現在ではDeepSeek-R1は無料であった。
Azure AI Foundry とは、Microsoftが提供するAI開発プラットフォーム。生成AI、Copilot 構築・評価・展開するためのツールとサービスを一元的に提供。


・自分のPCにダウンロードして ローカルLLM (6710億パラメータ)



AIはコモディティ化するのか?

価格競争に巻き込まれる可能性はあるのか?要するにA社サービスのAIとB社サービスのAIは同じになるのか?もしそうなったら価格競争になる。
コモディティ化された商品は価格競争になるのは歴史が証明している。
あるいはどこかが独占するのか、あるいはサービスごとに特徴のあるサービスとなるのか?
o1という当時トップレベルだった性能と同等の DeepSeekR1 がオープンソースとなり、LLMとしてダウンロード可能となった。o3との時差は今は5か月。

コモディティ化されると考える。今回のようにオープンソース化されると誰でもローカルでできることになる。サービスが似通ってくるであろう。
ただしOpenAIなど時差的にトップを走っていく可能性がある。オープンソースが追いつくのか。この時差を待てるならコモディティ化となるだろう。

今後も無名のスタートアップがよいAIをオープンソースで出してくる可能性もある。それによりAIのコモディティ化が加速される可能性はある。

日本のDeepSeekの仕組み

・賢いモデルに対してルール報酬で強化学習
・蒸留という方式で大きいモデルを小さくする

ルール報酬で強化学習は業界ごとにカスタマイズする余地がある。(人間が入って学習するなど)

NVIDIA の GPU 需要は減少するのか?

需要が減ることはない。

ただし学習用のNVIDIA のGPU需要は減る可能性がある。

なぜなら"学習"と"推論"という2フェーズがある。

DeepSeekの学習は強化学習、ルールベースで学習(結果によってgood / bad 評価) )している。今後は推論フェーズが重要になるのではないか?
"Apple シリコン"、"Groq"は推論に向いている。

DeepSeek登場により、推論フェーズが重要なのではないかと考える。なぜなら、DeepSeekがこれほど安いコストで学習フェーズを構築したからだ。
ただ短期的にはGPUは必要。

DeepSeek vs OpenAI

DeepSeek API は明らかに安い。あれだけのモデルを赤字でサービス提供している可能性が高い。知名度アップ、宣伝で行ているのか?

本当に安くDeepSheekを作れたのか?

600万ドルといってもこれが何を意味するのか不明。開発には「リソース」「データーセンター代」「人件費」「開発費」「電気代」などがある。また学習も何度も失敗する。もしかしたら600万ドルは成功したときの電気代だけかもしれない。また他のLLMを学習に使用したのかもしれない。

ただ効率的革新的であることには変わりないので、これで価値が落ちるということは全くない。

CEOが若くて優秀。優秀な人材で少ないリソースでのアルゴリズムを開発したのだろう。