目次
| モデル規模 | 必要メモリ目安 | 用途 |
|---|---|---|
| 1B〜3B | 2〜4GB | 軽量チャット、組み込み |
| 7B〜8B | 8〜10GB | 日常的なチャット、コーディング補助 |
| 13B〜14B | 16〜20GB | 本格的な業務利用 |
| 70B〜 | 40GB以上 | 高精度を求める専門用途 |
中国アリババ社のLLMであるQwenの最新の小型モデル
ほとんどの人にとって、Qwen3.5 4B/9Bを一つ入れておけばすべて事足りるぐらいの性能です。
性能重視なら9B、よりコンテキストサイズを大きく取りたい場合は4Bです。
パラメータ数:9B
世代:Qwen3.5(最新)
性能:4B より大幅に賢い。14B に近い。
必要メモリ:VRAM 8〜12GB 程度
速度:中速
用途:コード生成、推論、文章生成のバランスが良い
パラメータ数:4B
世代:Qwen3.5(最新)
性能:軽量モデルとしては非常に優秀
必要メモリ:VRAM 4〜6GB 程度
速度:速い
用途:チャット、軽いコード補助、VSCode での普段使い
# 4B版ダウンロード ollama pull qwen3.5:4b # 9B版ダウンロード(デフォルト) ollama pull qwen3.5
GLM(Zhipu AI/Z.ai社)は中国の清華大学発のAIスタートアップ企業が開発したLLM
最新版はGLM 5ですが、小型モデルの最新版はGLM 4.7 Flashです。
AIエージェント・コーダー向けとされていますが、通常用途でも十分高性能なモデルです。
MoEなのでCPU利用でも実用的な速度で動作します。
# ダウンロード(30B版) ollama pull glm-4.7-flash
CPUでも速い・賢い
ollama run qwen2.5:7b-instruct-q4_K_M
軽量高速。とにかく速い
# ダウンロード ollama pull qwen3.5:2b
Qwen2.5-32B 相当の性能を半分以下の VRAM で動かせるので、コストパフォーマンスの面でも優秀です。
コーディング(16GB)
汎用チャット(日本語)
パラメータ数:14B
世代:Qwen3(旧)
性能:高いが、Qwen3.5 には劣る
必要メモリ:VRAM 16GB〜(量子化で 8GB〜)
速度:遅め
用途:高度な推論、長文生成、プログラミング補助
| DeepSeek-R1 | CatGPT o1レベル |
| DeepSeek-V3.2 | 日常的な利用を想定したバランス型モデルで、推論性能と出力効率のバランスを重視 GPT-5と同等レベルの性能 |
| DeepSeek-V3.2-Speciale | 推論能力を最大化した特別バージョンで、Gemini-3.0-Proに匹敵 |
一般向けサイト
ITエンジニア向けサイト
英語サイト
Portfolio
Copyright (c) 2026 インフラエンジニアのPC環境 All Rights Reserved.