ローカルAIモデルの比較

モデルサイズとメモリの目安

モデル規模	必要メモリ目安	用途
1B〜3B	2〜4GB	軽量チャット、組み込み
7B〜8B	8〜10GB	日常的なチャット、コーディング補助
13B〜14B	16〜20GB	本格的な業務利用
70B〜	40GB以上	高精度を求める専門用途

利用するモデルの選定

https://ollama.com/search

Qwen3.5 4B/9B

中国アリババ社のLLMであるQwenの最新の小型モデル
ほとんどの人にとって、Qwen3.5 4B/9Bを一つ入れておけばすべて事足りるぐらいの性能です。
性能重視なら9B、よりコンテキストサイズを大きく取りたい場合は4Bです。

Qwen3.5 9B

パラメータ数：9B
世代：Qwen3.5（最新）
性能：4B より大幅に賢い。14B に近い。
必要メモリ：VRAM 8〜12GB 程度
速度：中速
用途：コード生成、推論、文章生成のバランスが良い

Qwen3.5 4B(軽量)

パラメータ数：4B
世代：Qwen3.5（最新）
性能：軽量モデルとしては非常に優秀
必要メモリ：VRAM 4〜6GB 程度
速度：速い
用途：チャット、軽いコード補助、VSCode での普段使い

# 4B版ダウンロード
ollama pull qwen3.5:4b

# 9B版ダウンロード（デフォルト）
ollama pull qwen3.5

GLM 4.7 Flash 30B A3B MoE

GLM（Zhipu AI/Z.ai社）は中国の清華大学発のAIスタートアップ企業が開発したLLM
最新版はGLM 5ですが、小型モデルの最新版はGLM 4.7 Flashです。
AIエージェント・コーダー向けとされていますが、通常用途でも十分高性能なモデルです。

MoEなのでCPU利用でも実用的な速度で動作します。

# ダウンロード（30B版）
ollama pull glm-4.7-flash

Qwen2.5 7B instruct（PCで利用中）

CPUでも速い・賢い

ollama run qwen2.5:7b-instruct-q4_K_M

軽量モデル

Qwen3.5 4B

軽量高速。とにかく速い

Qwen3.5 2B

# ダウンロード
ollama pull qwen3.5:2b

旧世代モデル

Qwen3-14B

Qwen2.5-32B 相当の性能を半分以下の VRAM で動かせるので、コストパフォーマンスの面でも優秀です。
コーディング（16GB）
汎用チャット（日本語）

パラメータ数：14B
世代：Qwen3（旧）
性能：高いが、Qwen3.5 には劣る
必要メモリ：VRAM 16GB〜（量子化で 8GB〜）
速度：遅め
用途：高度な推論、長文生成、プログラミング補助

DeepSeek-R1	CatGPT o1レベル
DeepSeek-V3.2	日常的な利用を想定したバランス型モデルで、推論性能と出力効率のバランスを重視 GPT-5と同等レベルの性能
DeepSeek-V3.2-Speciale	推論能力を最大化した特別バージョンで、Gemini-3.0-Proに匹敵

インフラエンジニアのPC環境

サイドバー

目次

CUIソフト

今はほぼ未使用

操作を覚える必要のあるおすすめソフト

ローカルAIモデルの比較

目次

モデルサイズとメモリの目安

利用するモデルの選定

Qwen3.5 4B/9B

Qwen3.5 9B

Qwen3.5 4B(軽量)

GLM 4.7 Flash 30B A3B MoE

Qwen2.5 7B instruct（PCで利用中）

軽量モデル

Qwen3.5 4B

Qwen3.5 2B

旧世代モデル

Qwen3-14B

インフラエンジニアのPC環境

ユーザ用ツール

サイト用ツール

サイドバー

目次

CUIソフト

今はほぼ未使用

操作を覚える必要のあるおすすめソフト

ローカルAIモデルの比較

目次

モデルサイズとメモリの目安

利用するモデルの選定

Qwen3.5 4B/9B

Qwen3.5 9B

Qwen3.5 4B(軽量)

GLM 4.7 Flash 30B A3B MoE

Qwen2.5 7B instruct（PCで利用中）

軽量モデル

Qwen3.5 4B

Qwen3.5 2B

旧世代モデル

Qwen3-14B

ページ用ツール