Локальные ИИ-модели: как запустить Ollama на своём компьютере
Полное руководство по Ollama — инструменту для запуска локальных ИИ-моделей. Установка, настройка, лучшие модели, интеграция с Open WebUI. Запустите DeepSeek, Llama и Mistral без интернета и без подписок.
Представьте ChatGPT, который работает полностью на вашем компьютере: без интернета, без подписок, без передачи данных на чужие серверы. Именно это даёт Ollama — инструмент, который сделал запуск локальных языковых моделей настолько простым, что с ним справляется любой, кто умеет пользоваться терминалом.
В этом руководстве — всё, что нужно знать: от установки до тонкой настройки моделей.
Что такое Ollama и зачем запускать ИИ локально
Ollama — это инструмент с открытым исходным кодом, который позволяет скачивать, управлять и запускать большие языковые модели (LLM) прямо на вашем компьютере. По сути, это пакетный менеджер для ИИ-моделей — примерно как apt для пакетов в Ubuntu или brew для macOS.
Одна команда в терминале — и у вас работает DeepSeek, Llama, Mistral или десятки других моделей.
Почему локальный ИИ, а не облачный?
Есть несколько весомых причин запускать модели локально, а не через ChatGPT или Claude.
Конфиденциальность. Всё, что вы пишете в облачный ИИ, уходит на серверы компании. Условия использования OpenAI, Anthropic и Google позволяют им использовать данные для улучшения моделей (если не отключить эту опцию). Для корпоративных документов, медицинских данных, юридических материалов или просто личной переписки — это неприемлемо. Локальная модель не передаёт ничего никуда.
Независимость. Облачные сервисы могут уйти с рынка, изменить ценообразование, ввести цензуру, заблокировать аккаунт. Локальная модель лежит у вас на диске и работает вне зависимости от решений компаний.
Стоимость. ChatGPT Plus — $20 в месяц. API GPT-4o — от $2.50 за миллион токенов. При активном использовании счета за API могут составлять сотни долларов. Ollama — бесплатно навсегда. Вы платите только железом и электричеством.
Скорость (при хорошем железе). Мощная локальная GPU генерирует токены быстрее, чем облачный API под нагрузкой. Никаких задержек сети, никакой очереди запросов.
Кастомизация. Хотите дообучить модель на собственных данных? Поменять системный промпт навсегда? Встроить ИИ в своё приложение без лимитов на запросы? Локальная модель даёт полный контроль.
Работа офлайн. В самолёте, на даче, в стране с нестабильным интернетом — локальный ИИ работает всегда.
Системные требования
Прежде чем устанавливать Ollama, честно оцените своё железо. От этого зависит, какие модели вы сможете запускать.
Оперативная память (RAM) — главный параметр
Языковые модели загружаются целиком в память. Размер модели в RAM примерно соответствует размеру файла модели на диске (в формате GGUF с квантизацией).
| Доступная RAM | Что можно запустить |
|---|---|
| 8 ГБ | Модели до 7B параметров (7B, 3B, 1B) |
| 16 ГБ | Модели до 13–14B параметров |
| 32 ГБ | Модели до 30–34B параметров |
| 64 ГБ | Модели до 70B параметров |
| 128+ ГБ | Модели 100B+ (Llama 3.1 405B и подобные) |
Цифры приблизительные и зависят от квантизации. Модель 7B в формате Q4_K_M занимает около 4.1 ГБ, в Q8_0 — около 7.7 ГБ.
GPU — для скорости
Без GPU модель работает на CPU — медленно (2–5 токенов в секунду для 7B на обычном ноутбуке). С GPU — в 10–50 раз быстрее.
NVIDIA GPU — лучший выбор. Ollama использует CUDA, поддерживается любая карта начиная с GTX 10xx серии. Для комфортной работы нужно минимум 8 ГБ VRAM под 7B-модели.
AMD GPU — поддерживается через ROCm на Linux. Менее стабильно, чем NVIDIA, но работает.
Apple Silicon (M1/M2/M3/M4) — отличный выбор. Унифицированная память позволяет эффективно использовать большие модели. M2 Pro с 32 ГБ памяти уверенно тянет 34B-модели.
Встроенная графика (Intel/AMD iGPU) — практически не даёт ускорения. Работаете на CPU.
Место на диске
Модели занимают место:
- 3B модель — около 2 ГБ
- 7B модель — 4–8 ГБ
- 13B модель — 8–16 ГБ
- 34B модель — 20–40 ГБ
- 70B модель — 40–80 ГБ
Рекомендую держать под модели отдельный SSD с запасом минимум 50 ГБ.
Установка Ollama
Ollama поддерживает macOS, Linux и Windows. Установка везде занимает меньше минуты.
macOS
Скачайте установщик с официального сайта ollama.com и запустите .dmg, или через Homebrew:
brew install ollama
После установки Ollama появится в статус-баре как фоновый сервис. Он запускается автоматически при старте системы.
Linux
Официальный скрипт установки:
curl -fsSL https://ollama.com/install.sh | sh
Скрипт автоматически определяет вашу систему, устанавливает нужные зависимости и настраивает systemd-сервис. После установки Ollama работает как демон и доступен по адресу http://localhost:11434.
Проверьте статус сервиса:
sudo systemctl status ollama
Если нужно запустить вручную:
sudo systemctl start ollama
Windows
Скачайте установщик OllamaSetup.exe с ollama.com и запустите. Ollama установится как системный сервис и будет доступен в трее.
Альтернатива для тех, кто использует WSL2 (Windows Subsystem for Linux):
# В WSL2 Ubuntu
curl -fsSL https://ollama.com/install.sh | sh
При наличии NVIDIA GPU убедитесь, что установлены актуальные драйверы и CUDA toolkit.
Проверка установки
После установки откройте терминал и выполните:
ollama --version
Должна появиться версия, например: ollama version is 0.6.x
Первый запуск — скачиваем и запускаем модель
Самое интересное. Одна команда скачает модель и сразу запустит интерактивный чат:
ollama run llama3.2
Ollama скачает модель Llama 3.2 (3B, около 2 ГБ) и откроет чат прямо в терминале:
pulling manifest
pulling dde5aa3fc5ff... 100% ▕████████████████▏ 2.0 GB
pulling 966de95ca8a6... 100% ▕████████████████▏ 1.4 KB
verifying sha256 digest
writing manifest
success
>>> Send a message (/? for help)
Теперь вы можете общаться с моделью как с обычным чат-ботом. Для выхода — /bye или Ctrl+D.
Запуск DeepSeek локально
DeepSeek R1 доступен в нескольких размерах. Начните с 7B:
# DeepSeek R1 7B — рекомендуется для 8+ ГБ RAM
ollama run deepseek-r1:7b
# DeepSeek R1 14B — для 16+ ГБ RAM
ollama run deepseek-r1:14b
# DeepSeek R1 32B — для 32+ ГБ RAM
ollama run deepseek-r1:32b
# DeepSeek R1 70B — для 64+ ГБ RAM
ollama run deepseek-r1:70b
Модель скачается один раз и сохранится локально. Последующие запуски — мгновенные.
DeepSeek R1 покажет процесс «размышления» перед ответом — это нормально и является фичей модели, а не багом.
Раздельные команды — скачать и запустить
Если хотите сначала скачать модель, а запустить позже:
# Только скачать (удобно для медленного интернета — можно скачать ночью)
ollama pull deepseek-r1:7b
# Запустить уже скачанную модель
ollama run deepseek-r1:7b
Какие модели доступны в Ollama
На момент написания статьи в библиотеке Ollama доступно более 100 моделей. Вот самые важные категории.
Флагманские универсальные модели
Llama 3.3 (Meta) Актуальное поколение открытых моделей от Meta. Llama 3.3 70B по качеству вплотную приближается к GPT-4 при значительно меньших требованиях к ресурсам, чем предыдущие 70B-модели.
ollama run llama3.3 # 70B — для мощных машин
ollama run llama3.2 # 3B — для слабого железа
ollama run llama3.2:1b # 1B — работает даже на Raspberry Pi
Mistral и Mixtral Французские модели с отличным соотношением качество/размер. Mistral 7B — один из лучших вариантов для машин с 8 ГБ RAM.
ollama run mistral # 7B
ollama run mixtral # 8x7B MoE — качество уровня 40B при затратах 7B
ollama run mistral-large # 123B — для серьёзного железа
Gemma 3 (Google) Компактные, но мощные модели от Google. Gemma 3 4B — впечатляющее качество для своего размера, хорошо работает на ноутбуках.
ollama run gemma3 # 4B по умолчанию
ollama run gemma3:12b # 12B — отличный баланс
ollama run gemma3:27b # 27B — почти флагманское качество
Phi-4 (Microsoft) Серия моделей от Microsoft с упором на рассуждение при компактных размерах. Phi-4-mini работает даже на слабом железе.
ollama run phi4 # 14B
ollama run phi4-mini # 3.8B — быстро, хорошее качество
Qwen3 (Alibaba) Китайские модели с отличной поддержкой русского и других не-английских языков. Qwen 2.5 72B конкурирует с лучшими западными моделями.
ollama run qwen3 # 8B по умолчанию
ollama run qwen3:14b
ollama run qwen3:32b
ollama run qwen2.5:72b # Флагман — для мощных машин
Специализированные модели для кода
Qwen2.5-Coder Лучший вариант для программирования среди доступных open-source моделей. Поддерживает 80+ языков программирования.
ollama run qwen2.5-coder:7b # Быстрый, для повседневного кода
ollama run qwen2.5-coder:32b # Флагманский, для сложных задач
DeepSeek-Coder-V2 Специализированная кодовая модель от DeepSeek с архитектурой MoE.
ollama run deepseek-coder-v2
CodeLlama Классика от Meta для работы с кодом, хорошо работает с большинством популярных языков.
ollama run codellama:7b
ollama run codellama:34b
Модели с поддержкой изображений (мультимодальные)
Ряд моделей умеет анализировать изображения — это называется vision capability.
# Llava — классическая мультимодальная модель
ollama run llava:7b
ollama run llava:34b
# Llama 3.2 Vision
ollama run llama3.2-vision
# Запуск с передачей изображения
ollama run llava "Что изображено на этой картинке?" --image /path/to/image.jpg
Модели для работы с русским языком
Русский язык большинство моделей понимает, но некоторые справляются лучше:
- Qwen2.5 / Qwen3 — отличный русский, обучены на многоязычных данных
- Llama 3.x — хороший русский на крупных версиях (70B)
- Mistral — приемлемый русский
- DeepSeek — хороший русский, особенно на версиях 14B+
Специализированных русскоязычных моделей в Ollama пока немного, но Qwen2.5 72B — достойная замена облачным сервисам для русскоязычных задач.
Как выбрать модель под своё железо
Практическое руководство без лишней теории.
MacBook / iMac на Apple Silicon
Apple Silicon — лучшее железо для локального ИИ среди ноутбуков. Унифицированная память используется как для CPU, так и для GPU, что позволяет эффективно запускать большие модели.
M1 / M2 8 ГБ → llama3.2:3b, phi4-mini, gemma3:4b
M1 / M2 16 ГБ → mistral:7b, llama3.2:3b, deepseek-r1:7b, gemma3:12b
M2 Pro 32 ГБ → deepseek-r1:14b, gemma3:27b, qwen3:14b
M3 Max 64 ГБ → deepseek-r1:32b, qwen2.5:72b, llama3.3:70b (медленно)
M3 Ultra 192 ГБ → deepseek-r1:70b, llama3.3:70b — полный комфорт
Windows / Linux с NVIDIA GPU
RTX 3060 12 ГБ VRAM → deepseek-r1:7b, mistral:7b (в VRAM)
RTX 3090 24 ГБ VRAM → deepseek-r1:14b, gemma3:27b (в VRAM)
RTX 4090 24 ГБ VRAM → то же, но быстрее
2x RTX 3090 48 ГБ → deepseek-r1:32b (в VRAM)
A100 80 ГБ → deepseek-r1:70b (в VRAM)
Если модель не помещается в VRAM, Ollama автоматически выгружает часть слоёв в RAM — это работает, но медленнее.
Бюджетный ноутбук (8–16 ГБ RAM, нет дискретной GPU)
На CPU работает медленно, но работает. Ожидайте 2–8 токенов в секунду.
# Самые быстрые варианты на CPU
ollama run llama3.2:1b # Очень быстро, базовое качество
ollama run phi4-mini # Быстро, хорошее качество
ollama run gemma3:4b # Хороший баланс
Open WebUI — красивый интерфейс для локального ИИ
Терминальный интерфейс Ollama удобен для разработчиков, но не для повседневного использования. Open WebUI — это веб-интерфейс, который выглядит как ChatGPT, но работает поверх вашего локального Ollama.
Установка через Docker
Самый простой способ — Docker:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
После запуска откройте браузер: http://localhost:3000
При первом входе создайте аккаунт администратора. Open WebUI автоматически обнаружит запущенный Ollama и покажет все скачанные модели.
Установка через pip
Если Docker не установлен:
pip install open-webui
open-webui serve
Что умеет Open WebUI
- Переключение между моделями в одном чате
- История диалогов с поиском
- Загрузка файлов (PDF, Word, таблицы) для анализа
- Системные промпты и персонажи
- Голосовой ввод и озвучка ответов
- RAG (Retrieval-Augmented Generation) — поиск по своей базе знаний
- Командная работа — несколько пользователей на одном сервере
- Интеграция с внешними API (можно добавить Claude или GPT для сравнения)
По функциональности Open WebUI уже превосходит интерфейс ChatGPT в ряде аспектов — и всё это бесплатно на вашем железе.
Ollama API — интеграция в свои приложения
Ollama поднимает REST API на http://localhost:11434. API совместим с форматом OpenAI, что позволяет подключать любые инструменты, написанные под OpenAI, без изменения кода — достаточно поменять базовый URL.
Простой запрос через curl
curl http://localhost:11434/api/chat -H "Content-Type: application/json" -d '{
"model": "deepseek-r1:7b",
"messages": [
{"role": "user", "content": "Объясни, что такое рекурсия, простыми словами"}
]
}'
Python — через официальную библиотеку ollama
pip install ollama
import ollama
# Простой запрос
response = ollama.chat(
model='deepseek-r1:7b',
messages=[{
'role': 'user',
'content': 'Напиши функцию на Python для сортировки пузырьком'
}]
)
print(response['message']['content'])
# Стриминг ответа (токен за токеном)
stream = ollama.chat(
model='llama3.2',
messages=[{'role': 'user', 'content': 'Расскажи историю про робота'}],
stream=True
)
for chunk in stream:
print(chunk['message']['content'], end='', flush=True)
Python — через OpenAI SDK (если уже используете его)
from openai import OpenAI
# Меняем только base_url — всё остальное как с ChatGPT
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama' # Любая строка — API-ключ не нужен
)
response = client.chat.completions.create(
model='deepseek-r1:7b',
messages=[
{'role': 'system', 'content': 'Ты полезный ассистент.'},
{'role': 'user', 'content': 'Что такое контекстное окно в LLM?'}
]
)
print(response.choices[0].message.content)
JavaScript / Node.js
import ollama from 'ollama'
// Стриминговый ответ
const stream = await ollama.chat({
model: 'llama3.2',
messages: [{ role: 'user', content: 'Привет! Как дела?' }],
stream: true,
})
for await (const part of stream) {
process.stdout.write(part.message.content)
}
Генерация эмбеддингов
Ollama умеет генерировать векторные эмбеддинги — это нужно для семантического поиска, RAG и классификации текстов:
import ollama
embeddings = ollama.embeddings(
model='nomic-embed-text',
prompt='Ollama — лучший инструмент для локального ИИ'
)
print(embeddings['embedding']) # Вектор из 768 чисел
Рекомендуемые модели для эмбеддингов: nomic-embed-text, mxbai-embed-large, all-minilm.
Полезные команды Ollama
Шпаргалка по основным командам.
# Список скачанных моделей
ollama list
# Информация о конкретной модели
ollama show deepseek-r1:7b
# Скачать модель (без запуска)
ollama pull mistral
# Запустить модель в интерактивном режиме
ollama run llama3.2
# Запустить с системным промптом
ollama run llama3.2 --system "Ты опытный Python-разработчик. Отвечай кратко и по делу."
# Запустить мультимодальную модель с изображением
ollama run llava "Что на картинке?" --image screenshot.png
# Удалить модель (освободить место на диске)
ollama rm mistral:7b
# Скопировать модель под новым именем
ollama cp llama3.2 my-custom-llama
# Посмотреть запущенные модели (что сейчас в памяти)
ollama ps
# Отправить запрос напрямую (без интерактивного режима)
echo "Что такое Docker?" | ollama run llama3.2
# Запустить сервер вручную (если не работает как сервис)
ollama serve
Параметры при запуске
# Изменить количество используемых потоков CPU
OLLAMA_NUM_PARALLEL=4 ollama serve
# Указать, сколько GPU использовать
OLLAMA_NUM_GPU=1 ollama run deepseek-r1:7b
# Задать размер контекстного окна
ollama run llama3.2 --num-ctx 8192
# Выгрузить модель из памяти через N секунд бездействия (по умолчанию 5 мин)
OLLAMA_KEEP_ALIVE=10m ollama serve
# Хранить модели в другом месте
OLLAMA_MODELS=/data/ollama/models ollama serve
Тонкая настройка — Modelfile
Modelfile — это конфигурационный файл, который позволяет создать собственную версию модели с нужными настройками: системным промптом, температурой, размером контекста и другими параметрами.
Создание кастомной модели
Создайте файл Modelfile:
# Базовая модель
FROM deepseek-r1:7b
# Системный промпт — задаёт роль и поведение
SYSTEM """
Ты опытный технический редактор и SEO-специалист.
Пишешь на русском языке. Стиль — профессиональный, но доступный.
Всегда предлагаешь конкретные улучшения, а не общие советы.
При анализе текста указываешь конкретные строки и примеры.
"""
# Температура (0.0 = детерминированно, 1.0 = творчески)
PARAMETER temperature 0.7
# Размер контекстного окна (в токенах)
PARAMETER num_ctx 16384
# Top-p семплирование
PARAMETER top_p 0.9
# Штраф за повторения
PARAMETER repeat_penalty 1.1
Создайте модель из Modelfile:
ollama create seo-assistant -f Modelfile
Запустите:
ollama run seo-assistant
Теперь у вас есть персонализированный ассистент, который при каждом запуске уже «знает» свою роль — не нужно каждый раз объяснять контекст.
Пример Modelfile для кодинга
FROM qwen2.5-coder:7b
SYSTEM """
Ты senior Python-разработчик с 10-летним опытом.
Пишешь чистый, читаемый код согласно PEP 8.
Всегда добавляешь docstrings и type hints.
Объясняешь нетривиальные решения в комментариях.
Предупреждаешь об edge cases и потенциальных ошибках.
"""
PARAMETER temperature 0.2
PARAMETER num_ctx 32768
Шаблон для мультиходового диалога
Если нужно задать конкретный формат разговора:
FROM llama3.2
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
Частые проблемы и их решения
Модель работает очень медленно
Причина: Модель не помещается в VRAM и работает на CPU или через системную RAM.
Решение: Проверьте, сколько памяти использует модель:
ollama ps
Колонка SIZE покажет объём занятой памяти. Если модель не входит в VRAM — переключитесь на меньшую версию или уменьшите квантизацию:
# Q4 вместо Q8 — в два раза меньше памяти, небольшая потеря качества
ollama pull deepseek-r1:7b-q4_K_M
Ollama не видит GPU
На Linux с NVIDIA:
# Проверить, видит ли система GPU
nvidia-smi
# Проверить, установлен ли CUDA
nvcc --version
# Переустановить ollama после обновления драйверов
curl -fsSL https://ollama.com/install.sh | sh
На Windows: Убедитесь, что установлены актуальные драйверы NVIDIA (не только GeForce Experience — именно studio или game ready drivers с сайта nvidia.com).
Ошибка "model not found"
# Убедитесь, что модель скачана
ollama list
# Проверьте точное название тега
ollama pull deepseek-r1:7b # не "deepseek-r1" без тега
Модель отвечает на английском, хотя спрашиваете по-русски
Добавьте в системный промпт явное указание:
ollama run llama3.2 --system "Всегда отвечай на русском языке, независимо от языка вопроса."
Или создайте Modelfile с этим системным промптом как описано выше.
Недостаточно места на диске
По умолчанию Ollama хранит модели в:
- macOS/Linux:
~/.ollama/models - Windows:
C:Users.ollamamodels
Чтобы перенести на другой диск:
# Linux/macOS — задать через переменную окружения
export OLLAMA_MODELS=/path/to/big/disk/ollama-models
ollama serve
# Или добавить в ~/.bashrc / ~/.zshrc для постоянного эффекта
echo 'export OLLAMA_MODELS=/path/to/big/disk/ollama-models' >> ~/.zshrc
Ollama не запускается на порту 11434
# Проверить, что занимает порт
lsof -i :11434
# Задать другой порт
OLLAMA_HOST=0.0.0.0:11435 ollama serve
Высокое потребление RAM в простое
По умолчанию Ollama держит модель в памяти 5 минут после последнего запроса. Чтобы выгружать немедленно:
OLLAMA_KEEP_ALIVE=0 ollama serve
Или выгрузить конкретную модель вручную:
curl -X POST http://localhost:11434/api/generate -d '{"model": "deepseek-r1:7b", "keep_alive": 0}'
Вывод
Ollama превратила запуск локальных ИИ-моделей из задачи для системных администраторов в простую операцию для любого пользователя. Одна команда — и у вас работает DeepSeek, Llama или Mistral без подписок, без передачи данных и без зависимости от облачных сервисов.
Если вы только начинаете — установите Ollama, запустите ollama run deepseek-r1:7b и поставьте Open WebUI для удобного интерфейса. Этого достаточно, чтобы получить полноценный локальный аналог ChatGPT.
Если нужна интеграция в приложение — API Ollama совместим с OpenAI SDK, что делает переход практически бесшовным.
Локальный ИИ — это не компромисс между качеством и конфиденциальностью. Современные open-source модели вплотную подошли к уровню закрытых флагманов, а в ряде задач — обошли их. Разница всё больше не в качестве, а в удобстве экосистемы.
Источники
- Ollama официальный сайт и документация — установка, команды, API
- Ollama GitHub репозиторий — открытый исходный код
- Open WebUI GitHub — установка и документация интерфейса
- Ollama библиотека моделей — полный список доступных моделей
- DeepSeek технический отчёт R1 — архитектура и возможности
- Meta Llama 3 документация — официальная документация Llama 3.x
- Mistral AI документация — модели Mistral и Mixtral
- Hugging Face GGUF форматы — форматы квантизации моделей
- LMSYS Chatbot Arena — актуальные бенчмарки открытых моделей
- Ollama Python библиотека — SDK для Python
Статья актуальна на апрель 2026 года. Версии моделей и команды могут меняться — сверяйтесь с официальной документацией Ollama.
Читать также
Искусственный интеллект в IT: как ИИ меняет разработку программного обеспечения
Обзор ИИ-инструментов для разработчиков: GitHub Copilot, Cursor, Claude Code. Как искусственный интеллект меняет IT-индустрию в 2026 году.
Искусственный интеллектИИ для бизнеса: как компании внедряют искусственный интеллект и что это даёт
Практическое руководство по внедрению ИИ в бизнес: сценарии применения, пошаговый подход, риски и реальные результаты в 2026 году.
Искусственный интеллектChatGPT для бизнеса: как использовать, реальные сценарии и ограничения
Практическое руководство по использованию ChatGPT в бизнесе: сценарии, промпты, тарифы и ограничения в 2026 году.