Выбор vector DB определяет latency, стоимость и операционную сложность RAG-системы на годы вперёд. Pinecone (managed) -- нулевой ops, но vendor lock-in и ~$5K/мес на 100M векторов. Qdrant (Rust, open-source) -- p50 8ms и 1500 QPS, лучший по throughput. Milvus масштабируется до 10B+ векторов с GPU. pgvector -- бесплатный, но p50 50ms и нет hybrid search из коробки. Ошибка выбора на старте -- это миграция миллионов векторов позже.
In 2026, all major vector databases (Pinecone, Weaviate, Qdrant) have rolled out major search speed and live scale-up improvements. Pinecone leads on simplicity, Qdrant on open-source flexibility, Weaviate on hybrid search, and Milvus on scale. pgvector is the budget option for existing Postgres users.
"Pinecone vs Qdrant: когда что?" -- Pinecone: zero ops, стартапы без DevOps, быстрый MVP. Qdrant: нужен контроль (self-hosted), latency <10ms, budget-conscious (open-source). Pinecone p50=20ms vs Qdrant p50=8ms.
"Почему pgvector не подходит для серьёзного RAG?" -- p50 latency 50ms (в 5x хуже Qdrant), нет нативного hybrid search, recall деградирует при >10M векторов без тюнинга, нет GPU acceleration. Подходит только если уже есть PostgreSQL и <1M векторов.
"HNSW vs IVF: trade-offs?" -- HNSW: recall 95-99%, latency <5ms, но высокое потребление RAM (полный граф в памяти). IVF: recall 90-95%, медленнее build, но меньше RAM. DiskANN: recall 90-95% с disk-based storage для >1B векторов.
System Design:
"100M векторов, 1536 dims, <15ms latency, бюджет \(3K/мес -- какую БД выберете?" -- Qdrant Cloud (~\)2.5K/мес) или self-hosted Qdrant ($1K infra). Pinecone $5K -- выходит за бюджет. Milvus потребует GPU infra. INT8 quantization для 4x memory reduction с <1% recall loss.
Частые ошибки
"Выбираю vector DB по benchmark latency" -- Benchmarks измеряют на идеальных условиях. В production: сетевой overhead, filtering, metadata joins, concurrent queries. Реальная latency в 2-5x выше benchmark. Всегда тестируй на своих данных.
"Больше dimensions = лучше качество" -- OpenAI text-embedding-3-large (3072 dims) лишь на 1-2% лучше text-embedding-3-small (1536 dims) по MTEB, но потребляет 2x storage и 2x latency. Matryoshka embeddings позволяют уменьшить dims без retraining.
"Managed = дорого, self-hosted = дёшево" -- Self-hosted Qdrant/Milvus требует DevOps: мониторинг, бэкапы, scaling, upgrades. TCO self-hosted часто = managed + $2-3K/мес на ops engineer time.