Spotify gợi ý một bài hát bạn chưa từng nghe và bạn yêu thích ngay lập tức. Netflix hiển thị bộ phim hoàn hảo cho tâm trạng của bạn. Google tìm đúng tài liệu bạn cần dù bạn dùng từ khác.
Tất cả đều được vận hành bởi Embeddings và Vector Databases.
Đây là Hướng dẫn chuyên sâu về hạ tầng vận hành AI hiện đại — từ khái niệm semantic search đến lựa chọn vector DB cho production.
Phần 1: Nền tảng (Mô hình tư duy)
Tìm kiếm truyền thống = Tìm từ chính xác
Tìm kiếm database truyền thống là từ vựng — nó tìm kiếm khớp ký tự chính xác.
| |
Cái này tìm “hoàn tiền” nhưng bỏ lỡ: “đảm bảo hoàn tiền”, “điều khoản hủy bỏ”, hoặc “cách trả hàng” — tất cả đều có ý nghĩa tương tự.
Embeddings = Bản đồ Ngữ nghĩa
Embedding là bản dịch toán học của ý nghĩa thành tọa độ trong không gian nhiều chiều (thường 768–3072 chiều).
Hãy nghĩ như một tấm bản đồ (đơn giản hóa sang 2 chiều):
| |
Những từ/câu tương đồng về ngữ nghĩa thì gần nhau trên bản đồ. Query “tiền lại” sẽ rơi gần “hoàn tiền” — dù các từ khác nhau.
Điểm mấu chốt: Vector DB không tìm kiếm từ. Nó tìm kiếm tọa độ gần nhau trên bản đồ ngữ nghĩa.
Phần 2: Điều tra (Cosine Similarity)
Cách phổ biến nhất để đo “khoảng cách gần” giữa hai vector là cosine similarity — góc giữa chúng.
| |
Phần 3: Chẩn đoán (Chọn Vector DB nào?)
| Database | Tốt nhất cho | Tính năng nổi bật |
|---|---|---|
| pgvector | Scale vừa, đã dùng Postgres | Không cần infra thêm. SQL + vector cùng chỗ. |
| Chroma | Prototype, dev local | Dễ nhất để bắt đầu. Chế độ in-memory. |
| Weaviate | Hybrid search (keyword + semantic) | Tích hợp BM25 + vector search. |
| Qdrant | Hiệu năng cao, self-hosted | Nhanh, Rust-based, filter tốt. |
| Pinecone | Managed, serverless, scale lớn | Zero ops. Đắt khi scale. |
| Milvus | Tỷ vector, open source | Open-source scalable nhất. |
Phần 4: Giải pháp (Sách nấu ăn Python)
pgvector (Đơn giản nhất cho Production)
| |
| |
Qdrant (Hiệu năng cao)
| |
Mô hình tư duy chốt hạ
| |
Bộ Stack của 2026:
- Embeddings (OpenAI / Sentence Transformers) → chuyển dữ liệu thành vector.
- Vector DB (pgvector / Qdrant) → lưu trữ và tìm kiếm vector.
- LLM (GPT-4o / Claude) → lý luận trên các vector được truy xuất.
Bộ stack này chính là RAG. Giờ bạn biết các mảnh ghép lại với nhau thế nào rồi.
