Chào mừng bạn đến với một bài phân tích GitHub mới! Hôm nay chúng ta sẽ tìm hiểu OpenClaw, một trợ lý AI cá nhân chạy trực tiếp trên thiết bị của bạn. Nó trả lời bạn trên mọi kênh bạn đang dùng—WhatsApp, Telegram, Slack, Discord, Google Chat, Signal, iMessage, Microsoft Teams, Matrix, Zalo, và cả WebChat—tất cả qua một gateway duy nhất trên máy local.
Nếu bạn từng mơ ước có một trợ lý kiểu Jarvis chạy trên máy của mình, không phải cloud của ai khác, thì đây chính là nó.
Phần 1: Nền Tảng (Mental Model)
Hãy nghĩ về các trợ lý AI trên cloud (ChatGPT, Google Gemini, v.v.) như thuê nhà trọ. Chủ nhà sở hữu toàn bộ, đặt luật lệ, và có thể xem đồ đạc của bạn bất cứ lúc nào.
OpenClaw giống như xây nhà riêng. Bạn sở hữu nền móng, chọn nội thất, và quyết định ai được vào. “Ngôi nhà” ở đây là một gateway service chạy trên máy bạn, và các “phòng” chính là các kênh nhắn tin.
Mental Model: OpenClaw = Gateway WebSocket Local-First + Bộ Chuyển Đổi Đa Kênh + AI Agent Runtime Dạng Plugin.
Gateway là bộ não. Nó không quan tâm tin nhắn đến từ WhatsApp hay Discord—nó chuẩn hoá mọi thứ, chuyển cho AI agent (Claude, GPT, hoặc model bất kỳ bạn chọn), rồi gửi phản hồi ngược lại qua cùng kênh đó.
Phần 2: Khám Phá Kiến Trúc
Bên trong, OpenClaw là một TypeScript monorepo chạy trên Node.js ≥22, được thiết kế như một control plane dựa trên WebSocket. Đây là các trụ cột kiến trúc chính:
Gateway (Control Plane)
Một WebSocket server duy nhất (ws://127.0.0.1:18789) quản lý:
- Sessions: ngữ cảnh hội thoại riêng biệt cho mỗi user/group/channel
- Channels: 14+ adapter (Baileys cho WhatsApp, grammY cho Telegram, Bolt cho Slack, discord.js cho Discord, signal-cli cho Signal, v.v.)
- Tools: điều khiển trình duyệt, canvas, cron jobs, webhooks, và nhiều hơn
- Events: hiện diện real-time, typing indicators, và theo dõi lượng dùng
Agent Runtime (Pi Agent)
OpenClaw sử dụng Pi agent ở chế độ RPC với tool streaming và block streaming đầy đủ:
- Model failover: xoay vòng giữa OAuth subscriptions (Anthropic Pro/Max, OpenAI ChatGPT) và API keys với fallback tự động
- Session pruning: quản lý context thông minh để giữ hội thoại luôn mới
- Multi-agent routing: route các kênh/tài khoản khác nhau đến các agent riêng biệt với workspace riêng
Channel Adapters
Mỗi nền tảng nhắn tin có adapter riêng:
| |
Ứng Dụng Đi Kèm & Nodes
- macOS app: điều khiển từ menu bar, Voice Wake, push-to-talk, WebChat
- iOS node: Canvas, Voice Wake, camera, ghi màn hình
- Android node: Canvas, camera, chụp màn hình, SMS tuỳ chọn
Các thiết bị kết nối như “nodes” qua gateway WebSocket, cho phép thực hiện các tác vụ local như system.run, camera.snap, hoặc screen.record trong khi xử lý AI nặng vẫn nằm trên gateway host.
Phần 3: Giá Trị Thực Tế
Vậy điều này thực sự có ý nghĩa gì cho developer? Hãy xem các use-case thực tế.
Use-Case 1: AI Cá Nhân Trên Mọi Ứng Dụng
Thay vì chuyển đổi liên tục giữa ChatGPT trên trình duyệt, bot Telegram, và app Slack, bạn có một trợ lý duy nhất theo bạn khắp nơi. Gửi câu hỏi trên WhatsApp khi đi đường, tiếp tục hội thoại trên Slack khi ở công ty, và nhặt lại trên iMessage khi về nhà—tất cả dùng cùng session context.
Use-Case 2: CLI-Native Workflow
OpenClaw ưu tiên CLI. Bạn có thể tương tác với AI mà không cần mở bất kỳ app chat nào:
| |
Use-Case 3: Skills & Tự Động Hoá
OpenClaw có hệ thống skills tương tự plugin IDE. Skills nằm trong ~/.openclaw/workspace/skills/ và dùng format SKILL.md đơn giản. Còn có cả ClawHub registry nơi agent có thể tự tìm và cài skills:
| |
Use-Case 4: Cron Jobs & Webhooks
Lên lịch tác vụ định kỳ hoặc phản hồi sự kiện bên ngoài:
| |
Webhooks bên ngoài cũng có thể kích hoạt agent—kết nối nó với GitHub events, Gmail qua Pub/Sub, hoặc bất kỳ dịch vụ nào có thể POST đến một URL.
Use-Case 5: Điều Khiển Trình Duyệt
OpenClaw có thể khởi chạy và điều khiển một instance Chromium riêng qua CDP:
| |
Agent có thể duyệt web, chụp snapshot, điền form, và trích xuất dữ liệu—tất cả được điều phối qua lệnh ngôn ngữ tự nhiên.
Phần 4: Bắt Đầu Sử Dụng
Bắt đầu chỉ mất khoảng 5 phút:
- Cài đặt toàn cục:
| |
- Chạy wizard hướng dẫn:
| |
Wizard sẽ dẫn bạn qua việc thiết lập AI model (Anthropic, OpenAI, hoặc local qua Ollama), cấu hình channels, và cài gateway như background service (launchd trên macOS, systemd trên Linux).
- Khởi động gateway:
| |
- Kết nối một kênh (ví dụ Telegram):
| |
- Gửi tin nhắn thử:
| |
Để truy cập từ xa, OpenClaw tích hợp sẵn Tailscale Serve/Funnel—không cần port forwarding hay reverse proxy.
Mental Model Tổng Kết
| Khía Cạnh | AI Assistants Trên Cloud | OpenClaw |
|---|---|---|
| Quyền sở hữu dữ liệu | Server nhà cung cấp | Máy của bạn |
| Kênh | Một app cho mỗi dịch vụ | 14+ kênh, một gateway |
| Tuỳ chỉnh | Hạn chế | Toàn quyền (AGENTS.md, SOUL.md, skills) |
| Giọng nói | Theo từng app | Voice Wake + Talk Mode luôn bật |
| Tự động hoá | Zapier/IFTTT | Cron, webhooks, Gmail Pub/Sub tích hợp sẵn |
| Trình duyệt | Không có | Chromium điều khiển qua CDP |
| Chi phí | Subscription mỗi dịch vụ | API keys của bạn, luật chơi của bạn |
OpenClaw biến khái niệm “AI chatbot” từ một tập hợp rời rạc các app bị khoá vendor thành một control plane AI hợp nhất, tự host, ưu tiên quyền riêng tư. Đối với developer coi trọng quyền sở hữu và khả năng mở rộng, đây là gateway AI cá nhân toàn diện nhất hiện nay.
