2026 年 LLM Inference 服務商免費額度與定價:40+ 家分梯整理
個人專案、玩具 demo、做 RAG 原型,不想第一步就掏卡。整理 2026/05 還在運作的 40+ 家 LLM inference 服務商,按免費資源「是持續補充還是一次性」分梯,標註綁卡需求、模型清單、付費起價,數字全部從官方 pricing 頁驗證。中國原廠含智谱 GLM(永久免費)、豆包(每日 200 萬 tokens)、Kimi、百煉、Ollama 本地跑法一併收錄。
個人專案、玩具 demo、做 RAG 原型,不想第一步就掏卡。整理 2026/05 還在運作的 40+ 家 LLM inference 服務商,按免費資源「是持續補充還是一次性」分梯,標註綁卡需求、模型清單、付費起價,數字全部從官方 pricing 頁驗證。中國原廠含智谱 GLM(永久免費)、豆包(每日 200 萬 tokens)、Kimi、百煉、Ollama 本地跑法一併收錄。
在 Cloudflare Workers AI 上跑 LLM,gemma-3-12b-it 的繁體中文指令跟隨比 llama-3.1-8b-instruct 明顯更好;2026 年 Gemma 4 上線後多了 Vision、Function calling 與 256K context,視需求升級。
env.AI 這個 binding 不是只有 run()。它還掛了 toMarkdown(文件轉 Markdown)、autorag(託管 RAG)、gateway(外部 provider 代理)、models(metadata 查詢)。認識這四組方法,才能在 Workers 上把 Cloudflare 當完整的 AI 平台用。
Embedding 模型的選擇直接影響 RAG 的搜尋品質。BGE-M3 的多語言訓練、1024 維向量、同系列 Reranker,是繁中 RAG 的實用選擇。
用 Cloudflare Workers AI(gemma-3-12b-it + bge-m3)打造可動態組裝的 RAG pipeline,14 個基礎 step + 6 個 LangGraph 專屬節點,三種策略圖(Baseline / Agentic / Plan-Execute)動態切換。