個人專案、玩具 demo、做 RAG 原型,沒人想第一步就掏信用卡。問題是 LLM inference 服務商太多、價格頁更新太快、過去免費的可能已經砍掉,過去要錢的可能變成永久免費。這篇按 2026/05 實際驗證的免費資源性質分梯,列 40+ 家還在運作的選項,每家標註綁卡需求、主要支援模型、付費起價、以及免費 tier 的 catch。
下面數字都是直接抓官方 pricing 頁交叉比對。查不到的明說「未查到」,不為了補滿表格而瞎掰。
三梯隊怎麼分
關鍵差別是免費資源是持續補充還是一次性 / 嚴格上限:
- 第一梯隊:每日/每分鐘自動 reset 的 quota,額度大到可以日常跑開發(每天幾千~幾萬請求),服務商自家 inference 基建。拿來當主力 API。
- 第二梯隊:月度小額 credits、一次性註冊 credits、或嚴格 rate limit。玩玩、試模型、做 fallback 可以;長期當主力會撞牆。
- 第三梯隊:純付費,無持續免費 tier。重點看 per-token 價格便宜。
另外獨立兩段:完全免費(無 SLA、實驗用) 與 中國原廠(已驗證有免費 tier)。
第一梯隊:每日自動補充的 quota
Cerebras Inference
晶圓級 LPU,速度 1000–3000 tps,跟 Groq 並列「最快 + 最大方免費」第一梯隊。
- 免費額度:每模型 30 RPM、900 RPH、14,400 RPD、60K TPM、1M TPH、1M TPD(GLM-4.7 較緊:10 RPM、100 RPD)
- 不需綁卡,註冊就能拿 API key
- 熱門模型:gpt-oss-120b、Qwen3-235B-Instruct、Llama 3.1 8B、ZAI GLM-4.7
- 付費起價(Developer tier,需儲值 $10):Llama 3.1 8B $0.10/$0.10、gpt-oss-120b $0.35/$0.75、Qwen3-235B $0.60/$1.20、GLM 4.7 $2.25/$2.75
- 特色:所有主力模型 RPD 都給到 14.4K,是免費額度最一致大方的
- Catch:Llama 3.1 8B 與 Qwen3-235B-Instruct 將於 2026-05-27 deprecated
Groq
LPU 速度 500–1000 tps,開源模型線最齊、免費 tier 模型最多(含語音、moderation、agentic)。
- 免費額度(每模型不同,數字直接抓自 console.groq.com/docs/rate-limits):
llama-3.1-8b-instant:30 RPM / 14.4K RPD / 6K TPM / 500K TPDllama-3.3-70b-versatile:30 RPM / 1K RPD / 12K TPM / 100K TPDmeta-llama/llama-4-scout-17b:30 RPM / 1K RPD / 30K TPM / 500K TPDopenai/gpt-oss-120b/gpt-oss-20b:30 RPM / 1K RPD / 8K TPM / 200K TPDqwen/qwen3-32b:60 RPM / 1K RPD / 6K TPM / 500K TPD- 另有 Whisper、Llama Guard、Compound(agentic)等
- 不需綁卡
- 付費起價:Llama 3.3 70B $0.59/$0.79、gpt-oss-20b $0.075/$0.30、gpt-oss-120b $0.15/$0.60、cached input 50% off
- 特色:模型線最廣(含語音、moderation、agentic);Llama 3.1 8B 一天 14.4K 請求等同 Cerebras 額度
- Catch:重型模型 RPD 只給 1K,跑量會卡(升 Developer 才放寬)
Cloudflare Workers AI
模型清單最齊,Workers Free plan 內含。
- 免費額度:每日 10,000 Neurons(Free 與 Paid 帳號都有這個免費額度)
- 不需綁卡
- 熱門模型:Llama 3.3 70B、gpt-oss-20b/120b、Qwen3-30B、DeepSeek-R1-distill、Kimi K2.6、GLM-4.7-flash、Gemma 3
- 付費起價:$0.011 / 1,000 Neurons;Llama 3.3 70B fp8-fast $0.293/$2.253、gpt-oss-120b $0.35/$0.75、gpt-oss-20b $0.20/$0.30
- Catch:Neurons 換算下每日免費量不大(Llama 3.3 70B 約 37K input + 5K output),重型模型很快用完
Google AI Studio (Gemini API)
Gemini 3 系列原廠管道,120 萬 context 直接給。
- 免費額度:Free tier 全部免費、不綁卡(具體 RPM/RPD 在 AI Studio 介面動態顯示,官方公開頁未列數字)
- 熱門模型:Gemini 3 Pro Preview(實際模型 ID 是
gemini-3.1-pro-preview)、Gemini 3 Flash Preview、Gemini 2.5 Pro/Flash/Flash-Lite - 付費起價:Gemini 2.5 Flash-Lite $0.10/$0.40、2.5 Flash $0.30/$2.50、Gemini 3 Flash Preview $0.50/$3.00、Gemini 3 Pro Preview $2/$12(≤200K context)
- Catch:Free tier prompt 與輸出會被用於訓練模型(官方明文標示),正式專案要綁卡升 Tier 1 才會關閉
第二梯隊:月度小額 / 一次性 / 嚴格 rate limit
(a) 月度小額 credits(用完那個月就沒了)
Hugging Face Inference Providers
- Free $0.10/月、PRO $2/月、Team / Enterprise $2/seat/月
- 不綁卡(用月度 credits);零 markup,背後路由到 Cerebras / Groq / Together / Fireworks / SambaNova / Hyperbolic
- Catch:Free $0.10 極小,PRO 才開始實用
- $5/月 credits(首次請求才開始計時)
- 各 provider 公定價,BYOK 也零 markup
- Catch:$5 用完就要儲值
- Starter $30/月永久 free credits,含 100 containers + 10 GPU concurrency
- 不綁卡
- 特色:serverless GPU 跑自己的 vLLM/SGLang,按秒計費(H100 ≈ $3.95/hr)
- Catch:要自己部署模型,不是現成 token API
(b) 一次性註冊 credits
- 註冊送 $5 credits(30 天有效);credits 用完後 Free tier 仍持續(不消失)
- Free tier(無需綁卡):DeepSeek-V3.1、Llama 3.3 70B、gpt-oss-120b 各 20 RPM / 20 RPD / 200K TPD
- RDU 晶片、速度與 Groq / Cerebras 同級
- 付費:Llama 3.3 70B $0.60/$1.20、gpt-oss-120b $0.22/$0.59、DeepSeek-V3.1 $0.15/$0.75
- Catch:Developer tier(綁卡後)才放寬到 60 RPM / 12K RPD
- $25 一次性 free credits
- 自詡 90% 比 OpenAI 便宜
- 主力:Nemotron 3 Super $2.50/$5、Schematron 系列(特色小模型)、Gemma 3
- Catch:模型偏研究取向
- $10 / 7 天 trial、無需信用卡
- Jamba Mini $0.2/$0.4、Jamba Large $2/$8
- 特色:Jamba 長 context、Mamba 架構
- Catch:trial 7 天到期
- 新 workspace $30 一次性 free credits(官方 changelog 明文)
- Basic 方案 $0/月、pay-as-you-go;DeepSeek V4 $1.74/$3.48、gpt-oss-120B $0.10/$0.50、Kimi K2.6 $1.00/$3.90
- 特色:同時支援 Model API(token 計費)與 Dedicated GPU Deployment(按分鐘計費,T4 起 $0.01052/min)
- Catch:$30 用完後需加值;rate limit 低(Basic 未驗證 15 RPM / 100K TPM)
(c) 嚴格 rate limit(無大量 token quota)
:free模型 20 RPM;累積 buy <$10 → 50 RPD;buy ≥$10 → 1000 RPD- 不綁卡能用 free 模型(DeepSeek-V3、Llama 3.3 70B、Qwen3 等)
- 付費直接轉發各家成本,零 markup
- Catch:
:free模型 context 與 throughput 較差、會 fallback、prompt 可能被 provider 收集
- Copilot Free/Pro:Low 模型 15 RPM / 150 RPD;High 模型 10 RPM / 50 RPD;Embedding 15 RPM / 150 RPD;多數 8K input / 4K output 上限
- 唯一免費試 GPT-5 / o3 的合法管道(含 o4-mini、Llama、Phi、Mistral、DeepSeek-R1、Grok-3)
- Catch:限額很緊,只夠試水溫
Cohere Trial Key
- 1,000 calls/月;Chat 20 RPM、Embed 2,000 inputs/min、Rerank 10 RPM
- 不綁卡;Command A、Embed、Rerank 適合 RAG
- Catch:1,000 calls/月很快用完
(d) 額度未明但確認有 free dev tier
NVIDIA NIM (build.nvidia.com)
- 註冊送 1,000 inference credits;提供商業信箱可再申請 4,000(共 5,000),同時啟動 90 天 NVIDIA AI Enterprise 免費試用
- Credits 不過期;40 RPM(可申請提升至 200 RPM)
- 模型最齊:Nemotron-3 Super 120B、DeepSeek V4、Llama 3.3 70B、Kimi K2、Qwen3.5 122B、gpt-oss、Gemma 4、GLM-5.1
- 特色:官方 NVIDIA 優化、企業版要 DGX Cloud entitlement
- Catch:credits 用於開發 / 原型,不供生產使用
Nebius Token Factory(買下 Tavily 那家)
- 新帳號 $1 trial credit(30 天有效);需綁卡才能完成 onboarding
- 模型:gpt-oss-120B、Kimi-K2、Hermes-4-405B、GLM-4.5、Qwen3-Coder-480B、DeepSeek-R1-0528
- 特色:sub-second latency、SOC2/HIPAA、歐美 region
- Catch:$1 額度極小,基本只夠試一兩個請求
完全免費(無 SLA、實驗用)
Pollinations.ai
- 完全免費,pollen 自動補充(Seed 0.15 pollen/hr、Flower 0.4 pollen/hr)
- OpenAI-compatible API、不綁卡
- 主力:Gemma 4 26B、Seedance 2.0 video、文字 embedding
- 適合 prototype,不適合 SLA
AI Horde
- 完全免費 + 匿名可用(API key
0000000000直接打) - 社群志願者 GPU、~441 tokens/sec、NLnet/NGI0 資助
- 特色:貢獻 GPU 賺 kudos 提升優先權
- Catch:速度看當下志工數、模型清單浮動、絕不能用在生產
Ollama(本地運行)
本地模型運行器,在自己機器裝好就能跑開源 LLM;另有雲端 tier 跑消費級硬體塞不下的超大模型。
- 本地推論:完全免費不限量,自己 GPU / CPU 跑,支援離線使用
- 雲端免費 tier:1 個 concurrent 模型,GPU 時間限制(session 每 5 小時、weekly 每 7 天自動 reset)
- 不需綁卡(本地及雲端 free tier 皆是)
- 付費 Pro $20/月($200/年):3 concurrent 雲端模型、50x 更多雲端用量、私有模型上傳
- 付費 Max $100/月:10 concurrent 雲端模型
- 模型庫:Qwen3.5、Gemma 4、DeepSeek V4、Kimi K2.6、GLM-5.1、Mistral Medium 3.5、Llama 系列等數百個
- OpenAI-compatible REST API:改 base URL 即可從 OpenAI 無縫切換;支援 tool calling
- Cloud-only 模型(本地塞不下):DeepSeek V4 Pro 684B MoE、Kimi K2.6 等超大 MoE
- 隱私:本地與雲端 prompt / response 均不記錄、不訓練;雲端走 NVIDIA Cloud(US / EU / Singapore),zero data retention
- Catch:雲端 tier 限 GPU 時間而非 token 數,高並發需付費;只跑 open model,無 GPT / Claude
中國原廠(已驗證有免費 tier)
中國原廠普遍有持續性免費或大幅促銷,但 pricing 頁對境外抓取極不友善。下面是這次能直接驗到具體數字的:
iFlytek Spark Lite(訊飛)
- Spark Lite 模型永久免費不限量
- 個人認證送 20 萬 tokens、企業 100 萬 tokens
- 付費:Spark X2 ¥2-3/M、X2 Flash ¥1-2/M、Ultra ¥0.8/M、Pro ¥5/M
- 中國原廠最爽免費 tier;需實名認證
Tencent Hunyuan(騰訊混元)
- 首次開通送 100 萬 tokens 一年內有效(共享給 Hunyuan 2.0 Think/Instruct/T1/TurboS/a13b/Vision/embedding)
- Hunyuan-lite 完全免費
- 付費:HY 2.0 Think ¥3.975/¥15.9 per M、Hunyuan-T1 ¥1/¥4
- 大廠免費 tier 真實透明
Baidu 千帆
- 註冊送 ¥20 代金券(全平台無門檻、有效 1 個月)
- Qwen3.5-2B 推理免費不限量、Qwen-Image-2512 限時免費
- 模型廣場齊:DeepSeek-V4、ERNIE 5.0、ERNIE 4.5 Turbo、Kimi-K2.5、MiniMax-M2.1、Qwen3-VL-32B、GLM 5.1
- 需實名認證
Zhipu GLM(智谱 AI)
多款 Flash 模型永久免費,是中國原廠免費 tier 最大方之一。
- 永久免費模型:GLM-4-Flash(128K)、GLM-4.7-Flash(200K)、GLM-4.5-Flash、GLM-4V-Flash(多模態視覺)等系列,無 token 上限,30 concurrent 限制
- 不需綁卡;需實名認證
- 新用戶贈送:2,000 萬 tokens(GLM-4.5-Air 等值,市值 ¥58)
- 付費定價(元/百萬 tokens):GLM-5.1 ¥6/¥24、GLM-4.7 ¥2/¥8、GLM-4.5 ¥1/¥4、GLM-4.5-Air ¥0.8/¥2–8、GLM-Z1-Air(推理)¥0.5/¥0.5
- 特色:Flash 系列涵蓋文字、多模態、推理,永久免費覆蓋面最廣
- Catch:open.bigmodel.cn 境外存取不穩定;30 concurrent 開發夠用,生產建議升付費
Volcengine Doubao(字節跳動豆包)
兩層免費計畫:模型體驗額度 + 每日 200 萬 token 協作獎勵。
- 安心體驗模式:主力模型各送 50 萬 tokens(一次性),登入自動開通
- 協作獎勵計畫:每日 200 萬 tokens,自動 reset(需在 console 手動開通;涵蓋 Doubao、Qwen、DeepSeek、Kimi、MiniMax、GLM 等多家模型)
- 不需綁卡;需實名認證
- 付費定價(元/百萬 tokens):Doubao-Seed-2.0-mini ¥0.2/¥2.0、Seed-2.0-lite ¥0.6/¥3.6、Seed-2.0-pro ¥3.2/¥16(≤32K context);Doubao-1.5-lite ¥0.3/¥0.6、1.5-pro ¥0.8/¥2;DeepSeek-V3 ¥2/¥8、R1 ¥4/¥16
- Catch:協作獎勵需手動開通才生效;Seed 系列依 context 長度分梯計費,超過 32K 後跳高
Qwen DashScope(阿里雲百煉)
新用戶每模型送 100 萬 tokens、90 天有效;「7,000 萬 tokens」是行銷加總非單模型額度。
- 新用戶免費額度:約 70 個支援模型各送 100 萬 tokens,90 天有效(非永久),加總得到「7,000 萬 tokens」行銷數字
- 不需綁卡;需實名認證(阿里雲帳號)
- 付費定價(元/百萬 tokens,≤128K input):qwen-turbo ¥0.3/¥0.6(思考模式輸出 ¥3)、qwen-plus ¥0.8/¥2(思考 ¥8)、qwen-max ¥2.4/¥9.6、qwen3-max(≤32K)¥2.5/¥10;Batch API 全線 5 折
- Catch:免費額度 90 天到期即消失;pricing 頁 JS 渲染,境外需登入帳號才見完整數字
Moonshot Kimi 開放平台
無永久免費 tier,新用戶有 ¥15 體驗券;K2.6 為現行主力,K2 系列 2026-05-25 下線。
- 新用戶:¥15 免費體驗券(需中國手機號),3 個月有效,用完 API 返回 403
- K2 系列(K2 0711 / K2 0905):2026-05-25 正式下線,官方要求遷移至 K2.5 / K2.6
- 付費定價(元/百萬 tokens):Kimi K2.6 input ¥6.50(cache hit ¥1.10)/ output ¥27(256K context);Kimi K2.5 ¥4.00(cache ¥0.70)/ ¥21;Moonshot V1 8K $0.20/$2.00(美元)
- Catch:K2.6 比 K2.5 貴約 60%;rate limit tier 靠累計充值解鎖;無境外持續免費 tier
第三梯隊:純付費(per-token 便宜)
| 服務 | 免費 | 付費起價 | 備註 |
|---|---|---|---|
| DeepInfra | 無 | Llama 3.1 8B $0.02/$0.05、Qwen3-235B-A22B-Instruct $0.071/$0.10、DeepSeek-V3.2 $0.26/$0.38(cached $0.13) | per-token 全市場最便宜之一 |
| Novita AI | 無 | DeepSeek-V4-Flash $0.14/$0.28、Llama 3.3 70B $0.135/$0.4、Qwen3-235B $0.09/$0.58、GLM 4.5 Air $0.13/$0.85 | 模型超齊全(含影音)、價格極具競爭力 |
| Together AI | 無(最低儲值 $5 才能使用,無自動贈送) | gpt-oss-20B $0.05/$0.20、gpt-oss-120B $0.15/$0.60、Llama 3.3 70B $0.88/$0.88、DeepSeek-V3.1 $0.60/$1.70 | 模型最廣;Startup Accelerator 可申請 $15K–$50K credits |
| Fireworks AI | $1 註冊 credits | cached input 自動 50% off、batch 50% off | 細項定價放在 docs.fireworks.ai 子站 |
| DeepSeek Platform | 無 | v4-flash $0.14/$0.28(cache hit $0.0028)、v4-pro 75% off 期間 $0.435/$0.87(優惠到 2026-05-31,原價 $1.74/$3.48) | 自家最強模型最便宜 |
| xAI Grok | 無固定 free tier | grok-4.3 $1.25/$2.50、grok-4-1-fast $0.20/$0.50(2026-05-15 退役)、grok-4.20 $1.25/$2.50 | 「資料分享換 $25/月」目前 docs/models 頁未提及 |
| Perplexity Sonar | 無 | Sonar $1/$1(token)+ Search API $5/1K req;Sonar Pro $3/$15;Deep Research $2/$8 + 多項附加費 | 價格含內建 web search |
| Replicate | 無持續免費 | 按秒計費 | LLM 用不划算,主場是 image/video |
| Chutes | 無真免費(最低 $3/月訂閱) | $3 (Base) / $10 (Plus) / $20 (Pro) | 去中心化、TEE 機密推論、SOTA OSS 最快上架 |
| Mistral La Plateforme | 無(Le Chat 聊天介面免費,API 無免費 tier) | Large 3 $0.50/$1.50、Small 4 $0.15/$0.60、Codestral $0.30/$0.90、Medium 3.5 $1.50/$7.50、Magistral Medium $2/$5;batch 全線 5 折 | Codestral 已轉付費(Premier);Ministral Edge 系列 $0.10–$0.20 per M flat |
| Hyperbolic | 無 | serverless pay-as-you-go 起 ~$0.10/1M tokens;GPU on-demand 起 $1.39/hr(H100/H200) | 同時提供按時計費 GPU 租用與 reserved cluster(需洽談) |
| MiniMax / Hailuo | 無(訂閱制,$10/月起) | M2.7 $0.30/$1.20、M2.7-highspeed $0.60/$2.40;Starter Token Plan $10/月(1,500 req/5hr) | 含視頻 Hailuo 2.3 生成(768P 6s $0.19 Fast 起);中國模型、全球 API |
| Featherless AI | 無(Agent 方案 3 天試用) | Basic $10/月(≤15B 模型、unlimited tokens);Premium $25/月(任意大小);Agent $100/月起 | 30,000+ Hugging Face 模型、flat-rate 無限 tokens;訂閱制非 per-token |
| Anthropic / OpenAI | 過去 trial credits 政策本次未在 pricing 頁驗到 | Claude Haiku 4.5 $1/$5、GPT-5.4 mini $0.75/$4.50 | 純付費,用 OpenRouter / Vercel Gateway 試比較划算 |
已確認停服
- 01.AI Yi:英文 API 已於 2025-08-25 停服,國際版不再運作
推薦組合
個人專案 / 玩具 demo
主力疊四家,全部免費 + 不綁卡:
- Cerebras:跑 Qwen3-235B、gpt-oss-120b 這類大模型,速度最快
- Groq:跑 Llama 3.3 70B、Kimi K2、Whisper(語音),模型線最廣
- Cloudflare Workers AI:跑 RAG / embedding,整合 Workers / D1 / Vectorize
- Google AI Studio:跑 Gemini 3 Flash 試多模態與長 context
四家堆起來,日常開發的 RPM/RPD 上限非常難用完。
自架 / serverless GPU
- Modal:$30/月永久 credits 跑自己的 vLLM/SGLang
- NVIDIA NIM:dev 免費(額度未明),模型最齊、官方優化
Fallback / 路由便利
OpenRouter :free + HF Inference Providers PRO + Vercel AI Gateway $5/月,是備援三劍客。
正式付費(per-token 最便宜)
- DeepInfra(per-token 王,但無 free tier)
- Novita AI(含影音、價格極競爭)
- Groq(速度 + 價格雙優)
- DeepSeek 自家 v4-flash($0.14/$0.28)
中國市場
四家永久 / 每日免費疊起來最省力:
- Zhipu GLM-4.7-Flash:永久免費、200K context、無 token 上限(30 concurrent)
- iFlytek Spark Lite:永久免費不限量
- Volcengine Doubao 協作獎勵計畫:手動開通後每日 200 萬 tokens reset,跑量最爽
- Tencent Hunyuan-lite:完全免費 + 首次 100 萬 tokens
新用戶額外:Qwen DashScope(各模型 100 萬 / 90 天)+ Baidu 千帆(¥20 券 + Qwen 免費)+ Kimi(¥15 券)堆起來試模型夠用。
Catch 共通提醒
- Free tier 通常會收集 prompt 用於訓練 / 評估 / 安全分析,正式專案請走付費 key
- 模型 deprecation 很快:5/15 grok-4-1-fast 退役、5/27 Cerebras Llama 3.1 8B / Qwen3-235B、5/31 DeepSeek v4-pro 折扣結束,都要進 calendar
- RPM/RPD 上限是按 API key / 組織計,多帳號繞 limit 通常違反 ToS
- 「不綁卡」≠「永久免費」:所有 free tier 都可能無預警調整,feature flag 別省
整體來看,2026 年的好消息是免費資源比 2024 年多得多,個人開發者根本不缺 LLM API;壞消息是這層市場變動極快,半年前的整理現在多半失準。看到這篇半年後,建議直接點下面的官方連結再驗一次。
參考資料
- Cerebras Inference Rate Limits
- Cerebras Inference Pricing
- Groq Rate Limits
- Groq Pricing
- Cloudflare Workers AI Pricing
- Google Gemini API Pricing
- Google Gemini API Rate Limits
- OpenRouter API Limits
- GitHub Models Prototyping Limits
- Hugging Face Inference Providers Pricing
- Vercel AI Gateway Pricing
- Cohere Rate Limits
- Together AI Pricing
- Fireworks AI Pricing
- DeepInfra Pricing
- Novita AI Pricing
- DeepSeek API Pricing
- xAI Models
- Perplexity API Pricing
- SambaNova Cloud Pricing
- Modal Pricing
- NVIDIA build.nvidia.com
- Nebius Token Factory
- Inference.net Pricing
- AI21 Pricing
- Pollinations.ai
- AI Horde
- iFlytek Spark API
- Tencent Hunyuan Pricing
- Baidu Qianfan
- Ollama
- Mistral La Plateforme Pricing
- Hyperbolic Docs
- MiniMax Platform Pricing
- Featherless AI
- Baseten Pricing
- Zhipu GLM BigModel Pricing
- Volcengine Doubao Free Quota
- Moonshot Kimi API Pricing
- Qwen DashScope Model Pricing