當人們在 2026 年說「AI」時,他們可能指的是六種完全不同的東西,每一種的強項都大相逕庭。如果你正在挑選一個幫你寫數學作業的工具,弄清楚引擎蓋下是哪種技術,比盒子上的品牌更重要。本指南是一張地圖,畫出在真實學生工具裡會出現的四大家族、各自擅長什麼,以及具體到數學哪一種最好。
你真正會遇到的四大 AI 家族
1. 大型語言模型(LLM)
LLM 是通用聊天機器人背後的技術。它們在龐大的文字語料上訓練,學會預測序列中的下一個詞。這聽起來很簡單,但在足夠大的規模下,它產出的模型能寫文章、解釋概念,而且——越來越能——一路推理出數學。
強項:自然語言理解,用對人友善的話解釋某一步,處理雜亂或含糊的問題。
弱項:純 LLM 有時會「幻覺」——自信地寫出 ,只因為周圍的文字聽起來對。它們需要協助才能保持嚴謹。
2. 符號 / 電腦代數系統(CAS)
符號引擎是 Mathematica 和 SymPy 這類工具的後裔。它們像數學家那樣操弄方程式——套用代數規則、因式分解、展開、求出閉合形式的積分。
強項:永不算錯;給出精確答案(例如 ,而不是 )。
弱項:讀不懂用英文寫的應用題;當多種方法都行得通時,無法決定該用哪一種。
3. 神經-符號混合體
現代數學 AI 就活在這裡。一個神經模型(LLM 風格)讀題、規劃思路、寫出中間步驟。然後一個符號引擎驗證每一步——如果代數不平衡,系統就重試。
強項:把 LLM 的彈性與 CAS 的嚴謹結合起來。能抓住自己的錯誤。
弱項:執行成本比單獨任一元件都高;工程實作更難。
MathCore 推理引擎就屬於這個家族。
4. 推理 agent(思維鏈、工具呼叫)
agent 是被訓練或被提示出聲思考的 LLM,然後可選地呼叫外部工具——計算機、搜尋引擎、Python 直譯器、繪圖工具——並把結果回饋進它的推理中。
強項:透過拆解來處理多步驟問題;可以透過執行程式碼來驗證。
弱項:延遲更長;需要精心設計,才能知道何時該用工具、何時只需思考。
並排對照
| 家族 | 讀得懂英文 | 精確數學 | 自我檢查 | 適合做什麼 |
|---|---|---|---|---|
| LLM | ✅ | ⚠️ | ❌ | 講解、學習規劃 |
| 符號 / CAS | ❌ | ✅ | ✅ | 純解方程式 |
| 神經-符號 | ✅ | ✅ | ✅ | 端到端寫數學作業 |
| 推理 agent | ✅ | ✅(藉助工具) | ✅ | 開放式問題 |
如果你要為數學作業挑一個工具,你想要的是一個神經-符號系統或一個推理 agent——兩者都帶驗證。純 LLM 遲早會在一道刁鑽的積分上把你帶偏;而當你連積分該怎麼輸入都不知道時,純 CAS 幫不了你。
這如何對應到熱門工具
你不需要背下廠商名字,但這個規律能幫你選擇:
- 純聊天助理(通用型)→ LLM 家族。
- 拍照搜題 App → 幕後是 LLM(視覺)+ 符號驗證器。
- Wolfram 式計算機 → 幾乎是純符號。
- AI-Math → 神經-符號,帶思維鏈生成、符號驗證,以及一條數學專屬的訓練流水線(即 MathCore 推理引擎)。
三個值得知道的術語
思維鏈(CoT)
模型把推理一步步寫出來,而不是直接跳到答案。與「直接回答這個」相比,光是 CoT 一項就能把數學應用題的準確率拉高幾十個百分點。
程式鏈(PoT)
模型不寫樸素的文字,而是寫小段程式碼並執行它們。許多數學系統裡的驗證器在底層就是這麼運作的。
檢索增強生成(RAG)
模型在回答之前先查閱相關參考資料(一張公式表、一章教科書)。對「……的公式是什麼?」這類問題很有用。
為什麼這個選擇關係到你的成績
兩個用著兩種不同 AI 的學生,作業體驗可能天差地別:
- 用純 LLM 的學生抄了一個答案,在一道刁鑽題上做錯了,帶著自信卻準備不足地走進考場。
- 用神經-符號系統的學生看到經過驗證的分步解答,發現自己嘗試錯在哪裡,並記住了修正方法。
工具選擇是一種學習習慣。挑那個和你要做的事相匹配的家族。
試一試
打開 AI-Math 求解器,用兩種方式問同一道題:一次寫成乾淨的方程式,一次寫成雜亂的應用題。注意兩種情況下你都能拿到一份可用的分步解答——這就是神經-符號組合在起作用。然後讀這個系列裡的下一篇: