11月12日消息,日前,一篇名為《谷歌是否悄然解決了人工智能領域最古老的兩個難題?》(Has Google Quietly Solved Two of AI’s Oldest Problems?)的文章在人工智能圈內迅速傳播。
作者是加拿大滑鐵盧勞里埃大學歷史學副教授馬克·漢弗萊斯(Mark Humphries),這位研究20世紀北美史的學者近年轉向數字人文與人工智能應用研究。他在Substack平臺的專欄《Generative History》中披露:他在谷歌AI Studio中試驗的一款神秘模型,展現出“幾乎完美”的手寫識別能力,以及“自發的、抽象的、符號化推理”現象。
圖片
注:AI Studio界面顯示A/B測試
谷歌的AI Studio是一個開放實驗平臺,用戶可在其中測試提示詞、比較模型表現。最近一周,一部分用戶發現系統會隨機生成兩份答案,要求他們選擇較優者。這是大型AI實驗室在模型上線前常用的A/B測試(用于比較兩種或多種方案的效果,從而判斷哪一個更優)方式。由此外界推測,這款正在試驗的模型可能是即將發布的Gemini-3。
漢弗萊斯的實驗原本只是想驗證這款模型在“手寫歷史文檔轉錄”任務上的表現,卻意外觀察到更深層的現象:模型不僅在轉錄精度上達到專家人類的水準,還能在面對模糊或不完整信息時,自行推理、糾正與解釋,仿佛它在“理解”歷史材料,而不僅僅在識別文字。
他寫道:“我原以為AI在歷史文檔領域的突破還需數年,但這一模型展示的能力,已接近真正的人類專家,甚至在邏輯判斷與語境還原上超出預期。”
若這些結果被證實,這將標志著AI歷史上的一個關鍵時刻:機器不僅能“看懂”手寫符號,還能像學者一樣“思考”其背后的邏輯。這意味著,AI可能已同時跨越人工智能研究中兩個最古老的難題——手寫文本識別與符號推理。
01.從“預測機器”到“理解者”
手寫文本識別(Handwritten Text Recognition, HTR)是AI研究史上最早的課題之一。早在上世紀40年代,研究者便嘗試讓計算機識別人類筆跡。1966年,IBM發布IBM 1287機器,它能讀取數字和部分拉丁字母,被視為AI手寫識別的開端。幾十年來,研究者不斷改進算法與視覺模型,卻始終受限于一個難題:機器只能識別模式,無法理解語義。
圖片
注:識別歷史文稿
漢弗萊斯指出,識別歷史文稿比普通文本復雜得多。因為這不僅是視覺問題,更是語言與文化理解的難題。18、19世紀的手稿充滿拼寫混亂、語法不統一、符號含糊與語義歧義。理解這些內容,需要同時調動語言學、歷史背景、社會常識與邏輯推理。
他解釋說:“人們以為古文檔的難點在筆跡辨認,其實真正的挑戰在于推斷作者意圖——那是視覺識別與邏輯推理的結合。”
在他的研究中,手寫識別成為測試LLM(大語言模型)能力極限的理想場景。因為它要求模型將感知(Vision)與語言(Language)、世界知識(World Knowledge)與邏輯(Reasoning)整合到同一任務中。如果模型能在這種復雜任務中實現突破,就可能預示著更廣泛的智能能力的涌現。
圖片