日前,國網山東電科院牽頭申報的IEEE國際標準《Guide for a Data and Knowledge Processing Framework for Constructing Large Speech-Language Models(面向語音大模型構建的數據與知識處理框架指南)》成功獲批立項,這是該院在語音大模型數據與知識處理領域國際標準制定工作中的重大突破,標志著該院在語音大模型領域的話語權和影響力得到進一步提升。

語音大模型在智能汽車、智能IoT設備、智能客服、智慧教育等領域廣泛應用,用于構建語音大模型的數據與傳統文本數據在存儲形態、數據標注格式、數據特征結構、數據處理等方面存在差異,導致相關數據格式不統一、跨組織共享難、數據版本管理缺失、數據安全隱患高、數據處理效率低等問題,制約了語音大模型的快速迭代與性能優化。

在國網山東省電力公司數字化部的指導支持下,該院憑借著多年在人工智能技術研究與工程實踐中積累的豐富經驗,及時捕捉到行業痛點,主動牽頭啟動該IEEE國際標準的申報工作。為確保標準的科學性與前瞻性,團隊積極開展技術調研與論證,編制了標準PAR及匯報PPT,參加了IEEE知識工程標準化委員會全會,匯報了《面向語音大模型構建的數據與知識處理框架指南》標準框架,PAR審核通過后提交至IEEE SA,并及時完成了IEEE委員專家的評論回復,近期經電氣與電子工程師協會標準委員會(IEEE SA)批準立項。該標準規定了用于構建語音大模型數據處理與管理的框架,解決了數據存儲規范與格式不統一、跨組織共享難、數據版本管理缺失、數據安全隱患高、數據查詢處理效率低、標注成本高等問題,實現了數據的統一和規范處理,數據的安全管理與跨組織共享,提升語音大模型的訓練效率,促進語音大模型快速迭代和性能優化。

下一步,國網山東電科院將聯合國內外合作單位,加快推進標準編制工作,確保標準內容既符合國際通行規則,充分體現我國在該領域的技術優勢,力爭早日完成標準發布,為全球語音大模型數據與知識處理提供參考借鑒