21世紀經濟報道記者雷晨 北京報道
6月6日,由21世紀經濟報道、北京人工智能產業聯盟元宇宙專業委員會、中國文化產業協會文化元宇宙專業委員會主辦的“21世紀卓越董事會人工智能閉門會”召開,主題為“AI領域上市公司創新涌現、技術難題與發展路徑”。
會上,拓爾思(300229.SZ)副總裁林松濤介紹了“拓天”大模型及行業應用。他表示,大模型技術場景落地中的挑戰,主要是質量、可控、時效和成本。
(資料圖)
質量方面,他認為,個人服務用ChatGPT,提示詞不準可以換一個,如果圖片生成不好也可以再換一個,可以說個人對AIGC的容忍度是很高的。但是企業不一樣,給政府寫顧問報告,數據來源必須是準確的。
可控層面,一是內容安全,數據是有價值觀的,模型沒有價值觀。二是私域數據安全,中國大模型要數據化落地,如何在保證用戶私有數據安全的同時將大數據較好地運用也是一個問題。
時效方面,在大數據訓練上,災難性的遺忘一直都是訓練的問題,所以需要大模型解決這個問題。另外,怎樣輸入即時數據,類似Chat GPT,數據最新只到2021年9月,因此在To B服務的時候用不好。
成本方面,千億模型私有化落地的時候需要訓練好,在企業端落地還需要讓企業用得起。拓爾思做To B服務,垂直場景落地成為“百模大戰”的核心要點。
據林松濤介紹,大模型出來以后顛覆了拓爾思此前積累的NLP技術,公司發現,在大模型的基礎上再去結合知識圖譜、自然語言處理技術效果更好。與此同時,公司擁有長期數據采集和高質量數據資產積累優勢,可將數據迅速投入到大模型當中。
“現在拓爾思擁有全網數據1500億,有人工整理、專家整理的數據庫達30多個,主題數據110億個,這是拓爾思能夠做大模型很重要的優勢。”林松濤稱。
據了解,拓爾思在大模型應用方面首先選擇政府、媒體和金融三個優勢賽道。
在林松濤看來,做垂直領域首先要選好大模型基座,國內頭部廠商自己做基座,也有一些廠商選擇開源,同時還需要有數據以及在專業領域的積累,最后在大模型落地時,不僅要有技術、數據、還需要讓用戶知道如何應用,包括真實場景的閉環、基于用戶反饋的學習等等。
“我們現在要解決的三個問題,一是實現大模型與專業知識庫的融合。二是如何提升AIGC的內容質量和數據安全,特別是在內容事實核查方面。三是如何降低百億級大模型落地的成本。”林松濤表示。
關鍵詞: