荀子古籍大語言模型發(fā)布會在京成功舉辦
來源:中國社會科學(xué)網(wǎng)
時間:孔子二五七四年歲次癸卯十一月初六日庚戌
耶穌2023年12月18日
中國社會科學(xué)網(wǎng)訊(通訊員 趙志梟)12月2日,國家社科基金重大項目“中國古代典籍跨語言知識庫構(gòu)建及應(yīng)用研究”課題組主辦的荀子古籍大語言模型發(fā)布會暨古籍智能化研究與產(chǎn)業(yè)應(yīng)用研討會在北京舉行。來自高校、出版界和互聯(lián)網(wǎng)頭部企業(yè)的專家學(xué)者參會。古籍大語言模型主研專家、南京農(nóng)業(yè)大學(xué)信息管理學(xué)院教授王東波進(jìn)行專題匯報。
發(fā)布荀子古籍大語言模型
荀子古籍大語言模型是由王東波擔(dān)任首席專家的國家社科基金重大項目“中國古代典籍跨語言知識庫構(gòu)建及應(yīng)用研究”課題組聯(lián)合古聯(lián)公司歷時數(shù)月研究推出的專門應(yīng)用于古籍處理與研究的智能工具,是以提供古籍信息處理的大型基座模型、對話模型與智能代理為主要目標(biāo)的開源的、公益的古籍大語言模型。王東波團(tuán)隊以“荀子古籍大語言模型構(gòu)建及應(yīng)用研究”為題,介紹了大語言模型古籍處理能力評測,古籍處理基座模型構(gòu)建和對話模型構(gòu)建三個方面的研究內(nèi)容。
在匯報過程中,王東波首先闡述了如ChatGPT一類的大語言模型在AI產(chǎn)業(yè)中引發(fā)的革命,并揭示了古籍領(lǐng)域?qū)Υ笳Z言模型的需求以及國家層面的關(guān)注。他表示,盡管目前已有200多個通用模型在各領(lǐng)域得到應(yīng)用,但古籍領(lǐng)域仍缺乏專業(yè)的大語言模型,并且當(dāng)前的各種評測基準(zhǔn)很難準(zhǔn)確地衡量各種大語言模型的古文處理能力。隨后,王東波簡要介紹了為解決這些問題所進(jìn)行的工作。為了緩解用戶群體選擇模型過程中的“信息過載”現(xiàn)象,團(tuán)隊設(shè)計了一個覆蓋13項自然語言處理任務(wù)的ACHeval評測基準(zhǔn),該基準(zhǔn)分為文本理解能力評估、文本生成能力評估和知識能力評估三個模塊,包含文本分類、分詞、命名實體識別、古現(xiàn)翻譯等各種不同的處理任務(wù),團(tuán)隊將世界各地善于理解中文的大語言模型都參與了較量。不僅包括代表性的千億級閉源模型,還納入了在各大通用表單上取得出色表現(xiàn)的優(yōu)質(zhì)開源模型。團(tuán)隊使用小樣本提示技術(shù)規(guī)范模型的輸出答案,并對最終結(jié)果進(jìn)行后處理計算對應(yīng)指標(biāo),以量化各種模型的表現(xiàn)。課題組根據(jù)評價結(jié)果,確定了最終用于領(lǐng)域化訓(xùn)練的開源基座大模型Qwen-7b。隨后,王東波介紹了基座大模型和對話大模型的構(gòu)建的方法,團(tuán)隊通過大量實驗論證不同預(yù)訓(xùn)練數(shù)據(jù)的選擇和配比,以及超參數(shù)的選取對大模型最終性能所產(chǎn)生的影響。結(jié)果表明,由于現(xiàn)代漢語和古代漢語之間存在較大的語法差異,單純使用古籍文本增強(qiáng)模型會使得模型出現(xiàn)災(zāi)難性遺忘現(xiàn)象損失現(xiàn)代漢語能力,更傾向于生成古籍文本。為此,團(tuán)隊在分析古籍本身和對話任務(wù)特性的基礎(chǔ)上,采集了大約5GB的古籍語料,并與現(xiàn)代漢語文本、指令數(shù)據(jù),平行語料等其他類型的語料混合,形成了一個包含40億個中文字符的混合數(shù)據(jù)集,分別用于學(xué)習(xí)古籍文本字符分布特征、防止災(zāi)難性遺忘、增強(qiáng)對指令響應(yīng)以及將現(xiàn)代文習(xí)得的知識進(jìn)一步外推,并以此數(shù)據(jù)集訓(xùn)練荀子基座模型。在訓(xùn)練過程中,王東波團(tuán)隊綜合使用多種加速技術(shù)、內(nèi)存優(yōu)化技術(shù)和訓(xùn)練技巧提升模型的訓(xùn)練效率,最終成功在8卡A800計算集群上實現(xiàn)了17500token/秒的訓(xùn)練吞吐量,在保證基座模型性能的同時最大程度的利用了已有計算資源。為使模型遵循根據(jù)用戶請求回答問題,團(tuán)隊基于以往研究的經(jīng)驗,設(shè)計一系列指令數(shù)據(jù)集,這些任務(wù)涵蓋常見的古籍處理場景,包括詞法分析、實體識別、關(guān)系抽取、文本分類與匹配、古現(xiàn)翻譯、文本摘要、自動問答、詩歌生成、文本摘要等等。除此之外,為了恢復(fù)模型的現(xiàn)代漢語理解能力,團(tuán)隊還從互聯(lián)網(wǎng)開源高質(zhì)量指令微調(diào)數(shù)據(jù)集中篩選出符合條件的指令,按照一定比例混合后獲得了綜合指令數(shù)據(jù)集,訓(xùn)練了“荀子”系列對話模型。最后,王東波團(tuán)隊的技術(shù)人員對荀子對話大模型的各項古籍處理能力進(jìn)行現(xiàn)場演示,通過這一環(huán)節(jié),與會者親身體驗?zāi)P偷膶嵱眯院椭庇^效果,進(jìn)一步證明了其在古籍處理領(lǐng)域的應(yīng)用潛力。
隨后,古聯(lián)公司總經(jīng)理洪濤分享了在古籍智能化領(lǐng)域的探索歷程,介紹了古聯(lián)公司的多方經(jīng)驗,對于利用古籍大模型進(jìn)行優(yōu)化OCR、自動標(biāo)點、自動翻譯、自動注釋、自動生成主題詞與摘要、自動構(gòu)建古籍知識庫等系統(tǒng)能力做了分析。除了在專業(yè)領(lǐng)域推動古籍整理、古籍?dāng)?shù)字化、古籍利用與傳播,洪濤也分析了大模型在大眾領(lǐng)域的應(yīng)用前景,比如通過實現(xiàn)基于“中華經(jīng)典古籍庫”的語義檢索和回答,讓大眾用戶能夠順暢地利用古籍的內(nèi)容。古籍大模型還可以用于AI寫作、AI教學(xué)、數(shù)字文娛等。
荀子古籍大語言模型發(fā)布會暨古籍智能化研究與產(chǎn)業(yè)應(yīng)用研討會在北京舉行。國家社科基金重大項目“中國古代典籍跨語言知識庫構(gòu)建及應(yīng)用研究”課題組/供圖
全面推動古籍處理技術(shù)進(jìn)步
來自高校、出版界和互聯(lián)網(wǎng)頭部企業(yè)的與會專家學(xué)者分別立足于各自領(lǐng)域,圍繞大模型在古籍整理、研究和普及等方面展開了熱烈的探討,就大模型在古籍整理、傳統(tǒng)文化傳承、數(shù)字化轉(zhuǎn)型和技術(shù)挑戰(zhàn)等方面進(jìn)行了深入探討。與會專家一致認(rèn)為,荀子一類大語言模型的應(yīng)用與推廣對于中華優(yōu)秀傳統(tǒng)文化的傳播和傳承有著重要的意義。構(gòu)建高質(zhì)量古文處理模型的關(guān)鍵在于數(shù)據(jù)質(zhì)量,古聯(lián)公司與南京農(nóng)業(yè)大學(xué)的合作能夠充分發(fā)揮各自的優(yōu)勢,更加全面的推動古籍處理技術(shù)的進(jìn)步。
目前,作為開源的、公益的研究成果的荀子古籍大語言模型已在相關(guān)網(wǎng)站開源,用戶可自行下載模型權(quán)重文件與代碼文件進(jìn)行模型部署。此次會議,是南京農(nóng)業(yè)大學(xué)古籍大語言模型研發(fā)團(tuán)隊和古聯(lián)公司合作探索古籍大語言模型的第一步。未來,古聯(lián)公司將基于百億級古籍大數(shù)據(jù),著手研發(fā)下新一版商用古籍大模型,為古籍智能整理、大眾傳播的產(chǎn)業(yè)應(yīng)用提供強(qiáng)大的技術(shù)支持,推動古籍事業(yè)的新發(fā)展。
(通訊員單位:南京農(nóng)業(yè)大學(xué)信息管理學(xué)院)
責(zé)任編輯:近復(fù)