當(dāng)前,人工智能正以前所未有的速度滲透至食品安全風(fēng)險(xiǎn)治理領(lǐng)域,推動(dòng)食品安全監(jiān)管從“被動(dòng)響應(yīng)”向“主動(dòng)預(yù)見”、從“經(jīng)驗(yàn)驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”的根本性轉(zhuǎn)變。然而,在這一轉(zhuǎn)型過程中,一個(gè)核心問題日益凸顯:如果缺乏高質(zhì)量的食品安全領(lǐng)域?qū)I(yè)語料,將可能導(dǎo)致人工智能應(yīng)用陷入“場(chǎng)景陷阱”,即投入大量資源建設(shè)的智能化平臺(tái),最終因無法滿足實(shí)際需求而淪為“場(chǎng)景擺設(shè)”。本文旨在初步闡述食品安全風(fēng)險(xiǎn)治理領(lǐng)域垂直應(yīng)用中為何必須構(gòu)建高質(zhì)量專業(yè)語料,為全國推進(jìn)“人工智能+食品安全”行動(dòng)提供參考。
一、理論層次:專業(yè)語料是垂直領(lǐng)域人工智能的“認(rèn)知基石”
1.人工智能模型的“數(shù)據(jù)決定論”。人工智能模型的性能邊界內(nèi)在地取決于其訓(xùn)練數(shù)據(jù)的質(zhì)量。無論算法架構(gòu)如何優(yōu)化,若缺乏高質(zhì)量數(shù)據(jù),模型將無法學(xué)習(xí)到該領(lǐng)域的核心知識(shí)與規(guī)律。我們的研究證實(shí),沒有高質(zhì)量的專業(yè)語料庫,人工智能在垂直領(lǐng)域的應(yīng)用就是“無米之炊”“無源之水”。這一結(jié)論在學(xué)術(shù)界正在形成廣泛共識(shí)。通用大語言模型雖然在海量通用數(shù)據(jù)上表現(xiàn)卓越,但在食品安全領(lǐng)域面臨知識(shí)體系碎片化、語義解析粗粒度、專業(yè)邏輯離散化等三重局限,難以滿足食品安全風(fēng)險(xiǎn)識(shí)別等復(fù)雜任務(wù)對(duì)高精度領(lǐng)域知識(shí)的需求。
2.食品安全領(lǐng)域的知識(shí)特殊性。食品安全領(lǐng)域知識(shí)特殊性主要體現(xiàn)在以下維度:第一,專業(yè)術(shù)語體系復(fù)雜且多義性強(qiáng)。食品安全領(lǐng)域涉及食品科學(xué)、微生物學(xué)、化學(xué)、法學(xué)、公共管理等多學(xué)科深度交叉,存在大量專業(yè)術(shù)語和復(fù)雜概念。同一術(shù)語在不同語境下可能呈現(xiàn)不同的語義指向和表達(dá)方式,通用語料無法有效識(shí)別這些術(shù)語之間的復(fù)雜語義關(guān)系,導(dǎo)致AI模型在知識(shí)抽取與理解過程中出現(xiàn)認(rèn)知偏差。第二,知識(shí)體系動(dòng)態(tài)更新且時(shí)效性要求高。食品安全法律法規(guī)、標(biāo)準(zhǔn)規(guī)范、監(jiān)管政策處于持續(xù)迭代更新之中,新發(fā)風(fēng)險(xiǎn)、新興污染物、新型違法手段不斷涌現(xiàn)。通用語料受限于訓(xùn)練數(shù)據(jù)的時(shí)間窗口,無法及時(shí)捕獲這些動(dòng)態(tài)變化,導(dǎo)致模型輸出信息存在滯后性甚至根本性錯(cuò)誤,難以滿足風(fēng)險(xiǎn)治理對(duì)時(shí)效性的剛性要求。第三,風(fēng)險(xiǎn)信號(hào)隱蔽性強(qiáng)且傳導(dǎo)鏈條復(fù)雜。 食品安全風(fēng)險(xiǎn)往往隱匿于“從農(nóng)田到餐桌”的復(fù)雜產(chǎn)業(yè)鏈條之中,涉及生產(chǎn)、加工、流通、餐飲、消費(fèi)等多個(gè)環(huán)節(jié),跨環(huán)節(jié)、跨區(qū)域、跨主體的風(fēng)險(xiǎn)傳導(dǎo)路徑錯(cuò)綜復(fù)雜。單一維度的數(shù)據(jù)難以完整呈現(xiàn)風(fēng)險(xiǎn)全貌,對(duì)風(fēng)險(xiǎn)信號(hào)的捕捉需要突破“點(diǎn)狀數(shù)據(jù)”的局限。高質(zhì)量專業(yè)語料能關(guān)聯(lián)多源異構(gòu)信息,構(gòu)建起覆蓋全鏈條、可追溯、可推理的風(fēng)險(xiǎn)傳導(dǎo)知識(shí)圖譜,實(shí)現(xiàn)對(duì)隱蔽風(fēng)險(xiǎn)的穿透式識(shí)別與預(yù)警。
3.語料標(biāo)注的核心價(jià)值。語料標(biāo)注是將原始文本數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解和可學(xué)習(xí)知識(shí)的關(guān)鍵過程。從食品安全風(fēng)險(xiǎn)管理學(xué)角度而言,其價(jià)值體現(xiàn)在:第一,橋梁作用。連接非結(jié)構(gòu)化原始文本與結(jié)構(gòu)化機(jī)器知識(shí)。食品安全領(lǐng)域的原始文本(如行政處罰決定書、刑事判決書、民事判決書等)具有高度非結(jié)構(gòu)化、語義復(fù)雜、邏輯嚴(yán)密的特點(diǎn)。語料標(biāo)注通過實(shí)體識(shí)別、關(guān)系抽取、事件標(biāo)注等技術(shù)手段,將這些“人類可讀但機(jī)器難解”的文本轉(zhuǎn)化為“機(jī)器可計(jì)算、可推理”的結(jié)構(gòu)化知識(shí),架設(shè)起從原始數(shù)據(jù)到智能應(yīng)用的語義橋梁。第二,定義作用。決定AI模型的學(xué)習(xí)邊界與性能天花板。語料標(biāo)注直接定義了AI模型能夠?qū)W習(xí)什么任務(wù)、學(xué)到什么深度、達(dá)到什么精度。標(biāo)注的粒度粗細(xì)、維度多寡、質(zhì)量高低,從根本上決定了模型的上限,高質(zhì)量的精細(xì)標(biāo)注能夠支撐模型學(xué)習(xí)復(fù)雜的法律邏輯與量罰關(guān)系,而粗放式標(biāo)注則只能實(shí)現(xiàn)淺層的信息抽取。第三,基石作用。構(gòu)建食品安全知識(shí)圖譜與高級(jí)AI應(yīng)用的底層支撐。食品安全風(fēng)險(xiǎn)治理的智能化本質(zhì)上依賴于對(duì)領(lǐng)域知識(shí)的系統(tǒng)化組織與深度挖掘。高質(zhì)量標(biāo)注形成的語料庫是構(gòu)建食品安全風(fēng)險(xiǎn)知識(shí)圖譜、風(fēng)險(xiǎn)傳導(dǎo)模型、智能預(yù)警系統(tǒng)、行政處罰單自動(dòng)生成智能體等高級(jí)應(yīng)用的基礎(chǔ)設(shè)施。沒有高質(zhì)量標(biāo)注,就沒有真正意義上的“AI+食品安全”智能應(yīng)用。
二、技術(shù)層次:專業(yè)語料決定垂直應(yīng)用的性能邊界
1.從通用模型到垂直應(yīng)用的“知識(shí)鴻溝”。通用大語言模型雖然在開放域問答中表現(xiàn)優(yōu)異,但在食品安全垂直領(lǐng)域面臨明顯的“知識(shí)鴻溝”。以國內(nèi)某研究機(jī)構(gòu)發(fā)布的FoodSky(食天)食品大語言模型研究為例,研究者發(fā)現(xiàn)通用模型在廚師和營養(yǎng)師專業(yè)考試中的準(zhǔn)確率遠(yuǎn)低于領(lǐng)域?qū)S媚P?,通用大模型在處理食品安全領(lǐng)域的細(xì)粒度知識(shí)時(shí)明顯不足,難以應(yīng)對(duì)不同飲食文化背景下的復(fù)雜數(shù)據(jù)與專業(yè)場(chǎng)景。沒有專業(yè)語料的支撐,再強(qiáng)大的通用模型也無法在特定領(lǐng)域達(dá)到可用水平,這構(gòu)成了從通用能力到專業(yè)應(yīng)用之間不可逾越的技術(shù)鴻溝。
2.語料標(biāo)注的多層次技術(shù)需求。食品安全領(lǐng)域的人工智能應(yīng)用涉及從感知到認(rèn)知的多層次任務(wù),每一層次都對(duì)語料標(biāo)注提出差異化、遞進(jìn)式的技術(shù)要求:第一,詞法層面。領(lǐng)域術(shù)語的精準(zhǔn)切分與識(shí)別。對(duì)于中文食品安全文本,需要構(gòu)建專業(yè)領(lǐng)域詞典,實(shí)現(xiàn)對(duì)“微生物污染”“保健食品”“非法添加物”等專業(yè)術(shù)語的正確切分與邊界識(shí)別,避免通用分詞模型對(duì)領(lǐng)域術(shù)語的誤切、漏切。第二,語義層面。實(shí)體識(shí)別與語義關(guān)系的深度抽取。包括命名實(shí)體識(shí)別、語義角色標(biāo)注、情感標(biāo)注等。在食品安全領(lǐng)域需要精準(zhǔn)識(shí)別風(fēng)險(xiǎn)主體(生產(chǎn)者、經(jīng)營者)、風(fēng)險(xiǎn)因子(致病菌、農(nóng)獸藥殘留)、受影響群體(消費(fèi)者、特定人群)等關(guān)鍵實(shí)體,以及它們之間的語義關(guān)系(導(dǎo)致、引發(fā)、來源于),形成結(jié)構(gòu)化的風(fēng)險(xiǎn)知識(shí)單元。第三,句法與篇章層面??缇?、跨段的共指消解與知識(shí)關(guān)聯(lián)。例如,“三文魚”的商品通用名與其學(xué)名“大西洋鮭”需建立共指關(guān)聯(lián);黃曲霉毒素B1在文本中的多種表述需實(shí)現(xiàn)統(tǒng)一識(shí)別與歸并等。
江南大學(xué)食品安全與國家戰(zhàn)略治理實(shí)驗(yàn)室宋曉寧教授的研究指出,通過綜合運(yùn)用大語言模型、知識(shí)圖譜與文本向量庫,可以顯著提升食品安全領(lǐng)域的知識(shí)檢索效率與準(zhǔn)確性??茖W(xué)的食品知識(shí)圖譜將食品安全領(lǐng)域的知識(shí)結(jié)構(gòu)化,形成可關(guān)聯(lián)、可追溯、可推理的知識(shí)網(wǎng)絡(luò),確保信息的準(zhǔn)確性、一致性與可解釋性。
三、比較研究:國際前沿與國內(nèi)實(shí)踐
1.國際前沿研究。國際學(xué)術(shù)界在食品安全領(lǐng)域?qū)I(yè)語料構(gòu)建方面已取得顯著進(jìn)展,形成了多模態(tài)、多場(chǎng)景、多任務(wù)的發(fā)展格局。Cell Press旗下期刊《Patterns》近年來發(fā)表的FoodSky研究,代表了食品大語言模型的前沿方向。該研究通過整合多種權(quán)威來源的食品數(shù)據(jù),構(gòu)建了大規(guī)模的食品語料庫,并提出了分層主題檢索增強(qiáng)生成算法,通過在推理過程中檢索外部知識(shí)庫來增強(qiáng)生成內(nèi)容的準(zhǔn)確性與可靠性。
在計(jì)算機(jī)視覺領(lǐng)域,面向食品質(zhì)量檢測(cè)的專用數(shù)據(jù)集不斷涌現(xiàn)。加納學(xué)者發(fā)布的MeatScan數(shù)據(jù)集,包含11000幅高分辨率RGB圖像,覆蓋露天市場(chǎng)、肉鋪和冷庫等真實(shí)場(chǎng)景,用于深度學(xué)習(xí)-based的新鮮與變質(zhì)牛肉分類。孟加拉國學(xué)者發(fā)布的FruitVision數(shù)據(jù)集,包含81232幅圖像,涵蓋蘋果、香蕉、芒果等五種水果的新鮮、腐爛和福爾馬林混合三類狀態(tài),為檢測(cè)非法添加物提供了寶貴的訓(xùn)練數(shù)據(jù)與基準(zhǔn)參考。國際經(jīng)驗(yàn)表明:專業(yè)語料的建設(shè)已成為全球食品人工智能領(lǐng)域的競(jìng)爭(zhēng)焦點(diǎn)。誰掌握了高質(zhì)量的專業(yè)語料,誰就掌握了該領(lǐng)域人工智能發(fā)展的主動(dòng)權(quán)。這一趨勢(shì)深刻揭示出:在食品安全垂直領(lǐng)域,語料建設(shè)已從“支撐性工作”上升為“戰(zhàn)略性工程”。
2.國內(nèi)探索??傮w而言,目前國內(nèi)食品安全專業(yè)領(lǐng)域語料庫建設(shè)還剛剛起步。江南大學(xué)在食品安全領(lǐng)域人工智能應(yīng)用方面開展了系統(tǒng)性探索,為全國提供了可借鑒的經(jīng)驗(yàn)。2025年7月,江南大學(xué)食品學(xué)院與科大訊飛、華為等單位共同發(fā)布全球首個(gè)食品學(xué)科專用大模型FoodSeek(食問)。該模型初步完成了食品專業(yè)學(xué)科大模型基座構(gòu)建和多個(gè)專用智能體應(yīng)用的研發(fā)工作,初步具備專注于解決食品學(xué)科的信息抽取、推理、精準(zhǔn)解析、智能問答等多維度功能需求的專業(yè)能力。江南大學(xué)食品安全與國家戰(zhàn)略治理實(shí)驗(yàn)室與北京市煒衡(無錫)律師事務(wù)所、北京熱熱科技有限公司等深度合作,基于“企業(yè)標(biāo)注能力+律師專業(yè)素養(yǎng)+高校專業(yè)模型”的聯(lián)合模式,正在開發(fā)“食品安全風(fēng)險(xiǎn)治理領(lǐng)域?qū)I(yè)語料標(biāo)注平臺(tái)”,有望填補(bǔ)國內(nèi)空白。該平臺(tái)依靠食品安全專業(yè)領(lǐng)域的專家標(biāo)注高質(zhì)量語料數(shù)據(jù),將人工智能專家的知識(shí)注入模型,實(shí)現(xiàn)了“專業(yè)知識(shí)+工程能力+場(chǎng)景落地”的閉環(huán)。
盡管我國在食品安全領(lǐng)域人工智能應(yīng)用方面取得重要進(jìn)展,但我們的調(diào)研發(fā)現(xiàn),不少地方在建設(shè)“AI+食品安全監(jiān)管智能化”平臺(tái)中存在突出問題:沒有或很少基于食品安全風(fēng)險(xiǎn)治理語料庫,沒有科學(xué)地對(duì)語料進(jìn)行標(biāo)注。這一問題導(dǎo)致部分應(yīng)用場(chǎng)景淪為“場(chǎng)景擺設(shè)”——由于缺少高質(zhì)量的語料,AI模型無法理解食品安全領(lǐng)域的專業(yè)術(shù)語和上下文,無法在復(fù)雜的風(fēng)險(xiǎn)信息中找到路徑并進(jìn)行預(yù)測(cè),最終難以支撐真實(shí)的業(yè)務(wù)閉環(huán)。沒有標(biāo)注的語料對(duì)AI來說就是“天書”,標(biāo)注質(zhì)量直接決定AI模型的準(zhǔn)確率。
四、未來建議:構(gòu)建國家通用的食品安全專業(yè)語料體系
1.建設(shè)國家級(jí)食品安全語料庫。建議國家相關(guān)部門牽頭,頂層設(shè)計(jì),高度重視食品安全專業(yè)語料體系建設(shè),將其作為推進(jìn)“人工智能+食品安全”行動(dòng)的基礎(chǔ)性、先導(dǎo)性工程,統(tǒng)籌規(guī)劃、系統(tǒng)推進(jìn),為構(gòu)建全域、全程、全員的食品安全智慧治理新范式奠定堅(jiān)實(shí)基礎(chǔ)。
2.形成多層次的語料體系。從政府治理食品安全風(fēng)險(xiǎn)的角度,完整的食品安全語料體系至少應(yīng)該包括范圍廣、全覆蓋、體系化的行政處罰與司法懲罰案例語料體系,食品安全法律、法規(guī)與政策語料體系,食品安全國家技術(shù)標(biāo)準(zhǔn)語料體系,各地再深化地方性法規(guī)、政策、地方食品技術(shù)標(biāo)準(zhǔn)語料體系,從而形成自上而下的全國性食品安全語料庫,使之成為推進(jìn)“AI+食品安全”行動(dòng)的戰(zhàn)略資源。
3.標(biāo)準(zhǔn)先行。語料體系的建設(shè)基礎(chǔ)是語料的標(biāo)注,而語料標(biāo)注需要標(biāo)注規(guī)則。查閱國內(nèi)所有文獻(xiàn)資料與全國性、地方性標(biāo)準(zhǔn),似乎沒有食品安全風(fēng)險(xiǎn)治理領(lǐng)域語料的相關(guān)標(biāo)注規(guī)則、方法、指南等。我們思考后初步認(rèn)為,應(yīng)該率先研制《食品安全風(fēng)險(xiǎn)治理本體模型與類型定義規(guī)范》《食品安全風(fēng)險(xiǎn)治理語料標(biāo)注操作指南》《食品安全風(fēng)險(xiǎn)治理語料質(zhì)量分級(jí)與審計(jì)規(guī)程》三個(gè)基礎(chǔ)性標(biāo)準(zhǔn)。上述第一標(biāo)準(zhǔn)面向食品安全風(fēng)險(xiǎn)治理領(lǐng)域,可以采用本體建模方法,對(duì)領(lǐng)域核心概念及其類型進(jìn)行定義的規(guī)范性文件;第二個(gè)標(biāo)準(zhǔn)承擔(dān)著將理論藍(lán)圖轉(zhuǎn)化為高質(zhì)量語料的關(guān)鍵職能,它既是給標(biāo)注員的“施工手冊(cè)”,也是連接“學(xué)術(shù)定義”與“工程實(shí)踐”的橋梁;第三個(gè)標(biāo)準(zhǔn)是承擔(dān)著“建得怎么樣”的核心職能,它是語料庫建設(shè)的“質(zhì)檢關(guān)卡”和“信任基石”。這三個(gè)標(biāo)準(zhǔn)之間,可以類比為“憲法—稅法—審計(jì)法” 的邏輯關(guān)系,構(gòu)成一個(gè)從理論建構(gòu)—工程落地—質(zhì)量保障的完整閉環(huán)。
4.政產(chǎn)學(xué)研用協(xié)同創(chuàng)新。國家相關(guān)部門可采用揭榜掛帥的方式選擇全國食品安全風(fēng)險(xiǎn)治理領(lǐng)域語料庫建設(shè)的牽頭單位,組建由高校、科研院所、食品企業(yè)、人工智能企業(yè)共同參與的政產(chǎn)學(xué)研用體系,共同建設(shè)國家級(jí)食品安全專業(yè)語料庫,制定全國性的食品安全語料采集、清洗、標(biāo)注的技術(shù)規(guī)范和標(biāo)準(zhǔn)體系。鼓勵(lì)人工智能企業(yè)與食品企業(yè)合作,將實(shí)踐經(jīng)驗(yàn)反哺語料庫建設(shè),實(shí)現(xiàn)“專業(yè)知識(shí)+工程能力+場(chǎng)景落地”的閉環(huán)。從國家法律法規(guī)數(shù)據(jù)庫、國家市場(chǎng)監(jiān)督管理總局官網(wǎng)、國家裁判文書網(wǎng)等官方渠道歸集權(quán)威、宏觀數(shù)據(jù)與提供覆蓋從農(nóng)田到餐桌的全鏈條,包括生產(chǎn)、加工、流通、消費(fèi)各環(huán)節(jié)的風(fēng)險(xiǎn)信息,服務(wù)語料體系建設(shè)。
5.建立語料動(dòng)態(tài)更新機(jī)制。食品安全知識(shí)具有動(dòng)態(tài)性,語料庫建設(shè)不是“一錘子買賣”。應(yīng)同步建議法規(guī)動(dòng)態(tài)跟蹤:實(shí)時(shí)捕獲法律法規(guī)、標(biāo)準(zhǔn)規(guī)范的更新信息,風(fēng)險(xiǎn)事件歸集:將新發(fā)生的食品安全事件及時(shí)納入語料庫,模型反饋閉環(huán):利用AI模型在實(shí)際應(yīng)用中的表現(xiàn),反向指導(dǎo)語料的優(yōu)化和擴(kuò)充等更新機(jī)制(本文為上海市經(jīng)濟(jì)和信息化委員會(huì),項(xiàng)目編號(hào):2025-GZL-RGZN-BTBX-02016的階段性研究成果,作者系江南大學(xué)食品安全與國家戰(zhàn)略治理實(shí)驗(yàn)室首席專家吳林海)




不良信息舉報(bào)中心
不良信息舉報(bào)平臺(tái)
黑貓投訴
廣告刊例