激情日本亚洲成人网|久草国产精品视频|高清无码无毒在线视频|人人澡一区二区三区|黄片免费大全黄片免费视频大全|波多野结衣av一区二区|日韩在线视频人妻|久热视频观看视频观看|亚洲欧美日本第一页|激情av小说中文字幕

您好,歡迎訪問中國食品安全網(wǎng)!
 

AI應(yīng)用于食品安全風(fēng)險(xiǎn)治理領(lǐng)域中應(yīng)高度重視語料庫及標(biāo)注

2025-09-11 13:54來源:中國食品安全報(bào) 編輯:采編中心

中國食品安全報(bào)訊 人工智能(AI)的飛速發(fā)展為食品安全風(fēng)險(xiǎn)治理帶來了革命性的機(jī)遇,正在推動(dòng)食品安全風(fēng)險(xiǎn)感知與預(yù)警從“被動(dòng)響應(yīng)”向“主動(dòng)預(yù)見”轉(zhuǎn)變,極大地提升了發(fā)現(xiàn)潛在風(fēng)險(xiǎn)的速度和廣度;促進(jìn)風(fēng)險(xiǎn)分析與評(píng)估從“經(jīng)驗(yàn)驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)變,有助于發(fā)現(xiàn)深層次、隱性的風(fēng)險(xiǎn)關(guān)聯(lián);實(shí)現(xiàn)風(fēng)險(xiǎn)管控與應(yīng)對(duì)從“人力密集型”向“智能自動(dòng)化”轉(zhuǎn)變,緩解了監(jiān)管資源的稀缺性;推進(jìn)信息透明與溝通從“單向發(fā)布”向“雙向互動(dòng)”轉(zhuǎn)變,破解了食品安全信息不對(duì)稱。總之,AI正在助力構(gòu)建一個(gè)全域、全程、全員的食品安全智慧治理新范式,有望實(shí)現(xiàn)從農(nóng)田到餐桌的全鏈條保障。

近年來,江南大學(xué)食品安全研究團(tuán)隊(duì)走訪、學(xué)習(xí)了諸多省、設(shè)區(qū)市與縣(市、區(qū))市場監(jiān)管局正在建設(shè)的“AI+食品安全監(jiān)管智能化”平臺(tái)(以下簡稱“AI+平臺(tái)”)等,考察了AI此領(lǐng)域的應(yīng)用場景,深受鼓勵(lì)、啟發(fā)。然而,在考察中發(fā)現(xiàn)不少地方在建設(shè)“AI+平臺(tái)”中似乎也有不少問題,突出的問題是沒有或很少基于食品安全風(fēng)險(xiǎn)治理語料庫,沒有科學(xué)地對(duì)語料進(jìn)行標(biāo)注。本文基于食品安全風(fēng)險(xiǎn)管理學(xué)角度就簡單作一些介紹。

食品安全語料庫與語料標(biāo)注

食品安全語料庫是一個(gè)大規(guī)模、結(jié)構(gòu)化、機(jī)器可讀的文本數(shù)據(jù)集合,這些文本數(shù)據(jù)全部來源于食品安全領(lǐng)域。它不僅僅是簡單的文本堆積,而是經(jīng)過系統(tǒng)性的收集、清洗、標(biāo)注和組織的“知識(shí)寶庫”。食品安全語料庫是連接人工智能技術(shù)與食品安全治理實(shí)踐的核心橋梁,它是“燃料”之于引擎:沒有語料庫數(shù)據(jù),AI算法就無法訓(xùn)練和運(yùn)行;“詞典”之于翻譯:沒有語料庫,AI就無法理解食品安全領(lǐng)域的專業(yè)術(shù)語和上下文;“地圖”之于導(dǎo)航:沒有語料庫提供的知識(shí)結(jié)構(gòu),AI就無法在復(fù)雜的風(fēng)險(xiǎn)信息中找到路徑并進(jìn)行預(yù)測。食品安全語料庫的作用是引擎性的,直接賦能于風(fēng)險(xiǎn)感知、智能預(yù)測、知識(shí)服務(wù)和自動(dòng)化執(zhí)行四大核心應(yīng)用場景,最終推動(dòng)食品安全治理從“事后應(yīng)對(duì)”向“事前預(yù)警、事中管控”的現(xiàn)代化、智能化模式轉(zhuǎn)型。沒有高質(zhì)量的專業(yè)語料庫,人工智能在垂直領(lǐng)域的應(yīng)用就是“無米之炊”“無源之水”。

在食品安全語料庫的建設(shè)中,標(biāo)注(Annotation) 絕不是簡單的“打標(biāo)簽”,而是將原始文本數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解和可學(xué)習(xí)知識(shí)的關(guān)鍵過程。它起到了承上啟下、定義AI能力邊界的核心作用。在食品安全語料庫建設(shè)中,標(biāo)注的作用是核心且不可替代的。它具有連接非結(jié)構(gòu)化的原始文本與結(jié)構(gòu)化機(jī)器知識(shí)的橋梁作用;具有決定AI模型能夠?qū)W習(xí)什么任務(wù),以及能達(dá)到多高性能天花板的定義作用;具有構(gòu)建食品安全知識(shí)圖譜和所有高級(jí)AI應(yīng)用(風(fēng)險(xiǎn)預(yù)警、智能問答、輿情分析)的基石作用。在標(biāo)注上的資源(制定規(guī)范、人員培訓(xùn)、質(zhì)量校驗(yàn))是對(duì)整個(gè)“AI+平臺(tái)”項(xiàng)目未來成功與否的最重要投資之一。

食品安全語料標(biāo)注的價(jià)值

語料標(biāo)注的核心價(jià)值與意義。從食品安全風(fēng)險(xiǎn)管理學(xué)角度而言,其價(jià)值可以從理論研究和技術(shù)應(yīng)用兩個(gè)層面來理解。

對(duì)語言學(xué)理論研究的價(jià)值。第一,提供實(shí)證研究基礎(chǔ):標(biāo)注語料庫為語言學(xué)家提供了大規(guī)模、可量化的真實(shí)語言證據(jù),使語言研究從基于內(nèi)省和孤例句的方法,轉(zhuǎn)向基于實(shí)際使用數(shù)據(jù)的實(shí)證研究。研究者可以分析標(biāo)注信息來驗(yàn)證或挑戰(zhàn)現(xiàn)有的語言學(xué)理論。第二,揭示語言規(guī)律:通過標(biāo)注詞性、句法結(jié)構(gòu)等,可以系統(tǒng)地研究詞匯的分布規(guī)律、句法模式的偏好、不同文體或語域的語言特征等。例如,可以輕松地統(tǒng)計(jì)出“發(fā)展”這個(gè)詞最常作為動(dòng)詞還是名詞使用。第三,記錄語言演變:對(duì)不同時(shí)期的語料進(jìn)行標(biāo)注和對(duì)比,可以清晰地追蹤語言的動(dòng)態(tài)變化,如新詞的產(chǎn)生、舊詞的消亡、語法結(jié)構(gòu)的變遷等。

自然語言處理(NLP)技術(shù)應(yīng)用價(jià)值。這是語料標(biāo)注最為關(guān)鍵的價(jià)值,它是連接人類語言與機(jī)器智能的橋梁。第一,為機(jī)器學(xué)習(xí)模型提供“標(biāo)準(zhǔn)答案”:絕大多數(shù)主流的NLP模型(如深度學(xué)習(xí)模型)都是監(jiān)督學(xué)習(xí)模型。它們需要大量的標(biāo)注數(shù)據(jù)作為訓(xùn)練集來學(xué)習(xí)規(guī)律。沒有標(biāo)注,模型就無從學(xué)起。第二,提升模型的性能與精度:高質(zhì)量的標(biāo)注數(shù)據(jù)直接決定了模型性能的上限。更精細(xì)、更一致的標(biāo)注可以幫助模型學(xué)到更準(zhǔn)確、更細(xì)微的語言規(guī)律,從而在執(zhí)行任務(wù)(如機(jī)器翻譯、語音識(shí)別)時(shí)獲得更高的準(zhǔn)確率。第三,實(shí)現(xiàn)更復(fù)雜的NLP任務(wù):基礎(chǔ)標(biāo)注(如分詞、詞性)是更復(fù)雜任務(wù)的基礎(chǔ)。例如:句法分析依賴于詞語的詞性標(biāo)注;命名實(shí)體識(shí)別(識(shí)別出人名、地名、機(jī)構(gòu)名等)需要相應(yīng)的實(shí)體標(biāo)注;關(guān)系抽?。ㄌ崛?shí)體間的語義關(guān)系)和事件抽取等高級(jí)任務(wù),更是依賴于大量精細(xì)的語義標(biāo)注。第四,作為模型評(píng)估的“黃金標(biāo)準(zhǔn)”:高質(zhì)量的標(biāo)注好測試集是評(píng)估不同NLP算法性能優(yōu)劣的客觀基準(zhǔn)。沒有統(tǒng)一的標(biāo)注標(biāo)準(zhǔn),就無法公平地比較不同模型的性能。

食品安全語料標(biāo)注的層次與類型

語料標(biāo)注是一個(gè)多層次體系,從淺到深,信息越來越豐富。

詞法層面。第一,分詞,對(duì)于中文等沒有自然空格分隔的語言,這是首要步驟,對(duì)于食品安全風(fēng)險(xiǎn)治理專業(yè)領(lǐng)域的分詞,還需要加入專業(yè)領(lǐng)域的詞典;第二,詞性標(biāo)注。為每個(gè)詞語標(biāo)注其詞性(如名詞、動(dòng)詞、形容詞等),這是最基礎(chǔ)、最廣泛的標(biāo)注。

語義層面。第一,命名實(shí)體識(shí)別:標(biāo)注文本中的專有名稱,在食品安全領(lǐng)域,如,微生物污染、保健食品等,這需要在實(shí)踐中逐步探索。第二,語義角色標(biāo)注:標(biāo)注句子中謂語動(dòng)詞的論元結(jié)構(gòu)(如誰實(shí)施了動(dòng)作、對(duì)誰實(shí)施了動(dòng)作、在哪里實(shí)施)。第三,情感標(biāo)注:標(biāo)注文本中表達(dá)的情感傾向(正面、負(fù)面、中性)及強(qiáng)度。第四,詞義標(biāo)注:為多義詞在特定語境中的含義標(biāo)注其具體的義項(xiàng)。

句法與語用/篇章層面。句法包括句法分析/依存分析等,明確標(biāo)注句子中詞語之間的語法關(guān)系。語用/篇章層面主要是共指消解標(biāo)注。標(biāo)注指向同一實(shí)體的不同表述。比如,黃曲霉毒素B1,其有如下不同表述:標(biāo)準(zhǔn)學(xué)名為黃曲霉毒素B1 (Aflatoxin B1, AFB1),簡稱為黃曲霉毒素,泛稱為霉菌毒素等。再比如,三文魚,其有如下不同表述:商品通用名為三文魚,學(xué)名為大西洋鮭 (Salmo salar)等。當(dāng)然還有語篇結(jié)構(gòu)標(biāo)注,即標(biāo)注文本中的段落、修辭結(jié)構(gòu)、論點(diǎn)等。

食品安全語料標(biāo)注面臨挑戰(zhàn)與未來方向

盡管價(jià)值巨大,但語料標(biāo)注也面臨諸多挑戰(zhàn)。主要是成本高昂,高質(zhì)量的人工標(biāo)注需要語言學(xué)專業(yè)人士投入大量時(shí)間和精力,費(fèi)用昂貴;一致性問題,不同的標(biāo)注員對(duì)同一語言現(xiàn)象可能有不同的理解,如何保證標(biāo)注標(biāo)準(zhǔn)的一致性是一個(gè)巨大挑戰(zhàn),需要制定詳盡的標(biāo)注規(guī)范;主觀性,對(duì)于一些任務(wù)(如情感分析、文本蘊(yùn)含),其邊界可能是模糊的,標(biāo)注帶有一定主觀性;動(dòng)態(tài)性,語言在不斷變化,新的表達(dá)方式和術(shù)語層出不窮,標(biāo)注體系也需要不斷更新。

食品安全語料庫標(biāo)注的未來方向是:人機(jī)協(xié)同標(biāo)注,利用模型進(jìn)行預(yù)標(biāo)注,再由人工進(jìn)行校對(duì)和修正,大幅提升效率;主動(dòng)學(xué)習(xí),讓模型主動(dòng)選擇那些最能提升自身性能的、最有價(jià)值的語料交給人類標(biāo)注,最大化標(biāo)注的效益;弱監(jiān)督與自監(jiān)督學(xué)習(xí),減少對(duì)大量人工標(biāo)注數(shù)據(jù)的依賴,嘗試從非標(biāo)注數(shù)據(jù)中自動(dòng)學(xué)習(xí)。

食品安全語料標(biāo)注是語料庫從“原材料”升級(jí)為“高附加值資產(chǎn)”的關(guān)鍵工序。它不僅是語言學(xué)研究的寶貴資源,更是驅(qū)動(dòng)現(xiàn)代自然語言處理技術(shù)和大語言模型發(fā)展的核心燃料和基礎(chǔ)設(shè)施。沒有高質(zhì)量的語言標(biāo)注,就不會(huì)有今天如此智能和普及的機(jī)器翻譯、語音助手、智能客服等AI應(yīng)用。它的價(jià)值在于將人類對(duì)語言的理解,清晰地“翻譯”給機(jī)器,從而教會(huì)機(jī)器如何理解和運(yùn)用人類語言。(作者系江南大學(xué)食品安全與國家戰(zhàn)略治理實(shí)驗(yàn)室首席專家吳林海)