技術

                                          賽事評獎|“中文保險小樣本多任務競賽”知識工場團隊方案——2022AIWIN(春季)世界人工智能創新大賽優秀方案分享系列

                                          2025China.cn   2022年08月08日

                                          賽事評獎

                                            賽事評獎是世界人工智能大會(WAIC)“會、展、賽、用”四大板塊之一,由世界人工智能大會組委會主辦,上海市人工智能行業協會作為唯一組織、服務、支撐和管理單位。

                                            WAIC 2022現有品牌賽事包括:AIWIN世界人工智能創新大賽,BPAA全球算法最佳實踐典范大賽,黑客馬拉松和團市委青少年人工智能創新大賽。根據世界人工智能大會SAIL獎的推薦規則和資格要求,品牌賽事承辦方將有機會推薦本賽事中的優秀項目參與SAIL獎評選。

                                            2022年AIWIN世界人工智能創新大賽春季賽與太平洋保險、國泰君安、SMG技術中心(上海東方傳媒技術有限公司)三家出題方聯合舉辦了中文保險小樣本多任務競賽、發債企業的違約風險預警競賽、文本語音驅動數字人表情口型競賽三場AI算法技術賽事。目前中文保險小樣本多任務競賽、發債企業的違約風險預警競賽已完成競賽,為了讓小伙伴們更好地通過賽事交流學習,在7-8月之間每周二,我們將陸續邀請優秀的賽事團隊分享賽事方案,大家敬請期待。

                                            今天分享的是“中文保險小樣本多任務競賽”知識工廠團隊的方案,他們獲得本賽題的第6名。

                                          1.團隊簡介

                                            陸軒韜

                                            復旦大學 軟件工程 碩士研究生二年級 @知識工場實驗室

                                            本科畢業于 華東師范大學 計算機科學與技術

                                            字節跳動 AI-LAB NLP算法工程師(實習)

                                            曾多次在國內外自然語言處理競賽中獲得top名次與獎項

                                            過往獲獎情況:

                                            ? 2022 Kaggle - Feedback Prize - Evaluating Student Writing 銀牌

                                            ? 2022 山東省第三屆數據應用創新創業大賽 - 網格事件智能分類 亞軍

                                            ? 2021 iFLYTEK 科大訊飛AI 開發者大賽-非標準化疾病訴求的簡單分診挑戰賽 冠軍

                                            ? 2021 CCKS 華為-面向通信領域的事件共指消解任務 亞軍

                                            ? 2021 iFLYTEK 科大訊飛AI 開發者大賽-試題標簽預測挑戰賽 季軍

                                            ? 2021 DIGIX 華為全球校園AI 算法精英大賽-基于多模型遷移預訓練文章質量判別 季軍

                                          2.賽題理解與問題建模

                                            賽題理解:

                                            本次賽題目標為探索統一范式的多任務小樣本學習。

                                            多任務:

                                            賽題覆蓋了保險真實業務場景中常見的保險領域、醫療領域和金融領域,包括文本分類、文本相似度、自然語言推斷、命名實體識別和機器閱讀理解等五大基礎自然語言理解任務,具體為18個保險業務場景中的常見任務。

                                            小樣本:

                                            為了還原真實業務場景中大規模高質量標注數據積累困難的情況,訓練集從18個任務中選取了14個作為訓練集任務,每個任務提供20條標注樣本,共計280條標注樣本。測試集從18個任務中選取了14個作為測試集任務,每個任務提供400條測試樣本,分A/B榜測試。

                                            問題建模:

                                            由于預訓練語言模型在NLP領域中大放異彩,因此是本次比賽中不可或缺的一部分。

                                            具體地,有以下兩類方案:

                                            1.使用NLU類型的預訓練語言模型。由于本次賽題的任務都屬于NLU范疇,因此可以使用諸如BERT之類的NLU模型進行建模。

                                            2.使用NLG類型的預訓練語言模型(諸如T5,BART),將所有的任務都轉換為序列生成任務,也是baseline中的做法。

                                            由于部分任務只在測試集中出現而沒有相應的訓練樣本,如果使用BERT等NLU模型無法有效處理這部分任務,因此我采用第二種方案。

                                          3.數據探索與特征工程

                                            模型結構:

                                            訓練集從18個自然語言處理任務中選取了14個作為訓練集任務,每個任務提供20條標注樣本,共計280條標注樣本。

                                            測試集從18個任務中選取了14個作為測試集任務,每個任務提供400條測試樣本,A/B榜各200條。

                                            此外,主辦方還提供70個開源數據集,每個數據集從原始數據中采樣約500條(共計70*500條數據),構建了opensource_sample_500.json,用于輔助統一模型訓練。

                                            數據增強:

                                            擾動verbalizer在instruction中的出現順序。通過該方法可以利用一條數據生成多條數據。

                                            該數據增強方法可同時應用于opensource訓練數據,instruction訓練數據,以及instruction測試數據。

                                          4.模型訓練

                                            模型選擇(方案一)

                                            BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

                                            模型選擇(方案二)

                                            CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

                                            模型選擇(方案三)

                                            mT5: A massively multilingual pre-trained text-to-text transformer

                                            不同模型在opensource驗證集上的表現

                                            mt5-large > cpt-large > bart-large

                                            因此模型最終選擇方案三

                                            即int8量化的單模單折mt5-large模型

                                          5.Tricks

                                            1.在數據增強部分有提到:該增強方法可同時應用于opensource訓練數據,instruction訓練數據,以及instruction測試數據。實驗發現對于opensource訓練數據和instruction訓練數據的增強并不會帶來收益,因此只對instruction測試數據進行了增強。

                                            2.Constrained decoding:分析bad case的時候,發現有部分生成的結果未出現在verbalizer(即候選項中),可以通過constrained decoding強制輸出中出現verbalizer 中的token。然而這類bad case并不多,會影響萬分位。

                                            Ximing Lu, et al. [2021] NEUROLOGIC A*esque Decoding: Constrained Text Generation with Lookahead Heuristics.

                                          6.實驗結果

                                            A榜主要實驗結果

                                          7.總結

                                            1.量化過的大模型相較于同量級的小模型,通常能夠取得更好的結果,并擁有更快的推理速度。

                                            2.Inference Ensemble(數據增強)能夠在只使用單一模型的情況下,同樣達到良好的集成效果。

                                            3.Constrained decoding:學術界的熱點問題之一,比賽中這類bad case并不多,所以效果不明顯,但是仍不失為是一個很有前景的方法。

                                            4.小樣本場景下,引入額外的外部數據能夠有效地幫助模型達到一個更好的初始狀態。

                                          想一起交流學習的小伙伴

                                          可掃碼加入“AIWIN算法競賽俱樂部”

                                          掃碼完成云觀眾預注冊

                                          (來源:世界人工智能大會)

                                          標簽:世界人工智能大會 我要反饋 
                                          進博會
                                          西克
                                          2022貿澤電子技術創新周-汽車
                                          專題報道
                                          安全傳輸 高效運維——研華保姆級邊緣網關 讓設備智能暢聯
                                          安全傳輸 高效運維——研華保姆級邊緣網關 讓設備智能暢聯

                                          為了進一步解決當前因場域分散、網域限制、網絡安全、成本攀升等引發的數據安全、集中遠程運維等問題與訴求,10月26日下午1

                                          有效應對自控系統疑難故障,免受環境影響
                                          有效應對自控系統疑難故障,免受環境影響

                                          多數自動化控制系統,如自動化設備、工廠、產線等常常受到作業現場惡劣環境影響,造成控制失靈等間歇性故障。了解常見的自動化系

                                          科技之眼 - 思特威影像感測器的新視界
                                          科技之眼 - 思特威影像感測器的新視界

                                          透過此線上研討會的介紹,來一探SmartSens影像感測器的應用與優勢,除了了解影像感測器的技術與成像方式,以及對應不同

                                          24小时日本高清免费A片