賽事評獎
賽事評獎是世界人工智能大會(WAIC)“會、展、賽、用”四大板塊之一,由世界人工智能大會組委會主辦,上海市人工智能行業協會作為唯一組織、服務、支撐和管理單位。
WAIC 2022現有品牌賽事包括:AIWIN世界人工智能創新大賽,BPAA全球算法最佳實踐典范大賽,黑客馬拉松和團市委青少年人工智能創新大賽。根據世界人工智能大會SAIL獎的推薦規則和資格要求,品牌賽事承辦方將有機會推薦本賽事中的優秀項目參與SAIL獎評選。
2022年AIWIN世界人工智能創新大賽春季賽與太平洋保險、國泰君安、SMG技術中心(上海東方傳媒技術有限公司)三家出題方聯合舉辦了中文保險小樣本多任務競賽、發債企業的違約風險預警競賽、文本語音驅動數字人表情口型競賽三場AI算法技術賽事。目前中文保險小樣本多任務競賽、發債企業的違約風險預警競賽已完成競賽,為了讓小伙伴們更好地通過賽事交流學習,在7-8月之間每周二,我們將陸續邀請優秀的賽事團隊分享賽事方案,大家敬請期待。
今天分享的是“中文保險小樣本多任務競賽”知識工廠團隊的方案,他們獲得本賽題的第6名。
1.團隊簡介
陸軒韜
復旦大學 軟件工程 碩士研究生二年級 @知識工場實驗室
本科畢業于 華東師范大學 計算機科學與技術
字節跳動 AI-LAB NLP算法工程師(實習)
曾多次在國內外自然語言處理競賽中獲得top名次與獎項
過往獲獎情況:
? 2022 Kaggle - Feedback Prize - Evaluating Student Writing 銀牌
? 2022 山東省第三屆數據應用創新創業大賽 - 網格事件智能分類 亞軍
? 2021 iFLYTEK 科大訊飛AI 開發者大賽-非標準化疾病訴求的簡單分診挑戰賽 冠軍
? 2021 CCKS 華為-面向通信領域的事件共指消解任務 亞軍
? 2021 iFLYTEK 科大訊飛AI 開發者大賽-試題標簽預測挑戰賽 季軍
? 2021 DIGIX 華為全球校園AI 算法精英大賽-基于多模型遷移預訓練文章質量判別 季軍
2.賽題理解與問題建模
賽題理解:
本次賽題目標為探索統一范式的多任務小樣本學習。
多任務:
賽題覆蓋了保險真實業務場景中常見的保險領域、醫療領域和金融領域,包括文本分類、文本相似度、自然語言推斷、命名實體識別和機器閱讀理解等五大基礎自然語言理解任務,具體為18個保險業務場景中的常見任務。
小樣本:
為了還原真實業務場景中大規模高質量標注數據積累困難的情況,訓練集從18個任務中選取了14個作為訓練集任務,每個任務提供20條標注樣本,共計280條標注樣本。測試集從18個任務中選取了14個作為測試集任務,每個任務提供400條測試樣本,分A/B榜測試。
問題建模:
由于預訓練語言模型在NLP領域中大放異彩,因此是本次比賽中不可或缺的一部分。
具體地,有以下兩類方案:
1.使用NLU類型的預訓練語言模型。由于本次賽題的任務都屬于NLU范疇,因此可以使用諸如BERT之類的NLU模型進行建模。
2.使用NLG類型的預訓練語言模型(諸如T5,BART),將所有的任務都轉換為序列生成任務,也是baseline中的做法。
由于部分任務只在測試集中出現而沒有相應的訓練樣本,如果使用BERT等NLU模型無法有效處理這部分任務,因此我采用第二種方案。
3.數據探索與特征工程
模型結構:
訓練集從18個自然語言處理任務中選取了14個作為訓練集任務,每個任務提供20條標注樣本,共計280條標注樣本。
測試集從18個任務中選取了14個作為測試集任務,每個任務提供400條測試樣本,A/B榜各200條。
此外,主辦方還提供70個開源數據集,每個數據集從原始數據中采樣約500條(共計70*500條數據),構建了opensource_sample_500.json,用于輔助統一模型訓練。
數據增強:
擾動verbalizer在instruction中的出現順序。通過該方法可以利用一條數據生成多條數據。
該數據增強方法可同時應用于opensource訓練數據,instruction訓練數據,以及instruction測試數據。
4.模型訓練
模型選擇(方案一)
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
模型選擇(方案二)
CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
模型選擇(方案三)
mT5: A massively multilingual pre-trained text-to-text transformer
不同模型在opensource驗證集上的表現
mt5-large > cpt-large > bart-large
因此模型最終選擇方案三
即int8量化的單模單折mt5-large模型
5.Tricks
1.在數據增強部分有提到:該增強方法可同時應用于opensource訓練數據,instruction訓練數據,以及instruction測試數據。實驗發現對于opensource訓練數據和instruction訓練數據的增強并不會帶來收益,因此只對instruction測試數據進行了增強。
2.Constrained decoding:分析bad case的時候,發現有部分生成的結果未出現在verbalizer(即候選項中),可以通過constrained decoding強制輸出中出現verbalizer 中的token。然而這類bad case并不多,會影響萬分位。
Ximing Lu, et al. [2021] NEUROLOGIC A*esque Decoding: Constrained Text Generation with Lookahead Heuristics.
6.實驗結果
A榜主要實驗結果
7.總結
1.量化過的大模型相較于同量級的小模型,通常能夠取得更好的結果,并擁有更快的推理速度。
2.Inference Ensemble(數據增強)能夠在只使用單一模型的情況下,同樣達到良好的集成效果。
3.Constrained decoding:學術界的熱點問題之一,比賽中這類bad case并不多,所以效果不明顯,但是仍不失為是一個很有前景的方法。
4.小樣本場景下,引入額外的外部數據能夠有效地幫助模型達到一個更好的初始狀態。
想一起交流學習的小伙伴
可掃碼加入“AIWIN算法競賽俱樂部”
掃碼完成云觀眾預注冊
(來源:世界人工智能大會)