台灣客語語料庫 預計2022年上線

  • 時間:2019-11-29 17:18
  • 新聞引據:中央社
  • 撰稿編輯:陳子華

客家委員會今天(29日)表示,透過台灣客語語料庫,除了能將台灣客語數位化典藏外,未來結合AI還能有更多應用;這是全世界第一個由官方帶頭建置的客語語料庫,預計2022年正式上線。

客委會29日舉辦「台灣客語語料庫建置階段成果發表會」,已處理包含書面500萬字、口語10萬筆資料,除保存台灣客語、進行數位化典藏外,更有機會將客語語料結合AI,能在教育、研究及翻譯上有更多應用,這是全台、也是全世界第一個由官方帶頭建置的客語語料庫。

客委會主委李永得表示,語料庫是透過政治大學的團隊,從語言、資訊工程、傳播領域等專業結合;未來客語語料搭配AI可以應用在翻譯上,若有外國人來到客家庄,透過翻譯都可以走得通,讓客家話可以和全世界的語言對話。

政大英國語文學系特聘教授賴惠玲表示,她一直以來都在從事客語語料的研究,但與公部門合作,最重要的是能取得授權,讓這些內容能夠公開應用;現在這個階段是在打基礎,累積文字和口語的材料後,未來在教學、語音合成、語音辨識或翻譯都能做到。

客委會表示,台灣客語語料庫耗資約新台幣6000萬元,已經完成書面語料授權316筆出版品、149筆單篇文章,並完成語料庫斷詞系統、權威詞控管系統與後台管理初步規劃,預計於2022年底正式上線。

相關留言

本分類最新更多