OpenCLaP

多领域开源中文预训练语言模型仓库。「Open Chinese Language Pre-trained Model Zoo」

Github星跟蹤圖

OpenCLaP:多领域开源中文预训练语言模型仓库

目录

项目简介

OpenCLaP(Open Chinese Language Pre-trained Model Zoo)是由清华大学人工智能研究院自然语言处理与社会人文计算研究中心推出的一个多领域中文预训练模型仓库。预训练语言模型通过在大规模文本上进行预训练,可以作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。该模型仓库具有如下几个特点:

  • 多领域。我们目前训练出了基于法律文本和百度百科的预训练模型,以提供多样化的可选择模型。
  • 能力强。我们使用了当前主流的 BERT 模型作为预训练的神经网络结构,并支持最大 512 长度的文本输入来适配更加多样的任务需求。
  • 持续更新。我们将在近期加入更多的预训练模型,如增加更多样的训练语料,使用最新的全词覆盖(Whole Word Masking)训练策略等。

模型概览

以下是我们目前公开发布的模型概览:

概覽

名稱與所有者thunlp/OpenCLaP
主編程語言
編程語言 (語言數: 0)
平台
許可證MIT License
發布數0
創建於2019-07-01 02:23:06
推送於2020-03-18 12:26:29
最后一次提交2020-03-18 20:26:29
星數1k
關注者數36
派生數144
提交數14
已啟用問題?
問題數19
打開的問題數3
拉請求數0
打開的拉請求數0
關閉的拉請求數0
已啟用Wiki?
已存檔?
是復刻?
已鎖定?
是鏡像?
是私有?
去到頂部