OpenCLaP：多领域开源中文预训练语言模型仓库

项目简介

OpenCLaP（Open Chinese Language Pre-trained Model Zoo）是由清华大学人工智能研究院自然语言处理与社会人文计算研究中心推出的一个多领域中文预训练模型仓库。预训练语言模型通过在大规模文本上进行预训练，可以作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。该模型仓库具有如下几个特点：

多领域。我们目前训练出了基于法律文本和百度百科的预训练模型，以提供多样化的可选择模型。
能力强。我们使用了当前主流的 BERT 模型作为预训练的神经网络结构，并支持最大 512 长度的文本输入来适配更加多样的任务需求。
持续更新。我们将在近期加入更多的预训练模型，如增加更多样的训练语料，使用最新的全词覆盖（Whole Word Masking）训练策略等。

模型概览

以下是我们目前公开发布的模型概览：

名稱與所有者	thunlp/OpenCLaP
主編程語言
編程語言	(語言數: 0)
平台
許可證	MIT License

名稱與所有者

thunlp/OpenCLaP

主編程語言

編程語言

(語言數: 0)

平台

許可證

MIT License

創建於	2019-07-01 02:23:06
推送於	2020-03-18 12:26:29
最后一次提交	2020-03-18 20:26:29
發布數	0

創建於

2019-07-01 02:23:06

推送於

2020-03-18 12:26:29

最后一次提交

2020-03-18 20:26:29

發布數

星數	1k
關注者數	35
派生數	147
提交數	14
已啟用問題?
問題數	20
打開的問題數	4
拉請求數	0
打開的拉請求數	0
關閉的拉請求數	0

星數

關注者數

派生數

147

提交數

已啟用問題?

問題數

打開的問題數

拉請求數

打開的拉請求數

關閉的拉請求數

已啟用Wiki?
已存檔?
是復刻?
已鎖定?
是鏡像?
是私有?

已啟用Wiki?

已存檔?

是復刻?

已鎖定?

是鏡像?

是私有?

OpenCLaP

Github星跟蹤圖

OpenCLaP：多领域开源中文预训练语言模型仓库

目录

项目简介

模型概览

主要指標