OpenCLaP：多领域开源中文预训练语言模型仓库

项目简介

OpenCLaP（Open Chinese Language Pre-trained Model Zoo）是由清华大学人工智能研究院自然语言处理与社会人文计算研究中心推出的一个多领域中文预训练模型仓库。预训练语言模型通过在大规模文本上进行预训练，可以作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。该模型仓库具有如下几个特点：

多领域。我们目前训练出了基于法律文本和百度百科的预训练模型，以提供多样化的可选择模型。
能力强。我们使用了当前主流的 BERT 模型作为预训练的神经网络结构，并支持最大 512 长度的文本输入来适配更加多样的任务需求。
持续更新。我们将在近期加入更多的预训练模型，如增加更多样的训练语料，使用最新的全词覆盖（Whole Word Masking）训练策略等。

模型概览

以下是我们目前公开发布的模型概览：

名称与所有者	thunlp/OpenCLaP
主编程语言
编程语言	(语言数: 0)
平台
许可证	MIT License

名称与所有者

thunlp/OpenCLaP

主编程语言

编程语言

(语言数: 0)

平台

许可证

MIT License

创建于	2019-07-01 02:23:06
推送于	2020-03-18 12:26:29
最后一次提交	2020-03-18 20:26:29
发布数	0

创建于

2019-07-01 02:23:06

推送于

2020-03-18 12:26:29

最后一次提交

2020-03-18 20:26:29

发布数

星数	1k
关注者数	35
派生数	147
提交数	14
已启用问题?
问题数	20
打开的问题数	4
拉请求数	0
打开的拉请求数	0
关闭的拉请求数	0

星数

关注者数

派生数

147

提交数

已启用问题?

问题数

打开的问题数

拉请求数

打开的拉请求数

关闭的拉请求数

已启用Wiki?
已存档?
是复刻?
已锁定?
是镜像?
是私有?

已启用Wiki?

已存档?

是复刻?

已锁定?

是镜像?

是私有?

OpenCLaP

Github星跟踪图

OpenCLaP：多领域开源中文预训练语言模型仓库

目录

项目简介

模型概览

主要指标