OpenCLaP：多领域开源中文预训练语言模型仓库

项目简介

OpenCLaP（Open Chinese Language Pre-trained Model Zoo）是由清华大学人工智能研究院自然语言处理与社会人文计算研究中心推出的一个多领域中文预训练模型仓库。预训练语言模型通过在大规模文本上进行预训练，可以作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。该模型仓库具有如下几个特点：

多领域。我们目前训练出了基于法律文本和百度百科的预训练模型，以提供多样化的可选择模型。
能力强。我们使用了当前主流的 BERT 模型作为预训练的神经网络结构，并支持最大 512 长度的文本输入来适配更加多样的任务需求。
持续更新。我们将在近期加入更多的预训练模型，如增加更多样的训练语料，使用最新的全词覆盖（Whole Word Masking）训练策略等。

模型概览

以下是我们目前公开发布的模型概览：

Name With Owner	thunlp/OpenCLaP
Primary Language
Program language	(Language Count: 0)
Platform
License:	MIT License

Name With Owner

thunlp/OpenCLaP

Primary Language

Program language

(Language Count: 0)

Platform

License:

MIT License

Created At	2019-07-01 02:23:06
Pushed At	2020-03-18 12:26:29
Last Commit At	2020-03-18 20:26:29
Release Count	0

Created At

2019-07-01 02:23:06

Pushed At

2020-03-18 12:26:29

Last Commit At

2020-03-18 20:26:29

Release Count

Stargazers Count	1k
Watchers Count	35
Fork Count	147
Commits Count	14
Has Issues Enabled
Issues Count	20
Issue Open Count	4
Pull Requests Count	0
Pull Requests Open Count	0
Pull Requests Close Count	0

Stargazers Count

Watchers Count

Fork Count

147

Commits Count

Has Issues Enabled

Issues Count

Issue Open Count

Pull Requests Count

Pull Requests Open Count

Pull Requests Close Count

Has Wiki Enabled
Is Archived
Is Fork
Is Locked
Is Mirror
Is Private

Has Wiki Enabled

Is Archived

Is Fork

Is Locked

Is Mirror

Is Private

OpenCLaP

Github stars Tracking Chart

OpenCLaP：多领域开源中文预训练语言模型仓库

目录

项目简介

模型概览

Main metrics