chinese_ulmfit

中文ULMFiT 情感分析 文本分类

Github星跟蹤圖

中文ULMFiT

Universal Language Model Fine-tuning for Text Classification

下载预训练的模型

创建虚拟环境(可以配置清华conda源

conda env create -f env.yml

解压中文维基百科语料

python -m gensim.scripts.segment_wiki -i -f /data/zhwiki-latest-pages-articles.xml.bz2 -o tmp/wiki2018-11-14.json.gz

分词维基百科语料

python preprocessing.py segment-wiki --input_file=tmp/wiki2018-11-14.json.gz --output_file=tmp/wiki2018-11-14.words.pkl

分词领域语料

python preprocessing.py segment-csv --input_file=data/ch_auto.csv --output_file=tmp/ch_auto.words.pkl --label_file=tmp/ch_auto.labels.npy

tokenize维基百科语料

python preprocessing.py tokenize --input_file=tmp/wiki2018-11-14.words.pkl --output_file=tmp/wiki2018-11-14.ids.npy --mapping_file=tmp/wiki2018-11-14.mapping.pkl

tokenize领域语料

python preprocessing.py tokenize --input_file=tmp/ch_auto.words.pkl --output_file=tmp/ch_auto.ids.npy --mapping_file=tmp/ch_auto.mapping.pkl

预训练

python pretraining.py --input_file=tmp/wiki2018-11-14.ids.npy --mapping_file=tmp/wiki2018-11-14.mapping.pkl --dir_path=tmp

微调

python finetuning.py --input_file=tmp/ch_auto.ids.npy --mapping_file=tmp/ch_auto.mapping.pkl --pretrain_model_file=tmp/models/wiki2018-11-14.h5 --pretrain_mapping_file=tmp/wiki2018-11-14.mapping.pkl --dir_path=tmp --model_id=ch_auto

训练分类器

python3 train_classifier.py  --id_file=tmp/ch_auto.ids.npy --label_file=tmp/ch_auto.labels.npy --mapping_file=tmp/ch_auto.mapping.pkl  --encoder_file=ch_auto_enc

测试

python3 predicting.py --mapping_file=tmp/ch_auto.mapping.pkl --classifier_filename=tmp/models/classifier_1.h5 --num_class=2

主要指標

概覽
名稱與所有者practicingman/chinese_ulmfit
主編程語言Python
編程語言Python (語言數: 1)
平台
許可證
所有者活动
創建於2018-11-18 10:00:41
推送於2019-01-07 08:11:51
最后一次提交2019-01-07 16:11:50
發布數0
用户参与
星數261
關注者數8
派生數40
提交數7
已啟用問題?
問題數13
打開的問題數0
拉請求數0
打開的拉請求數0
關閉的拉請求數0
项目设置
已啟用Wiki?
已存檔?
是復刻?
已鎖定?
是鏡像?
是私有?