E2E-MLT
E2E-MLT -- 用于多语言场景文本的不受约束的端到端方法,代码库为:https://arxiv.org/abs/1801.09919
@@inproceedings{buvsta2018e2e, title={E2E-MLT-an unconstrained end-to-end method for multi-language scene text}, author={Bu{\v{s}}ta, Michal and Patel, Yash and Matas, Jiri}, booktitle={Asian Conference on Computer Vision}, pages={127--143}, year={2018}, organization={Springer} }
要求
- python3.x with
- opencv-python
- pytorch 0.4.1
- torchvision
- warp-ctc(https://github.com/SeanNaren/warp-ctc/)
预训练模型
wget http://ptak.felk.cvut.cz/public_datasets/SyntText/e2e-mlt.h5
运行演示
python3 demo.py -model=e2e-mlt.h5
数据
- ICDAR MLT Dataset
- ICDAR 2015 Dataset
- RCTW-17
- Synthetic MLT Data (Arabic, Bangla, Chinese, Japanese, Korean, Latin, Hindi )
- 并将 GT 转换为 icdar MLT 格式(请参阅: http://rrc.cvc.uab.es/?ch=8&com=tasks) ( Arabic, Bangla, Chinese, Japanese, Korean, Latin, Hindi )
合成文本是使用“Synthetic Data for Text Localisation in Natural Images(用于自然图像中文本本地化的合成数据)”生成的,对阿拉伯语和孟加拉语脚本渲染进行了较小的更改。
我们发现有用的东西:
- 用于生成阿拉伯语场景文本:https://github.com/mpcabd/python-arabic-reshaper
- 用于生成 Bangla 场景文本:PyQt4
- 有人可以阅读非拉丁文字:我们要感谢 Ali Anas 审阅了生成的阿拉伯语场景文字。
训练
python3 train.py -train_list=sample_train_data/MLT/trainMLT.txt -batch_size=8 -num_readers=5 -debug=0 -input_size=512 -ocr_batch_size=256 -ocr_feed_list=sample_train_data/MLT_CROPS/gt.txt
致谢
代码从 EAST 和 DeepTextSpotter 借用。
(The first version translated by vz on 2020.08.05)