Tencent2017_Final_Coda_Allegro

腾讯2017社交广告源码(决赛排名第23位)

Github stars Tracking Chart

Tencen2017_Fianl_Coda_Allegro

腾讯2017广告大赛的代码。可惜只排名到了23名,很是可惜。模型很少,融合效果较差。跪在了最后阶段。
本人机器只有16G内存。因此本套代码可以保证运行不会出现要挂通宵的情况(stacking部分除外,这个大概要几小时)。速度相对可观。
最后使用的特征一共50维左右。

具体的参赛过程,特征提取思路请参照我写的博客:http://blog.csdn.net/haphapyear/article/details/75057407


1.特征我们是一个个版本生成的。代码中标有生成步骤。要V1-V9一步步生成。部分文件需要先生成才能进行特征提取。例如用户点击记录等。

2.原始数据放在data/origin下,其余的中间数据按照目录保存

3.第30天的数据,特征生成步骤一样,是后面加上去的。最终模型用上了,原始模型只用了28,29两天来训练。代码在day30目录下。
*第30天的代码有个BUG我已标出。但是我比赛时是带着它调模型的,因此改正后效果比改正前要差点。也许改正BUG后通过调整模型可以得到比原来更好的结果,可以自行尝试。

4.最终模型说明。
用28,29,20天数据生成lgb模型(模型1)
用xgb生成stacking作为特征加上原始特征训练lgb模型(模型2)
用lgb生成stacking作为特征加上原始特征训练xgb模型(模型3)
融合模型:(0.25模型一结果+0.25模型二结果+0.5*模型3)
最终模型:讲融合模型的均值按比例提高到0.0273

原始数据下载地址:http://pan.baidu.com/s/1gflA8T1

附:2018届腾讯社交赛决赛代码:https://github.com/BladeCoda/Tencent2018_Final_Phrase_Presto

Main metrics

Overview
Name With OwnerSeparius/BERT-keras
Primary LanguagePython
Program languagePython (Language Count: 2)
Platform
License:GNU General Public License v3.0
所有者活动
Created At2018-10-23 06:26:07
Pushed At2019-07-26 09:36:13
Last Commit At2019-07-26 14:06:12
Release Count0
用户参与
Stargazers Count814
Watchers Count29
Fork Count196
Commits Count56
Has Issues Enabled
Issues Count23
Issue Open Count7
Pull Requests Count4
Pull Requests Open Count0
Pull Requests Close Count0
项目设置
Has Wiki Enabled
Is Archived
Is Fork
Is Locked
Is Mirror
Is Private