大赛背景
神策数据推荐系统是基于神策分析平台的智能推荐系统。它针对客户需求和业务特点,并基于神策分析采集的用户行为数据使用机器学习算法来进行咨询、视频、商品等进行个性化推荐,为客户提供不同场景下的智能应用,如优化产品体验,提升点击率等核心的业务指标。 神策推荐系统是一个完整的学习闭环。采集的基础数据,通过机器学习的算法模型形成应用。效果实时验证,从而指导添加数据源,算法优化反馈形成一个全流程、实时、自动、可快速迭代的推荐闭环。
本次竞赛是模拟业务场景,以新闻文本的核心词提取为目的,最终结果达到提升推荐和用户画像的效果。
赛题描述
个性化推荐系统是神策智能系统的一个重要方面,精准的理解资讯的主题,是提升推荐系统效果的重要手段。
神策数据以一个真实的业务案例作为依托,提供了上千篇资讯文章及其关键词,参赛者需要训练出一个”关键词提取”的模型,提取10万篇资讯文章的关键词。
数据说明
提供下载的数据集包括两个部分: 1. all_docs.txt,108295篇资讯文章数据,数据格式为:ID 文章标题 文章正文,中间由\001分割。 2. train_docs_keywords.txt,1000篇文章的关键词标注结果,数据格式为:ID 关键词列表,中间由\t分割。
说明:
标注数据中每篇文章的关键词不超过5个。关键词都在文章的标题或正文中出现过。需要注意的是,“训练集文章的关键词构成的集合”与“测试集文章的关键词构成的集合”,这两个集合可能存在交集,但不一定存在包含与被包含的关系。
提交说明
1) 以csv格式提交,编码为UTF-8,第一行为表头; 2) 内含3列,一列为id,另两列为label1和label2; 3) id对应测试集中样本的id,label为参赛者的模型提取的新闻关键词。 4)若只有一个新闻关键词则不填label2。
格式如下:
id,label1,label2
D004685,韩晓,胡歌,
D103185,家常菜,
D090176,短视频,
注意:因为csv文件的标准分隔符为英文逗号,所以请不要保留label里面的英文逗号,以免出现错误
如果出现列数错误的提示,请检查提交文件的编码是否为“UTF-8”或者是否保留了label里面的英文逗号
错误示例:D027638,幸福的粉色系,"思索,4色"
时间安排
【线上提交】2018.8.30 到 2018.10.11.14:00。参赛选手根据任务要求准备算法方案并提交结果。大赛采用A/B榜,最终成绩以B榜为准。
【结果评审】2018.10.11 到 2018.10.25。为保证竞赛的公正、公平和成绩的有效性,B榜排行榜中满足参赛组队规则的前8名提交源代码供主办方审核,并由神策数据确定线下路演名单。不符合参赛组队规则的选手将取消获奖资格。
【线下路演】参赛者受邀参加神策公司的线下路演,选手现场讲解ppt,评选出优秀奖及特等奖获奖者。
*注:1、结果审核环节未发送代码或作弊的队伍,将取消其获奖资格,名次自动顺延。 2、线下路演的具体时间、ppt制作内容和规则将在线上比赛结束后公布。
大赛奖项
特等奖 *1 价值1万元的MacBook Pro一台 + 官方竞赛认证证书
优秀奖 *5 价值2000元的机械键盘 + 官方竞赛认证证书
*所有获奖者均有机会直接进入终面环节,还将有机会当场直拿offer!
了解校招岗位:戳我
评分标准
选手需为每一篇文章预测相应的关键词,选手提交的预测结果中,每篇文章最多输出两个关键词。预测结果跟标注结果命中一个得 0.5 分,命中两个得一分。英文关键词不区分大小写。
评测方法说明: 【1】评分本次比赛划分A/B榜,A榜和B榜测试集数据量比例为1:1,选手提交文件必须包含下载的数据集所有新闻的关键词。比赛结束前线上排行榜显示即为A榜成绩,竞赛结束后2小时切换成B榜单,最终成绩由B榜排名决定。
【2】比赛结束前选手自选两份提交文件(或系统默认选择最后两次提交文件)作为B榜文件,两份文件中的最高分即为B榜分数。
参赛与组队规则
注:大赛仅面向高等院校在校学生开放。
扫码加入竞赛交流群
团队人数上限1人
新建队伍截止时间为2018年10月11日 06:00:00
加入其它队伍截止时间为2018年10月11日 06:00:00
合并队伍截止时间为2018年10月11日 06:00:00
竞赛进入历史阶段后可以新建队伍,但是已参赛队伍不可新增队员、不可解散队伍,注意:答辩队伍成员仅限活跃期间加入的成员。