给定若干文章,判断文章的核心实体(每篇文章识别最多三个核心实体)以及对核心实体的情感态度(积极、中立、消极三种)。其中,实体词是指人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的词。而核心实体则是文章主要描述,或担任文章主要角色的实体词。因此,该任务可以简单理解为命名实体识别相关任务+情感分析,处理的上下文是整篇文章而非一句话或者几句话形成的段落。
文章ID | 主实体1 | 主实体2 | 主实体3 | 态度1 | 态度2 | 态度3 |
---|---|---|---|---|---|---|
1 | 搜狐 | 积极 |
Score(Final) = 0.5*Score(Entity)+0.5*Score(Sentiment),其中Score(Entity/Sentiment)均为F1得分
实体分析区别于传统的人名,地名和机构名的识别,粒度更细,种类更多,这是难点和特色之一;
针对实体的情感分析也是特色,相关任务包括面向切面的情感分析,基于视角的情感分析等,在该Repo中也有相关比赛出现;
篇章级的分析,和天池瑞金比赛的复赛阶段任务-关系分类,情景类似,在处理的时候需要处理好篇章上下文的问题;
模型的问题,除了尝试BERT之外,百度最近的ERNIE仍旧是非常值得一试的预训练模型;
分析至此,静等比赛结束,进行方案复盘。