Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

为什么被删——关于内容审核工作机制的简单介绍 #1237

Open
moegirlwangge opened this issue Apr 23, 2022 · 4 comments
Open

Comments

@moegirlwangge
Copy link
Member

https://mp.weixin.qq.com/s/VXTBPCZkL0c-w9HQ_g0XRQ

@github-actions
Copy link

为什么被删——关于内容审核工作机制的简单介绍 by 由吾远游

今天的上海朋友圈,被四月之声刷屏了。

 

因为封的速度比较快,很多朋友可能来不及看,我简单描述下视频内容。

 

画面基本上就是无人机航拍上海,灰度很高的配色,接近黑白。语音内容一开始是发布会的截取,后面就是近日上海各种疫情离大谱事件的合集。比如疾控领导通话,居委会主任哭诉,柯基被打死,老人求医无门等等热点录音。

 

我第一次看到的时候是早上。画面不讨喜,内容也是剪辑过往发生的内容,并没有看完就关掉了。

再后来,从下午开始,朋友圈大量身处上海的朋友开始转发这个视频的内容。然后原视频内容被屏蔽,又搬运到其他的号,继续发,然后继续屏蔽,继续搬运,形成了一场接力。

 

这个活动在晚上的时候到达了顶峰,视频号的转发速度已经跟不上删帖速度了,很多人开始对视频进行二次加工,例如修改时长,修改画面,调整角度,配其他图像等等。但是这些策略一开始有效,但慢慢地,删帖速度又加快了。

 

于是群众的逆反心理又被引发了,更加积极的转发,二维码,笔记,外链,录屏等等。截止到目前(凌晨1点19分),朋友圈还没有停止。也有不少的朋友(包括我的家人)发出了悲痛的质疑,内容大致如下:


包括还有人诅咒删帖员,说要让人见识一下每天抢菜的手速等等。事实上,群众的愤怒是在帖子一遍遍被删除的过程中放大了的,群众脑补了一个有权机构为了堵住命中的嘴,强压平台删帖的画面。

 

基于此,我觉得有必要向大家介绍一下内容审核机制的运行原理,希望大家耐心,平静地看完,看完之后再给出自己对于事件的评价。

 

首先讲解下内容审核范围,或者规则的框定。国内的内容审核部门,主要是两个机构,一个是网信办,一个是工信部,一个偏重网络平台,一个偏重运营商网络(短信,通话等)。这两个可以说是内容安全部门的顶头上司了。一般来说什么能发,什么不能发,都是这两个部门决策。

 

但是需要知道的是,信息的种类和内容,几乎是无穷无尽的,审核部门是没有办法针对每一条信息,给出具体的处理意见的。所以,审核部门会给出指导性的纲领。例如涉黄,涉毒,涉诈,涉政,涉密,等等。这些内容是大而全的,基本上覆盖了信息的各大领域。但是这些内容也是宽泛而不具体的,例如如何判断涉政,并没有特别明确的标准。所以第一个要明确的是,指导纲领,来自于国家机关。同时国家机关掌握着监督和惩罚的权力。

 

在这个背景下,平台依照政府纲领,开展审核工作。按照目前现行的法律法规要求,平台要对自身用户发布的内容进行审核和维护,这一点,全世界都是一样的,所以第二个需要明确的点在于,审核的主导人和实际操作人,在于平台,平台除了执行监管部门的纲领性要求之外,还有额外的清除非法广告,垃圾内容等需求。

 

接下来,我简单介绍下平台是如何开展这项工作的。以下内容可能各家平台操作细节不完全一致,但内核逻辑基本相同。

 

对于大型平台来说,用户每天上传的信息内容,从形式到内容,都非常的丰富和复杂。而每家平台的风险偏好,也不尽相同。有的在发送前会进行严格的审核,有的是先允许用户发送,而审核后置。而审核的方式也主要分为人工审核和自动审核两种。

 

通常,人工审核用在视频平台的场景较多。因为视频时长较长,其中某一秒出现违规内容都会给平台带来麻烦,所以针对,新用户,首次,新内容,通常会采用人工审核的方式。

而随着用户发布内容,次数的增多,会给用户打上可信的标签,逐步降低人工审核的权重和频率。

 

而随着平台体量的不断增加,用户发布内容的频率也越来越高,人工审核已经不可能覆盖所有的UGC内容了。在这个背景下,引入人工智能算法和策略相结合的审核策略,是势在必行的。

 

最早的自动审核,就是粗暴地设置关键词,维护黑名单。这与金融风控的逻辑大致相同,首先找到黑样本,设置关键词,或者IP,账号,设备,区域的名单,来进行简单的自动化管控。

 

后来,随着内容的不断增多,对策略精准度的要求也不断增加,这个时候,简单的关键词,名单匹配已经无法满足通过率和准确率的要求了。工程师们通过搭建机器学习模型,通过训练模型,来实现发现,审核,认定,处置的自动化策略。

 

首先,就是样本的来源。平台UGC内容黑样本的来源主要有几个方面,一是来自监管部门的推送,这个量级非常的小,但是是客观存在的。通常这个内容的时效性也并不强。毕竟一个内容要经过重重审核上报再下发,所需要的时间是相当长的。

二是来自于平台运营人员的巡检发现。类似于传统bbs的管理员,运营部门也有审核人员在平台当中进行7*24小时的巡检,发现问题后及时处理。

三是来自于用户的举报。几乎所有的有UGC内容的平台,都有举报功能,而用户的自发监督是最重要的净化平台方式,可以说举报,是发现不良信息源头的最主要的方式。

 

有了样本之后,就是训练和找相似的过程。AI会自动判断平台中发布的内容,那些与已经确定的黑样本具有高度相关性,满足一定阈值的,自动判断为不良信息,做得好的,会对给出的结果进行分级,再采取不同的处置策略,如限流,屏蔽,删除,封禁等。

 

为什么会有这样的策略?主要是为了应对黑灰产的攻击。除了正常的用户之外,平台要面对的主要对手,都是有组织,有预谋的黑灰产。他们通常会利用大量账号来发布相同或相似的内容,宣传非法广告,或发布垃圾内容。如果这些内容全部都由人工审核,将大大地消耗平台的人力。所以为了对抗这些自动化上传,发布的内容,平台也有自动化的处置,应对策略。

 

 

简单总结下,针对某个已发布视频内容的屏蔽,删除,

1)大概率不是人工操作2)没有经过任何人的授意或指示。

 

以四月之声这个视频为例,很多人不理解,为什么这个帖子一直被删,而且删帖速度越来越快,实际上,这正是ai模型发挥作用的表现。我简单还原下整个事件的时间线:

 

1)原始视频发布,并通过的审核,成功被外界看到。

2)原始视频遭到举报\监管通报\触发策略 被处置下架

3)用户转发原始视频,并继续发送,被AI识别到,并进行处置。

4)用户越发越多,AI识别速度越来越快,同时因为相似内容在短时间内集聚的大量发布,更容易被模型算法识别为垃圾内容,从而进行屏蔽。

5)越来越多用户加入,AI识别速度反而越来越快,简单来说,你发的越多,AI越认定相似内容存在异常。

 

事实上,AI并不会阅读视频本身的内容,也不会对其中的取向,价值观进行判断。AI的审核逻辑是基于用户数据,发布信息等结构化数据进行的无主观判断。

 

所以越到后来,越发现无论大家怎么修改内容,AI都能识别得到。好像有一批不知疲倦的对手在不停的操作删帖一般。实际上正是因为大家无意中组成了一个团体,发布大量相同相似的内容,从而被AI识别并处置。

 

有的人可能会说,为什么同样的内容,我发到微博或者小红书等其他品牌,也会迅速被处理呢?

 

那是因为现在的内容审核,也逐渐形成了联防联控的机制,几个大型平台也会建立一个内容审核的同盟,在一个平台内发现的不良信息,也会通过云服务的方式与其他平台共享。

 

从始至终,可能都没有人对这个视频内容本身发表过处置意见。

 

可能你会对这种防控策略表示质疑,但事实上,所有的防控策略,基本奉行的都是宁枉勿纵的原则。可以错杀,不能放过。在疫情期间,各种信息纷乱复杂,模型阈值调整,覆盖范围的增加,都是可以预期的改变。

 

所以,今晚上海人民的愤怒,可能是一种被表象所误导的情绪。平台只是在机械地执行审核策略,而民众却脑补了一出“上级”捂着嘴巴不让人发声的画面。形成了一种错位的对抗。所以回到最开始截图中上海市民愤怒的质问,为什么不让说话,为什么不让发声,这个问题,可能从来就未曾成立过。

 

 

通常情况下,被误处理的内容,会在一段时间内经过人工复核之后恢复。如果最终没有恢复,那么存在的可能性有以下几个:

1)内容本身被认定不合规

2)监管通知该内容不可恢复

3)通过后台数据发现存在明显的异常

 

以上就是信息内容审核的基本工作流程,我尽量不带个人感情和立场的进行还原,希望大家能够在充分了解之后再给出自己的判断,而不要被愤怒和伤心冲昏了头脑。


最后的最后,即使事情是往最糟糕的方向发展,也请善待和你持不同看法的人。他们和你一样善良,一样关心上海的发展,上海市民的生活,和需要帮助的人们的情况。不要把他推向对立面或打上这样那样的标签。毕竟,我们都是最最普通的平民百姓。

@github-actions github-actions bot changed the title archive_request 为什么被删——关于内容审核工作机制的简单介绍 Apr 23, 2022
@moegirlwangge moegirlwangge transferred this issue from another repository Apr 23, 2022
@switchopen
Copy link

涨知识了,完全不知道这事.

@MissChina
Copy link

MissChina commented Aug 10, 2023 via email

@GitHubWebb
Copy link

可惜这么好的讲解文章也被屏蔽了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants