技术还无法替代的岗位
阿里巴巴旗下产品的图片日均更新量已经达到亿级。通过人力没有办法满足如此庞大的更新量,它需要强大的、智能的系统。这种系统也要学习,这也是为什么天成要去草榴上找图“教它”,就像给警犬一只嫌疑人的鞋一样。
所有可能的涉黄信息都会经过系统打分。“打个比方,如果系统打分说这个图片99%涉黄,那就几乎可以确定是,机器自己会处理。另外一些次一点分值的图片,就需要人工鉴别。”
天成介绍了自己每天的工作流程。“首先要处理一下举报的内容;第二个是针对我们系统自动处理之后,其他的需要人工进行判断鉴别的信息,做任务的申领和处理;第三个是维护我们的整个系统的性能,提升它的学习能力。”
更被看重的第三步,把日常工作当中发现的一些违规的情况,进行总结,添加到相应的样本库。丰富样本库,提高系统的准确率。
系统工作所遵循的规则和逻辑在安全部是个不允许被对外谈论的话题,一旦暴露模型和规则,防控就会失效,对手会绕过它。
不过,在整个违规信息的管理链里,利用系统事后删除只是最后一步,是下下策。大部分小网站的删帖者所从事的就是这样依靠工具的、简单重复的劳动。
阿里巴巴安全部更希望做到能在黄色信息还没有发生的时候就拦截,这在很大程度上依赖于鉴黄师们的工作反馈对系统的提升。
“今天互联网上出现一个什么新的情况,这是需要审核人员有敏感性和嗅觉的。更重要的是发现了一个新的情况之后,他要能感觉出来:管控之后,可能会有什么新的变化,提前在线上布置策略。”
处理数据、分析会员行为、通过事后处理,反哺系统的逻辑、规则、运行、管控策略,才是阿里鉴黄师工作的核心内容。让这个系统越来越像人这样思考,鉴黄师就可以尽量少地去接触各种不快的原图了。
“我们依托于一个庞大样本库。”天成介绍道,“对系统进行训练、学习,经过长时间的积累,它的准确性就会越来越高。”
超过系统认知经验的商品,会及时传递到鉴黄师的手里,所有的商品发布都在监控范围内,出现了新的东西,商量一下,很快就会被处理。
阿里安全部依据以往的系统经验开发了“绿网”,它可以帮助所有依托在阿里云平台上的企业网站实现内容自动净化。依托绿网,没有能力自己开发安全系统的小网站可以使用阿里已经成熟的技术,节省自己雇佣鉴黄师的成本。
魔高一丈
天成和孝肃都说,传黄的人也在一直成长。
原来的标题是“招小姐”,被系统屏蔽后他们就改成“有妹子,你懂的”(“你懂的”在淘宝上已经被屏蔽)。
有的直接不发文字,发个图,打码,留个 QQ 号。
“人家挂着一张人体艺术的油画,说是卖油画的,你问他,他说:我们到 QQ 去聊。”这样斗智斗勇也让天成和他的团队不停地自我进化,就像在和对方推手,“真的有些人是专门在研究我们的规则和模型”,甚至不停地发图试。
当系统判断出现疑问的时候,鉴黄师们只能通过数据去搜索可疑的卖家到底在卖什么,有的时候则需要通过他的行为去锁定。
随着互联网的普及,网站已经不再是“扫黄”的主要战场,更主流的是网盘,不少内容手机客户端也能找到。它们的传播变得快速、便捷,监管也变得更困难。
“鉴黄的分工(在阿里)存在至少也有五六年了。”天成回顾了自己队伍的壮大,“原来做这个岗位和事情的人一直都有,但现在发展成专职、全职了,因为随着互联网技术发展,近两三年,这个职位(的作用)越来越凸显。”
法律法规没有也不可能穷尽每一种色情信息的具体情况,但对于企业而言,他所必须负担的“扫黄”义务,并不会因为标准的模糊而得到宽容和理解。鉴黄师们还需要探索,在模糊不清的标准面前,找出一套适合自己平台的专属标准。
中国并没有采用西方国家通常的内容分级的方式来管控不良信息,阿里巴巴法务部告诉《博客天下》,中国的色情管控法律法规“是基于我们的公序良俗,建立起了一整套适用于中国国情的体系”。加拿大华人网 http://www.sinoca.com/