今日头条升级灵犬反低俗助手,新增图片识别功能

日期:2019-07-31 10:06:17  浏览:  字体:   来源:云南网


云南网讯(记者 刘畅 通讯员 刘悦潼)7月30日,今日头条宣布正式推出新版灵犬反低俗助手(以下简称“灵犬”),同时支持图片和文本识别。这是时隔半年后,“灵犬”的又一次重要升级。

                       

  “灵犬”脱胎于今日头条反低俗模型,是一款检测内容健康度的辅助小工具,致力于打击低俗低质内容,净化网络空间。用户目前可以在今日头条内,搜索“灵犬”进行试用。

  当天下午,一场名为“算法如何反低俗”的?#20302;?#20250;在字节跳动总部举办。字节跳动人工智能实验室总监王长虎现场介绍了“灵犬”背后的技术原理。

  据了解,在文本识别领域,新版“灵犬”同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用深度学习作为解决方?#31119;?#22312;数据、模型、计算力?#30830;?#38754;均做了针对性优化。

  灵犬使用人次超过300

  信息大爆炸时代,打击低俗低质内容,是当前全球信息平台?#27982;?#20020;的难题,不管是国外的Facebook、Google,还是国内的微信、今日头条,都在寻求解决方案。

  反低俗无法单一地依靠技术或人工解决。王长虎表示,低俗的定义相对笼统,很难完全精确地定义出来,这项工作?#35789;?#23545;人来说也不容易,交给机器做更难实现,而在当前内容创作和消费海量增长的趋势下,?#38752;?#20154;工解决,效率低,无法?#34892;?#28385;足用户需求。

 

 

图注:字节跳动人工智能实验室总监王长虎分享“灵犬”背后的技术原理

 

  今日头条是国内反低俗的先行者,而“灵犬”是今日头条反低俗?#20302;车?#19968;个简化版本。据了解,2012年以来,今日头条内?#30475;?#24314;了反色情、反低俗、反标题党、反虚假信息、反低质等数百个模型,并?#24230;?#36817;万?#20439;?#19994;审核团队。“作为行业领?#26085;擼?#22312;内容安全上,今日头条一直用最高的标准要求自?#28023;?rdquo;王长虎说,“灵犬是一个开放的反低俗窗口,我们希望通过灵犬,接收社会各界对反低俗的意见和建议。”

  新版“灵犬”重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党)。后续还将支持语音识别和视频识别。

  此前一年时间内,“灵犬”已陆续完成两次迭代。2018年3月28日,今日头条首次上线“灵犬”,支持检测文字和文章链接。2018年5月16日,“灵犬”完成服务能力升级,增加反色情短文本模型?#22836;?#35881;骂模型,将准确率从73%提升至82%。2019年2月20日,“灵犬2.0”正式上线,除了反色情低俗模型,加入反暴力谩骂?#22836;?#26631;题党模型,覆盖了主要的低俗低质内容类型,整体识别准确?#24335;?#36817;85%。截至2019年6月,灵犬反低俗助手的使用人次已经超过了300万。

  用户只需要在“灵犬”内输入一段文字或文章链接,“灵犬”就可以帮助其检测内容健康指数,返回一个鉴定结果。对于用户输入的内容,“灵犬”会先进行提取、分词和语义识别,然后根据相关规则, 输出对应的?#36136;?#35780;级和结论。这一切都在短短几秒内完成。图片和图片链接检测同理,用户在“灵犬”内上传图片或图片链接,即可快速获取鉴定结果。

  灵犬背后的技术迭代

  据王长虎介绍,“灵犬”背后的文本分类模型,已经经过了三次迭代。每个新版本相对于旧版本,在技术和数据集层面,都有一个明显的跃升。

  第一代“灵犬”,应用的是“词向量”和“CNN(卷积神经网络)”技术,训练数据集包含350万数据样本,对随机样本的预测准确率达到79%。第二代“灵犬”,应用的是“LSTM(长短期记忆)”和“Attention”技术,训练数据集包含840万数据样本,准确率提升至85%。

  新版“灵犬”同时应用了“Bert”和半监督技术,并且在此基础上使用?#20439;?#38376;的中文语?#24076;?#22312;不牺牲效果的情况调整了模型结构,?#27807;?#35745;算效率能达到实用水?#20581;?ldquo;Bert”是当前最先进的自然语?#28304;?#29702;技术,是该领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴含、问答、相关性等各项任务上,大幅提高了性能。

  这一代“灵犬”训练数据集总量是1.2个T,相当于20倍百度百科或100?#27573;?#22522;百?#39057;?#25968;据总量,包含920万个样本,准确率提升至91%。

  不同于文本识别,图片识别的技术难点主要在于三方面:非均衡、类内方差大和不可穷举,即,低俗图片占整体图片内容的比例较低,低俗图片的种类丰富、繁杂,构成低俗图片的特征千差万别。

  ?#28304;耍?ldquo;灵犬”运用的解决方?#31119;?#26159;深度学习。“我们分别在数据、模型、计算力?#30830;?#38754;做了很多优化。”王长虎说。数据层面,“灵犬”已累积上千万级别的训练数据。模型层面,“灵犬”针对许多困难样本做了模型结?#27807;?#20248;,尝试解决多尺寸、多尺度、小目标等复?#28216;?#39064;。计算力层面,“灵犬”利用分布式训练算法以及GPU训练集?#28023;?#21152;速模型的训练和调试。

  一些技术难以搞定的问题,现阶?#20301;?#26377;赖于人工判断。?#28909;?#25216;术暂时难以制定标准的案例:世界名画中常常出现裸体女子,如果完全交由机器判?#24076;?#26426;器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,其?#36947;?#20284;于?#27807;?#20599;拍。

  此外是因为使用场景、人群不同而导致标准变动的案例:内衣和内衣模特出现在?#20309;?#24179;台上,会被默认为正常,但如果频繁出现在新闻资讯平台上,就可能被认为有低俗嫌疑;正常的热舞内容,提供给成年人看,符合常规标准,但如果开启了青少年模式,这些内容就不应该出现。

  王长虎说,针对低俗判断问题的复杂性和不同判断方式的局限性,?#29615;?#38754;需要不断进化技术模型,?#29615;?#38754;需要?#34892;?#32467;合技术和人工判断两种方式。

  当前,“灵犬”建设了比较完?#39057;?#27169;型迭代?#20302;场?#36890;过“数据收集—数据标注—数据清洗—模?#33073;?#32451;—模型评估—badcase分析”这一套完整的流程,?#20013;?#20570;优化。

  • 上一篇:
  • 下一篇:
互联网新闻信息服务许可证53120170012 呼叫热线:0886-3629331 服务邮箱:[email protected]
违法和不良信息举报电话:0886-3629331 17708864860 互联网新闻信息服务备案号:D-2015-007
ICP备案号:滇ICP备10003815号-1 滇公网安?#31119;?3332102000110号   
黄金农场电子