以模治模首个聚焦数字内容风控的安全大模型正式亮相

佳熙阅读：174 2024-09-24 18:41:39 评论：0

从2006年Hinton提出深度学习算法模型，到2016年AlphGO以4：1战胜围棋世界冠军李世石，AI用十年时间让人类第一次切身感受到了它的强大。

直到2024年，AI技术的发展与应用极大地提升了媒介内容生产的效率和质量。通过自然语言处理、机器学习、图像识别等技术，AI可以自动化地生成文章、视频、图像等内容，甚至进行个性化推荐和优化，满足用户的多样化需求。

不可否认的是，数字内容的安全问题不仅没有随着技术进步消除，以模治模首个聚焦数字内容风控的安全大模型正式亮相相反，其对社会的影响正在逐年上升。提升防护能力，筑牢安全基线，成为发展数智技术的关键。

7月6日，以“智见未来，护航AI”为主题的2024网易易盾AI数字内容风控大会在杭州顺利举行。网易数智旗下网易易盾自研的安全大模型首次正式亮相，也是业内首个聚焦数字内容风控的垂直大模型。

有发展更要有监管

应用安全大模型应运而生

在过去很长一段时间里，数字内容安全问题的治理，更多凭借的是经验。

抖音上这句话能不能发？小红书上这个问题能不能搜到？微博这个话题是否可以讨论？落到个体对每次具体情况的理解不同，最终体现在安全风控措施的理解上也非常不同。在这样复杂的特定场景中，较通用大模型更懂数字内容风控的垂直大模型也应运而生。

从最开始服务于网易内部业务的安全部门到服务外部客户的完全商业化品牌，网易易盾既有天然的技术优势，又有丰富的的场景实践经验。

“我们在经历一场底层安全范式的转变。信息传播技术的进步把内容安全问题的重要性升级了，需求端从原先的附加安全发生了到内生安全这一模式转变。作为服务者，我们不仅需要从理论、技术和工具上做准备，更需要从思维上主动拥抱变革。”网易易盾总经理朱浩齐这样说道。

自2016年立项以来，网易易盾累计数据检测量超3万亿，覆盖终端数超32亿，服务客户审核效率提升超10倍。值得一提的是，应用安全大模型的数字内容风控通过大模型对风控尺度的理解，对风险内容实现标签的自动、精准标识，提升人工审核效率。

目前，基于各种场景的测试情况，网易易盾安全大模型已经做到对部分色情疑难样本召回提升30%以上，助力广告对抗场景下的违法广告识别率达到97%以上，AIGC人脸风格化疑难案例的识别率超90%。此外，该安全大模型将风险对抗的时效提升到了小时级，并且辅助真人引流团伙检出量增长达3倍。

同时，在结合了网易易盾安全大模型的通用大模型问答场景中，基于安全大模型对用户输入的语义理解和对风控规则的理解，能够帮助各类通用大模型对于一些“看上去不好答”的题目，给予准确的回答。除少数几个极度敏感的议题外，帮助提供开放式问答的模型能够快速做到“应答尽答”。

以“模”治“模”

全行业都需要“安全管家”

事实上，生成式人工智能（AIGC）的发展始终伴随着对安全的质疑。其中，大模型时代安全面临突出的问题在于数据安全、内容安全，其中包括业务安全、供应链安全、合规以及道德伦理风险。这不仅仅是互联网企业的问题，而是全行业都需要关注的话题。

在朱浩齐的印象里，网易易盾成立的初期曾有过一次深入的讨论：我们能不能基于我们对各行业实际落地的经验，去建立各行业内容风控的标准？而在实际落地过程中，发现标准仍还是非常的粗糙，与以往并没有根本性不同。直到大模型的兴起和应用，使网易易盾这个想法真正具备可行性。

然而，安全大模型的推广也并非一帆风顺。“在网易易盾业务推出的初期，很多客户对于这一领域的投入并不十分理解。直到2017年，相关部门对于内容监管的逐步加强，产品负责人才意识到，企业在数字化转型过程中，数字内容安全还是要做到提前布局。从那个时候开始，我们的客户也变得越来越多。”朱浩齐回忆道。

2021年，网易易盾开始着手研究大模型相关技术，通过让大模型学习理解不同场景下，不同内容的评判结果，让人工智能去建立各行各业、各个场景中内容风控的研判标准，进而完成数字内容的精细化治理。

安全，不是一朝一夕的事情。尤其是全新技术带来的既有“已知的未知”安全问题，也有“未知的未知”安全问题。

在朱浩齐看来，人工智能技术的快速更迭，给数字内容生产和传播效率带来的是几何倍数级别的增长，同样也催生着攻防双方的螺旋式的上升。在这样的背景之下，对于安全治理能力提升的要求，自然也只有人工智能才能满足。他表示“人工智能能给人类带来更多的变革和机遇，而网易易盾要做的，就是将大模型的能力和行为与人类的价值观保持一致，确保人工智能够遵从人类的价值偏好和伦理底线。”

（受访者供图）

“转载请注明出处”

标签:以模治模首个聚焦数字内容风控的安全大模型正式亮相

可以去百度分享获取分享代码输入这里。

声明

免责声明：本网站部分内容由用户上传，若侵犯您权益，请联系我们，谢谢！联系QQ：2760375052