由于AI(AI)大型模型在整个Internet上都很受欢迎,因此内容生成形式发生了颠覆性的变化,并且还面临了一些挑战和风险。
一份微观报告“从深索克现象到信息治理革命:在数字时代共同建立一个清晰的空间”(以下简称这被称为“报告”),由Toubao Research Institute于2月26日发布,在提高生产效率的同时,AI技术还带来了严重的信息,诸如严重的信息超负荷,增强了模型的自我偏见,并带来了诸如严重的信息自我偏见,并提高了生产效率。用外行的话来说,一旦媒体,证券公司,咨询机构等使用AI模型来产生虚假或错误的内容,它不仅会严重削弱公众对结果真实性的信任,而且还会在资本市场中引起波动。低成本的成本生成模型影响了传统的工业连锁店,例如数据中心和芯片制造商。
实际上,中央网络空间事务办公室最近还发布了纠正“ Qinglang”一系列特殊行动的关键点,并清楚地建议“纠正“自助媒体”发布的虚假信息,并纠正滥用AI技术的混乱。”那么,应如何解决政府,企业,公众和其他实体面临的大型模型的“幻觉”问题?
直接面对“幻觉”
报告中提到的“严重信息超负荷”是AI模型将混合来自各种来源和职位的内容,公众很难在大量信息中迅速区分信息的权威和真实性。
此外,AI模型将经历“强化模型偏差”,即由于在训练过程中潜在的偏差和错误的扩增而导致的事实偏差和失真,例如在产生女性图像时输出过度的性效应的趋势,或者高度将某些职业与特定的人相关。 “逻辑自我认证陷阱”是指AI模型可以通过看似严格的论点构建看似合理的内容的事实。
该报告的作者兼Toubao的联合创始人兼总裁Wang Chenhui告诉记者,一旦AI模型产生了错误或错误的内容,它将对“内容生态学”和公众产生一系列严重的影响。现有的内容生态系统包括传统媒体和新闻机构(例如报纸,电视台,网站等),证券公司,研究和咨询机构,投资银行等,以及自我媒体,个人网络,各种平台以及使用AI技术来产生和散布内容的各种平台和个人。错误和错误内容的扩散将破坏整个信息生态系统的健康发展。
如何处理?为此,Wang Chenhui建议,首先,在内容生产阶段,内容创建必须依靠具有高专业精神的专业团队或机构来严格控制内容,以确保内容的专业精神,准确性和可靠性。尤其是在资本市场,公共卫生,法律和法规的领域,内容的准确性对于避免流入互联网生态系统的任何不合格的信息至关重要,从而导致误导性传播。
其次,内容发布平台需要建立完整的可追溯性审查机制,以确保可以将每条信息都追溯到其来源。特别是对于AI生成的内容(AIGC),应建立系统的真实性和及时性审查标准。该标准应涵盖从创建,编辑,审查到发布的每个链接,并严格检查内容的来源,以确保信息的真实性,无偏见和合法性。
此外,如果内容流入市场后仍然存在虚假信息,则网络安全公司和AI搜索引擎平台需要加强合作,以建立强大的防火墙和知识库。通过AI技术和手动审核的组合,可以实时监视,分类和过滤信息,以确保最终将最终传输给用户传输的信息得到验证和有价值的信息。
在中国数字和真实整合副秘书长Hu Qimu认为,尽管AI大型模型产生错误或不正确内容的原因与模型培训有关,但本质仍然是语料库输入的问题。
Hu Qimu解释说,一方面,当一些现有的一般大型模型经过培训时,他们输入的语料库不是专业数据,而是公共数据。这是因为专业数据通常是在企业内形成的,并且属于企业的核心竞争力。除非企业本地部署AI大型模型,否则它将不向一般大型模型开放。另一方面,在一些通用大型模型通过公共领域渠道获得的数据中,有更多的英语语料库,而且中国语料库很少,其中一些甚至不到1%。高质量AI模型的培训取决于丰富的高质量语料库和算法的迭代。
找到最佳解决方案
在行业中,是否有一个最佳解决方案来避免AI模型的“幻想”?
上海人工智能研究所的算法专家卢·瓦京(Lu Wineao)告诉记者,从技术实施的角度来看,要有效避免产生错误的结果和“幻觉”,应注意三个问题。
首先,确保培训数据的高质量和多样性至关重要。培训数据应用源,及时性和参考链标记,应使用准确和权威的数据源来避免引入偏见和错误信息。此外,建立行业共享的“偶像化”的黑名单,以消除可能导致“偶像化”的内容的使用。
第二个是调整模型架构和培训策略。可以采用“预训练 +强化学习 +人类反馈”的混合范式,例如通过手动标记数据来限制生成边界来迭代奖励模型(奖励模型)。对于金融,医疗保健等领域,监管认证的知识库被迫降低自由发电的风险。对于在高风险区域产生的内容,需要置信分数和可追溯性标记。
第三,改善实时监控和反馈机制。在部署AI大规模模型之后,有必要建立一个实时监视系统来检测和纠正潜在的错误输出,并使用多模式交叉验证(例如文本与权威数据库进行比较)。通过用户反馈,模型的性能和可靠性将不断提高,并通过动态纠正模型输出。
此外,我们如何保护行业的核心技术和数据,同时不遏制行业的发展(强大的开放和专业语料库)?
胡·齐穆(Hu Qimu)表示,毫无疑问,行业和企业已经掌握了高质量的语料库,但是这方面是企业必须采取主动权并愿意培训自己的专有AI模型,或者通过获得DeepSeek和其他服务并提供其背后的服务来培训AI模型。另一方面,要让企业提出专业语料库,一些数据流通和交易机制(例如补偿机制等)至关重要。 “企业认为,在开设专业语料库后,市场带给他们的好处要比数据披露所带来的行业障碍要降低风险。”
卢·货塔(Lu Wineao)告诉记者,将来,如何平衡语料库价值挖掘与技术秘密保护之间的关系是“行业和企业需要集中精力促进数据安全技术和合规机制的平行促进”。
Lu Wenao说,诸如数据脱敏和加密,可信数据生态系统的构建以及合规性工具链的改善等方法值得在行业和企业的实际过程中学习。例如,就数据脱敏和加密而言,企业可以使用联邦学习来实现“数据可用和无形”,而企业仅共享模型参数和梯度,以确保未泄漏原始数据等。
例如,在构建受信任的数据生态系统方面,区块链技术用于共享语料库证据,以确保数据权利确认和可追溯性。在改善合规工具链方面,企业可以使用自然语言处理(NER)模型部署自动敏感信息过滤系统来阻止敏感数据。企业还制定智能合约以限制数据使用范围。
有效的监督
上面提到的“报告”指出,随着信息生态系统的复杂性不断增加,单个管理和监管手段很难应对虚假信息的广泛传播。网络安全公司可以与AI技术联合起来,以建立从语料库生成,网络引用,知识库构造到最终内容输出的全链监视系统。
全链监控系统是否可能以及如何具体执行?为此,Hu Qimu表示,在收到专业语料库输入时,AI模型将通过不断纠正和调整来实现安全的“域价值”。低于安全“域值”的模型需要警惕产生错误或错误内容的可能性。目前,监管机构在整个过程和整个链中监视AI模型尚不现实,但是它可以预先预测,风险可能通过理解或识别安全性“域值”而出现。
“但是,尽管了解或识别安全'域价值',但监管机构仍无法真正弄清哪个语料库是真实的,哪些语料库是错误的。这些领域涉及道德危害,属于市场失败类别。”胡·齐穆(Hu Qimu)说,对于具有道德危害的语料库输入器,实际上可以通过标记和手动审查来处理它们。 “但是通常,在此阶段,建议可以使用AI模型生成内容生态系统中的主体来生成初稿,然后手动校对和验证相对安全。”
Lu Wenao提出了一个技术建议,即需要协调系统和技术。例如,创建白名单知识基础;在金融和医疗保健等领域,强制权威知识库(例如国家医疗产品管理局数据库),以确保信息的准确性和可靠性。例如,进行跨境数据审查;在跨境数据上实施语义分析和IP可追溯性审查,以拦截可能导致地缘政治误导的信息。
“在国际上,有一些相关案件供我们参考。《欧盟的数字服务法》要求平台部署全链监控系统,以应对诸如传播虚假信息等问题。Twitter(现在X平台)也可以通过发电标记 +散布流量限制的结合来显着提高虚假信息的拦截效率。”卢·坦代补充说。
王·钦(Wang Chenhui)还呼吁进行跨行业合作。 “只有通过这些多层次和全方位的预防和控制机制,我们可以共同建立一个扎实的内容监督链,并确保内容从源到终端的内容的质量和信誉,我们才能在AI时代促进内容的普遍生产,并促进信息生态系统的健康发展。”