最近,美国有一家名叫OpenAI的公司给中国的一个数据服务公司Handshake AI抛出了合作的橄榄枝,搞了一个听起来挺吓人的数据采集计划。他们想让参与项目的外包人员把平时干活儿的成果都交上去,像是Word文档、PDF文件、Excel表格甚至是写的代码,好给人工智能模型喂饭吃。OpenAI还特意提供了个叫“超级清洗工具”的东西,让大家在提交之前先删掉自己的个人信息和公司的机密。这招主要是想通过真实的工作场景来训练AI,让它更懂白领是怎么干活的。 不过这事儿马上就引起了法律界的警觉。埃文·布朗是个专门研究知识产权的美国律师,他跟媒体说,这其实是把公司推到了“极高的法律风险”面前。因为判断是不是泄露了商业机密或者知识产权的责任,全推给了那些在外包打工的人身上。这些外包人员平时大多没啥法律培训也不熟悉公司的保密规矩,很容易无意中就把不该说的话漏出去了。布朗还特别提醒说,“就算做了脱敏处理,有些文件里的底层逻辑和业务架构还是可能构成商业秘密,这种风险在分散的收集中很难管住。” 其实不光是OpenAI这么干,最近好多科技公司都在加大力气通过外包渠道搞专业化训练数据。这说明AI产业正在从那种随便说说的通用语料转向往特定的行业深处挖。但这种“众包式”的做法跟企业原来签的保密协议、数据合规那一套就容易打架了。 再看看现在各国的法律法规也越来越严。欧盟那个《人工智能法案》和中国的《数据安全法》都对训练数据的来源合法性提了要求。如果企业没建立起一套从头到尾的审查机制,搞不好就会被罚钱、赔钱甚至还要打官司。所以现在的训练数据合规问题不光是技术问题,更是企业怎么管的大事。 法律专家建议这些搞AI的公司最好建一个“风险评估+协议规范+技术复核”的三合一管理框架。特别是要把跟外包合作时的权责划清楚,多用加密传输、留访问记录、找第三方来审计的办法来管着点过程。 大家心里都清楚,AI技术想要突破离不开好数据的支持。但如果连合法合规都做不到,那产业也就没法长久发展下去了。OpenAI这次搞的这个数据收集方案,其实就是在创新和风险管控之间较劲呢。 随着各国的监管框架越来越完善,企业要是不把数据合规当回事儿放在战略高度上抓不行的。还得把技术、法律、管理这三方面结合起来形成一个治理体系才行。 所以在这场新一轮的科技革命里,咱们既要搞发展又得保安全,这对全球的AI共同体来说都是个难题啊!