《生成式人工智能数据应用合规指南》意见征集会在北京成功召开
已被浏览4543次
更新日期:2024-01-05
来源:盈科律师事务所
2023年12月28日下午,由中国电子商会标准化工作委员会主办、智合标准中心承办、起草单位盈科律师事务所协办的《生成式人工智能数据应用合规指南》团体标准意见征集会在盈科成功举办。召开本次会议的目的是解决修订稿中还存在的重点疑难问题,进一步提升《标准》的科学性与实用性,为技术审查稿的编制建言献策。本次会议采用“线上+线下”形式同步召开,得到了百余位产业、技术、合规领域的专家的积极参与。
一、嘉宾致辞
在欢迎致辞环节,盈科全球董事会副主任,中国区董事会主任,中国区执行主任李正主任代表会议协办方盈科律师事务所,对大家参会表示热烈欢迎。李正主任表示,盈科律师事务所在数字经济法律服务领域具有突出的专业化以及国际化战略布局等优势,后续将积极参与《生成式人工智能数据应用合规指南》制定的各个阶段,并期待与各位专家、各位起草单位代表和起草人共同制定可行有效的标准,推动行业的健康发展。
标准编制专家组代表、上海中联律师事务所合伙人、数据与网安专委会主任方懿代表专家组介绍了修订稿的编制思路以及主要内容,编制专家组始终坚持与时俱进、详略得当、针对性与实操性兼具的编制原则。她希望能和各位专家、各位起草人代表和起草人继续保持深入交流,让《标准》能臻于至善。
二、起草单位发言
国家工业信息安全发展研究中心
牵头起草单位国家工业信息安全发展研究中心的参会代表向与会人员介绍了《标准》整体的编制规划。会上介绍了标准编制在启动阶段、编制阶段和推广阶段的具体工作。同时他还强调要坚持与时俱进的编制原则,做好与相关法律法规及国家标准的衔接工作,兼顾技术发展与安全治理的要求。
三七互娱网络科技集团股份有限公司
起草单位三七互娱网络科技集团股份有限公司代表祁彦谕,从国内外行业实践及促进技术发展的角度出发,建议团标第5.3.3(b)条对著作权保护期内数据来源的规定,从现有的只允许“授权”的方式,调整到更宽泛、灵活的“要求数据具有合法来源”即可。这样一方面严格按照我国现行法的规定,一方面可以解决现有团标与未来立法存在潜在冲突的问题。
海尔集团
起草单位海尔集团代表王淼指出海尔集团非常重视数据合规,成立了AI数据安全与合规委员会,专门制定本公司针对AIGC的合规体系。在标准制定过程中,希望能发挥团体标准的灵活优势,具有更强落地性和可操作性,以便企业内部进行实际操作。此外,还介绍了海尔集团在生成式人工智能方面的组织架构和合规体系。
北京市盈科律师事务所
起草单位北京市盈科律师事务所代表王彩琴建议在合规原则部分进行调整,基于对现行法律的研究、产业创新与法律的关系思考、合规原则在《标准》中的价值等综合考虑,建议删除“体系合规原则”,增加“安全可控原则”。通过更加切合实际的原则规定帮助生成式人工智能企业更好地完善数据合规体系。
英矽智能科技(上海)有限公司
起草单位英矽智能科技(上海)有限公司代表王君表示,标准在明确数据处理的范围、在合规架构和原则的描述上需考虑跟其他数据合规法律的衔接,从技术角度对某些术语进一步明确。
北京市铭基律师事务所
起草单位北京市铭基律师事务所代表王颖建议,在合规原则方面,增加体现“风险分级管控”的合规原则;在防止训练数据知识产权侵权方面,根据版权、专利权、商业秘密可能被AIGC侵权的方式、对权利人的影响等因素,要求AIGC提供者采取不同的防侵权措施;对于版权中的发表权、署名权、修改权、保护作品完整权这类人身性权利,要求AIGC提供者构筑全流程的监管体系,并且在发生可能的侵权事件后,立即响应;同时可以仿照个人信息保护规则,建立人身性权利的审计和报告制度。
北京信工博特智能科技有限公司
起草单位北京信工博特智能科技有限公司代表李阳认为,对于知识产权合规保护,不同角色有不同的关注点。他建议,一是在使用数据之前进行彻底的版权调查,确保数据不侵犯他人版权,包括核实数据是否受版权保护,是否有使用限制或特定许可要求等;二是建立完善的数据管理和保护机制,制定相关的数据管理流程,明确记录数据的归属权和使用规则;三是从风险防范和诉讼角度规划自身的知识产权合规体系,并对采集、训练、生成和服务的产业闭环进行知识产权合规性评价。
康达律师事务所
起草单位康达律师事务所代表张汭律师建议在合规体系架构中考虑增加对数据质量、分类分级、跨境流动以及数据伦理等方面的合规义务。随着全球化加速和数据流动增加,更要明确数据跨境流动的规则,可以适当引述国际标准或者国家标准条款,用标准的语言提供建立、实施、维护和改进个人信息保护和隐私保护管理体系。
北京大学武汉人工智能研究院
起草单位北京大学武汉人工智能研究院代表张平、辜凌云表示,同美国重发展后监管不同,基于我国国情,应采取边发展边监管理念。此外,还应当积极探索有效和高效的多元授权机制和知识产权使用机制。在《标准》文本中可给予生成式人工智能相关机构及从业者以有效具体的解决方案,如企业建立生成式人工智能应用的合规自律机制和符合自身发展的知识产权多元授权机制。
美年大健康产业(集团)有限公司
起草单位美年大健康产业(集团)有限公司代表周霖表示,美年集团积极参与AI发展,参与国家级重点科研项目,开展健康大数据的科研应用。美年希望此次AIGC合规应用标准的制定和出台,能与互联网诊疗、医疗器械许可、医疗广告备案等医疗专项监管合规要求相呼应,进而为大健康产业AIGC发展谋出路,为广大消费者谋实惠。
清图数据科技(南京)有限公司
起草单位清图数据科技(南京)有限公司代表王伟提出三点建议。首先,数据安全原则要求确保数据合法、无害,避免含有歧视、违法内容,确保AI系统的客观性和纯净性。其次,生成内容应可追溯,以保证系统的可靠性和责任性,对抗恶意使用,为法律和伦理审查提供依据。最后,关于模型安全保障,服务提供者需确保模型抵抗攻击、干扰,维持稳定性能,并定期更新以应对安全威胁,保护用户和数据安全。
北京世宁律师事务所
起草单位北京世宁律师事务所代表冯斐斐认为,《标准》修订稿中对关于知识产权部分的表述,从实践看企业很难实现。她建议仅要求企业避免最终生成物侵权,以及在收到投诉后采取合理措施即可。由于监管对授权采取更宽容的态度,往往期望企业在训练数据保护方面做更多工作,她建议在标准中给出相应指引,以令企业有据可依。
陕西丰瑞律师事务所
起草单位陕西丰瑞律师事务所代表王淼建议在编制《标准》时立足于后端结果,更多地考虑数据要素的粒度、界限和来源。针对算法偏见,一是天然性数据偏见,应当从规范的角度加强管理;二是后期数据训练中后天添加的“算法偏见”,应当进行动态监管,平衡资源投入与效率保持的举措。
深圳市腾讯计算机系统有限公司
起草单位深圳市腾讯计算机系统有限公司代表倪平提出了四个建议。一是采用建议性描述方式;二是增加定义和角色区分;三是在标准范围内考虑区分生成式人工智能服务的To B和To C问题,以及通用和垂类大模型的数据合规业务方面的问题;四是针对知识产权问题,建议区分事前事中事后,以便更好地指导企业。
中译语通科技股份有限公司
起草单位中译语通科技股份有限公司代表陈自岩结合其实际业务,提供两点建议,一是补充伦理差异适应性原则,按照通用大模型和专有大模型等多维度进行细分,充分考虑面向不同地域文化、民族、宗教信仰的大模型的专有化价值观需求,调整其数据处理和生成方式;二是针对训练数据防止侵权的原则指引和措施,在保障合成数据与真实数据的平衡比例下可以充分利用合成数据,另外可以在合成数据上进行数据来源、合成过程注解,让训练模型以思维链的方式均衡真实数据和合成数据的价值。
中国科学院计算机网络信息中心
起草单位中国科学院计算机网络信息中心代表胡良霖主任建议压缩合规原则,尽量避免原则间的重叠部分,如第四个合规原则提到的人格保护,属于科技伦理里的生命权利,是完全重合的。此外,他还就训练数据质量和加强数据合规应用等方面发表见解。
金杜律师事务所
起草单位金杜律师事务所代表张逸瑞建议尽管目前的10.2条对于科技伦理进行了一定规制,但仍存诸多需解决的问题待进一步讨论解决,如:科技伦理的定义需要明确,人工智能领域科技伦理具体实践方法,包括领域定义、科技伦理(审查)委员会建设工作等。
淘天集团
起草单位淘天集团算法合规专家姜文聚焦个人信息使用和数据跨境在AIGC领域的实务合规给出了两点建议。一是建议《标准》鼓励企业根据AIGC具体场景选择适宜的合法性基础。二是境外数据源和开源模型的合规问题涉及到跨法域的合规问题,争议较大,建议进一步研究讨论。
蚂蚁科技集团股份有限公司
起草单位蚂蚁科技集团股份有限公司安全标准总监林冠辰建议《标准》文本更多采用建议性表述方式,针对数据标注人员的资质要求要重点体现对其专业知识和技能的要求,知识产权保护方面保留权利人事后删除的权利,以促进大模型技术和产业发展,同时他还在数据删除、数据跨境等方面提出了建议。
中联律师事务所
起草单位中联律师事务所代表胡峰认为《标准》在知识产权合规方面,关于企业需确保著作权授权链条清晰的要求是合理的。他建议可增加一项数据训练构成合理使用的具体标准,保护和促进AIGC产业的发展,可参考欧盟将文本与数据挖掘(TDM)作为合理使用范畴的规定。
中电信数智科技有限公司
起草单位中电信数智科技有限公司代表张宇提出两点建议。一是修改合规原则中部分条文的表述;二是在目前合规体系架构下,对提供者新增责任,如有责任配合有关主管部门对内容生成服务,开展数据合规相关的监督检查。
上海澄明则正律师事务所
起草单位上海澄明则正律师事务所数据合规团队代表李艺丰提出三点建议。一是在“5.3.3 知识产权保护”章节增加“合理使用”的例外豁免情形;二是在训练中使用模型生成的内容,宜结合模型实际应用的场景、行业领域等维度,评估对算法、模型本身以及生成内容合法合规性的负面影响;三是在修订稿第10.2条进一步展开强调算法和模型的“透明原则”和“可解释性原则”以及相应的落地措施。
浙江天册律师事务所
起草单位浙江天册律师事务所数字经济法律业务部高级顾问王丽娜建议删除本次修订稿5.3.3条知识产权保护(b)款规定。结合实际考虑,由于大模型的学习阶段不与公众发生交互,不影响权利人对作品的正常使用,大模型对数据的学习行为应构成合理使用,这样也会促进产业的发展。
上海健交科技服务有限公司
起草单位上海健交科技服务有限公司代表汤子欧,提出三点建议。一是在公开数据获取方面,参考数据20条和公共数据授权运营平台技术要求团标,在非公开数据处引用公共数据;二是5.3.2个人信息收集说法较为宽泛,进行详细说明或直接引用法条,更为严谨;三是将9.5使用者信息保护的a款做详细说明或直接引用法条。
江西火眼智能科技有限公司
起草单位江西火眼智能科技有限公司代表曲亮提出两点建议,一是对生成式人工智能生成数据的提供鉴别机制和溯源管理机制。他认为有必要建立标准和管控机制,训练模型中可能导致的不可控情况发生;二是对标注数据的标注方法和对应标注数据都标注人员做备案溯源管理,防止数据投毒产生不良后果后无据可查。
郑州郑大信息技术有限公司
起草单位郑州郑大信息技术有限公司代表周源认为随着人工智能技术的快速发展,确立数据的合法性、透明度、责任性和安全性原则至关重要。特别提到在使用训练数据时,须避免侵犯知识产权,为知识产权的保障提供指导性原则,并强调数据质量的重要性。此外,生成式AI的合规体系需要补充特殊规定,包括对模型自我进化的监控和AI决策过程的透明度要求。
上海拉扎斯信息科技有限公司
起草单位上海拉扎斯信息科技有限公司代表陆瑾建议一是关于模型的训练和使用,可以从不同纬度细化要求。从角色纬度,分为服务提供者和服务技术支持者;从模型应用纬度,分为通用模型和特定领域垂直类模型;从模型形态纬度,有自研模型、外采Maas服务、基于开源模型增量训练等;二是建议在企业训练数据、输入数据、输出数据这3个环节都拓展合规机制导入。
新汽有限公司
起草单位新汽有限公司代表鲁振辉提出三点建议。一是如果使用公共数据集、公共网站、众包数据、合成数据等数据源获得的数据,应当对数据来源的合法性做出承诺和保证;二是须建立起公司的合规管理流程,设置相关岗位的培训学习制度,提升合规意识,对造成不良影响或风险的行为,应处罚并采取补救措施,将危害降至最低,并对于不同岗位人员设置不同的访问权限;三是建立持续监测、反馈机制和不良信息特征库,限制违法内容的生成和传播,并限时进行消除、整改、上报主管单位等留痕操作,以便监管机构进行审查。
西安电子科技大学
起草单位西安电子科技大学代表王皓就训练数据质量的把控,特别是在使用合成数据和模型生成数据时应注意的关键要点进行了探讨。数据质量应从数据的真实性、多样性以及合规性进行讨论,必须通过精确的验证确保这些数据可以真实反映现实世界的多样性,同时符合法律法规。在使用模型生成数据时,需要避免模型重复生成与其训练数据过于相似的输出。解决这一问题的通常方法是将模型生成数据与真实数据结合,从而提高数据集的多样性和泛化能力,并且满足规则。
北京中软国际信息技术有限公司
起草单位北京中软国际信息技术有限公司代表刘宇,提出四点建议。一是在生成内容合法条款增加“标识义务”警示和提醒用户,确保用户明确知晓该内容是由大模型生成的;二是把技术治理合规和合规制度体系分别拆解成两条原则单独表述;三是增加主体合规原则,针对大模型服务提供者,平台运营方和技术支持方,都应有相应的合规要求;四是建立监测和反馈机制持续监控和评估数据质量,定期检查模型输出的准确性和一致性,并根据反馈进行模型的优化和改进。
香港浸会大学
起草单位香港浸会大学代表宋俊就训练数据质量把控进行了深入探讨,尤其是关于合成数据与模型生成数据的注意要点。无论是合成数据还是模型生成数据,都需要注意数据的真实性、多样性和标注等方面。在未来的工作中,他表示将继续关注训练数据质量把控的方法和技术,以期为人工智能的发展和应用做出更大的贡献。
三、起草人发言
本次意见征集会中多位起草人也围绕如下四个问题,结合自身丰富的实践经验,结合具体条款,积极建言献策。一是生成式人工智能数据应用需遵守的合规原则的确定及表述优化探讨;二是训练数据防止侵权尤其是知识产权侵权的原则指引与细化措施探讨;三是训练数据质量把控包括使用合成数据与模型生成数据的注意要点探讨;四是与传统的数据合规体系相比,合规体系架构还应进行哪些特殊规定的补充。
四、总结发言
标准起草专家组组长、最高人民检察院原副检察长、国务院法制办原副主任、中国政法大学数据法治实验室专家咨询委员会主任张穹进行了总结致辞。张穹组长表示随着未来算力的进一步提升以及硬件的不断更新和改进,生成式人工智能势必会影响到各行各业的发展。标准编制专家团队始终坚持需求导向和问题导向,过程中充分吸收各位专家、各位起草单位代表和起草人的意见。待《标准》文本正式发布后,更会采取多举措推进《标准》的落地应用,为产业的高质量发展赋能。他强调在送审稿的编制中,将会对本次意见征集会上的意见予以充分重视和吸收。
《生成式人工智能数据应用合规指南》聚焦AIGC数据全生命周期的合规使用,以期通过联合行业力量,保障数据安全,指导落地应用,促进产业高质量健康发展。为了标准的编制内容更加科学、实用,《标准》已向全国各地的起草单位及起草人征集了反馈意见,结合本次意见征集会的探讨,专家组将会根据征集的反馈意见,进一步完善本标准送审稿的编制工作。
未来,盈科将继续秉持专业强所的理念,将“具有自身特色的专业化发展之路”作为律所持续发展的核心驱动力,并将积累的专业经验投入到《标准》的制定中,确保生成式人工智能数据应用在迭代和优化过程中遵循最佳实践。