华体汇百度百科-百度百科

首页>中国社会科学报>公共管理

大模型时代公共数据分类分级治理

2023年09月14日 15:49 来源：《中国社会科学报》2023年9月14日第2735期作者：黄成凤丁万夫

　　以大语言模型为代表的新型人工智能技术取得重要突破，为经济社会发展带来机遇的同时，也产生了数据安全和隐私、侵害个人信息权益等问题。近日，国家网信办等七部委印发了《生成式人工智能服务管理暂行办法》，首次提出对生成式人工智能服务实行包容审慎和分类分级监管，明确了训练数据处理活动和数据标注等要求，规定了生成式人工智能服务规范。该办法亦提出推动公共数据分类分级有序开放，扩展高质量的公共训练数据资源。进入大模型时代，公共数据安全将面临极大的风险和挑战，生成式人工智能发展既要加强高质量公共数据有效供给，也要加强对公共数据的安全保护，推动公共数据分类分级和合规使用，防范人工智能服务风险。

　　大模型时代的数据安全风险新变化

　　近年来，我国陆续出台了一系列法律法规，包括《网络安全法》《数据安全法》《个人信息保护法》，明确坚持数据分类分级的安全保护制度，保护个人信息，坚持保障数据安全与促进数据安全开放并重利用。应该看到，生成式人工智能训练过程中涉及多源数据融合应用。研究表明，公共数据资源占全社会数据资源总量的80%左右，公共数据安全和隐私将是大模型使用和研发过程中一个极为重要的问题。大模型时代的数据安全风险正在面临新的变化。

　　第一，从文本数据到多模态数据，数据分类分级难度增大。尽管OpenAI并未公开GPT-4语言模型数据量，但从公开数据来看，GPT-3语言模型由1750亿个参数训练而成，由此迭代而来的GPT-4语言模型显然需要更庞大的数据量作为支撑。大模型加速多模态发展，数据类型从文本拓展到图片、音频、视频。高质量、大规模、多样性的数据需求对数据分类分级的效率、成本提出了挑战。

　　第二，从静态保护到数据全生命周期，数据安全环境日益复杂。传统数据安全以静态保护数据实体为主，大模型需要依赖海量数据进行训练和学习，数据由静止转向流动，数据安全场景发生了变化。数据安全不仅要保护数据实体，还要以数据分类分级为基础，对生成式人工智能从训练到投入使用的全生命周期的个人信息处理和数据保护作出规范。比如，数据收集阶段通过网络爬虫抓取、直接向个人信息主体收集、进行数据交易等方式均涉及大量的合规风险点，数据预处理阶段对所收集数据进行清洗、标准化、标注与特征提取等步骤可能涉及演绎侵权。

　　第三，从单一主体到多元主体，数据安全管控形势严峻。生成式人工智能的模型开发涉及多个步骤，包括数据采集、数据标注、数据清洗、模型训练、模型优化等。鉴于模型开发涉及大量的数据处理活动，其中各环节通常不会由同一主体执行，而是由行业内不同主体分工协作、共同完成。比如，企业通常以外包的方式将数据标注任务通过其自有的平台分包给从业的公司或个人，因此管理难度增大，对履行合规义务提出了更大的挑战。过长的模型开发链路以及多主体间的数据处理导致数据安全风险责任不清，追踪溯源更加困难。

　　推动公共数据分类分级治理的路径选择

　　公共数据分类分级治理是一项复杂的系统工程，必须完整、准确、全面贯彻党中央决策部署，梳理数据在采集、预训练、结果输出等全生命周期过程中面临的安全风险，以分类分级为关键抓手，建构大模型时代的公共数据分类分级治理体系。

　　第一，在制度上兼顾数据安全和发展。数据分类分级是大模型时代数据安全保护和数据要素市场化的前提，只有做好分类分级才能对数据安全管理采用更加精细化的措施。国家层面需尽快建立数据分类分级保护制度框架，制定清晰、具体、可操作的大模型训练数据需求清单及负面清单，对不同类型和不同风险等级的数据采取差异化的管理措施。适时扩大数据分类分级的法律适用范围，不能囿于安全保护视域，既要强调数据监管和规则，同时也要强调数据开发利用。加快推动公共数据授权运营，规范公共数据授权、加工、经营、安全监管等数据活动，推动公共数据资源有序合规进入一级市场。

　　第二，在管理上建立多方联动机制。建立政府部门、行业组织、开发者等不同主体参与的联动机制，及时反馈、共同治理生成式人工智能数据安全面临的新风险、新进展、新挑战，实现大模型数据安全与发展的多元共治。政府要发挥主导作用，对参与公共数据治理的数据运营商、研究支撑机构、数据交易机构等主体实施分类分级监管，落实网络安全、数据安全、个人信息保护等相关要求。行业组织可依法制定本行业数据分类分级标准，结合行业具体应用场景、数据属性和重要程度，制定和推广数据安全规范和团体标准。同时，鼓励生成式人工智能产业链条上的各类管理、开发、研究人员合法合规地发掘数据资产，开放数据资源、参与数据交易。

　　第三，在技术上创新智能分类分级方法。建设公共训练数据资源平台，聚焦金融、医疗、交通、空间等建设公共数据专区，提供安全、可信的数据清洗、加工环境，打造高质量的人工智能训练数据集和中文语料数据。利用自然语言处理、卷积神经网络等技术对公共数据进行智能识别，对数据编目识别模型进行快速分级，用实例数据识别模型对分级模型进行深度识别，动态扫描数据资产，从而实现智能化自动化公共数据分类分级。根据分词结果、词性属性以及不同的数据责任主体，探索利用多方安全计算、区块链等新技术构建与之匹配的公共数据集开放共享机制，在确保数据安全可控的前提下，实现公共数据可信流通。

　 （作者系之江实验室智能社会治理研究中心高级工程专员；之江实验室智能社会治理研究中心正高级工程师、信息技术部主任）、

责任编辑：崔博涵

重点推荐