7.3 AI与知识产权交叉问题
智能创造的边界:AI与知识产权的法律迷局
Section titled “智能创造的边界:AI与知识产权的法律迷局”人工智能(AI),尤其是近年来如同火山喷发般迅猛发展的生成式人工智能(Generative AI, AIGC),正以前所未有的力量和方式,猛烈地冲击并试图重塑我们人类社会千百年来形成的、关于创造行为、作者身份、智力成果以及知识产权(Intellectual Property, IP)保护的传统认知框架和法律体系。
当一台机器——更准确地说,是其背后复杂的算法和海量的数据——能够自主地(或者,更常见的是,在人类的提示、引导和干预下)创作出在形式上、内容上、甚至在艺术感染力上都看似新颖、复杂、足以与人类创作相媲美甚至在某些方面超越的文本(如新闻报道、小说诗歌、法律文书初稿)、图像(如绘画、摄影、设计图)、音乐(如乐曲、配乐)、计算机代码乃至动态的视频内容时,一系列根本性的、极其复杂且充满争议的法律问题便不可避免地浮出水面,在我们面前展现出一个充满未知迷雾和理论困境的“人工智能与知识产权的法律迷局”。
这个迷局的核心,触及了我们现有知识产权法律体系的诸多根基性问题:
- 版权法的边界: 这些由AI深度参与甚至主导生成的“内容”(我们还能称之为“作品”吗?),是否能够以及在何种条件下应当受到 我国《著作权法》 的保护?
- 作者身份的认定: 如果这些内容可以被保护,那么谁才是其合法的 “作者”?是那个设计并训练了AI模型的开发者?是提供了海量训练数据的数据提供者?是那个输入了关键提示词(Prompt)并引导生成过程的人类用户?还是(一个更具颠覆性的想法)AI模型本身?现行《著作权法》关于作者必须是自然人、法人或非法人组织的规定是否需要被挑战?
- 训练数据的合法性: AI模型(特别是大型基础模型)在其训练过程中,需要“学习”来自互联网或其他来源的数以亿计甚至万亿计的、其中必然包含了海量受版权保护的现有作品(文本、图像、音乐等)。这种未经绝大多数版权人明确授权的、为了训练商业性AI模型而进行的大规模复制和使用行为,是否构成了对原作版权(特别是复制权、改编权)的侵权?或者,它能否被纳入我国《著作权法》规定的 “合理使用”(Fair Use)或其他权利限制条款的范畴?
- 专利法的适应性: 当AI技术被广泛应用于辅助甚至主导发明创造过程时,AI本身能否被列为专利法意义上的“发明人”?利用AI做出的技术方案,其 可专利性(特别是创造性) 应该如何评估?AI算法本身能否以及在何种条件下可以获得专利保护?
- 商业秘密的价值凸显: 对于AI公司而言,其最核心的、最具竞争力的资产往往在于其内部专有的、经过持续优化的高性能AI模型本身、用于训练这些模型的独特且高质量的数据集、以及那些构成其“秘方”的特定算法实现细节或训练策略。在现有版权和专利制度可能难以完全覆盖这些核心资产的情况下,如何有效地运用《反不正当竞争法》中的商业秘密(Trade Secret)保护规则来守护这些“算法心脏”和“数据粮仓”,成为了AI时代知识产权战略的关键一环。
这些问题绝不仅仅是停留在象牙塔内的法学理论探讨或前沿学术争鸣。它们已经实实在在地演变成了全球范围内正在激烈进行的法律诉讼(例如,多起涉及AI训练数据和生成内容版权的诉讼)、监管机构的政策研讨与规则制定尝试、以及科技公司与内容创作者之间紧张的商业谈判与利益博弈的焦点。这些问题的最终解决方向,将直接关系到未来广大内容创作者(包括艺术家、作家、音乐家、程序员等)的合法权益能否得到有效保护、科技公司(特别是AI模型开发者和平台提供商)的商业模式能否持续以及其面临的法律风险有多大、AI工具的使用者(包括我们法律专业人士自身)能够享有哪些权利以及需要承担哪些责任、乃至整个创意产业、知识经济和技术创新的未来走向。
对于每一位身处智能时代的法律专业人士而言,深刻理解这些人工智能与知识产权交叉领域所特有的复杂问题、准确掌握(虽然很多规则仍在快速演进中,但仍需尽力把握)相关的国内国际法律规则和司法实践动态、并能够基于此为客户提供具有前瞻性、实用性和有效性的知识产权战略咨询、风险评估预警和创新性争议解决方案,已经成为在新时代保持自身专业竞争力和服务价值的一项关键性、甚至是必备性的要求。
一、 AI生成内容 (AIGC) 的版权困境:谁有资格成为“作者”?何种机器“创作”能被视为“作品”?
Section titled “一、 AI生成内容 (AIGC) 的版权困境:谁有资格成为“作者”?何种机器“创作”能被视为“作品”?”这是当前AIGC(人工智能生成内容)领域最受全球关注、也最具根本性、可能对现有版权制度产生最大颠覆效应的知识产权问题。其核心在于,由人工智能系统深度参与甚至在某种意义上“独立”生成的各种形式的内容(文本、图像、音乐、代码等),是否能够满足我国《著作权法》以及国际版权条约对于构成受保护“作品”(Work of Authorship)和认定合法“作者”(Author)的核心要求,从而能够像人类创作的作品一样,获得法律赋予的排他性版权保护。
-
核心问题1:AI系统本身,能否成为我国《著作权法》所承认的“作者”?
-
《著作权法》的根基:保护人类的智力创造: 我国以及世界上绝大多数国家的著作权(版权)法律制度,其历史渊源、立法宗旨和核心理念,都清晰地建立在保护和激励“人类”进行智力创造活动的基础之上。《中华人民共和国著作权法》明确规定,“创作作品的公民是作者”,“由法人或者非法人组织主持,代表法人或者非法人组织意志创作,并由法人或者非法人组织承担责任的作品,法人或者非法人组织视为作者”。可见,现行法律框架下的“作者”,其资格被明确地限定在自然人、法人或非法人组织这三类法律主体之内。其核心在于,著作权法保护的是源于人类智力、体现人类思想或情感、并具有独创性表达的成果。
-
主流法律观点与实践:否定AI的作者资格: 基于这一根本性的法律原则和规定,目前国内外的司法实践和行政主管机关(如国家版权局、美国版权局等)的主流观点都倾向于否定人工智能系统本身可以作为《著作权法》意义上的“作者”。其主要理由在于:
- AI缺乏法律主体资格: AI(至少是当前的弱AI/狭义AI)本身并非法律所承认的自然人、法人或非法人组织,它不具备独立享有权利和承担义务的法律主体资格。
- AI缺乏真正的“创作意图”与“独创性思想表达”: AI生成内容的过程,本质上是其基于被输入的数据和指令,通过极其复杂的算法模型进行统计模式匹配和概率性计算的结果。它缺乏人类作者所具有的独立的创作意图、主观的审美判断、真实的情感体验以及基于个人思想和经历形成的、能够被视为“独创性表达”的内在驱动力。即使其生成的内容在客观上可能显得新颖、复杂甚至具有艺术性,但其产生过程更多被视为一种自动化、工具性的执行,而非人类意义上的“创作”。
- 近期国内相关案例的启示: 例如,北京互联网法院审理的李某某诉刘某某关于AI生成图片著作权侵权案((2023)京0491民初11279号),法院虽然最终认定原告(AI使用者)对涉案图片享有著作权(理由是原告进行了大量的智力投入和个性化选择),但也明确否定了AI模型本身可以成为作者。这一判决体现了当前司法实践在试图平衡保护人类创造性贡献与不承认AI作者资格之间的努力。
-
未来的法律挑战与理论空间: 当然,这并非终局性的结论。如果未来人工智能技术的发展真的突破了我们现在的想象,出现了具备真正意义上的自主意识、情感体验和独立创造能力的强人工智能(AGI),那么我们现有的、以人类为中心的著作权法律框架可能将面临根本性的挑战和重构的必要。届时,关于是否以及如何赋予高级AI某种形式的法律主体资格或特殊权利地位(例如,前文讨论的“电子人格”)的讨论,将变得更加现实和紧迫。但就目前以及可预见的相当长一段时间内,将著作权法下的“作者”资格严格限定于人类(自然人)或法律拟制的主体(法人/非法人组织),仍然是全球法律体系的基本共识和实践操作。
-
核心结论: 基于当前的法律框架和主流观点,纯粹由AI系统自动生成的、如果能够被证明完全缺乏明确且达到独创性标准的实质性人类智力贡献的内容,很可能无法被认定为受《著作权法》保护的作品,从而可能直接进入公共领域(Public Domain),理论上任何人都可以自由使用(但这并不意味着没有其他法律风险,例如可能侵犯原始训练数据的版权,或涉及其他权利如商标权、人格权等)。
-
-
核心问题2:操作和使用AI工具的人类用户,能否以及在何种条件下可以被认定为AIGC的“作者”?
- 关键判断标准:是否存在并能证明“独创性”的人类智力贡献: 既然AI本身不能成为作者,那么那个通过与AI进行交互、输入提示词(Prompt)、调整参数、筛选结果、甚至进行后期编辑来最终获得AIGC内容的人类用户,能否被认定为该生成内容的“作者”并因此享有著作权?这成为了当前AIGC版权归属问题的核心焦点。根据著作权法的基本原理,答案取决于该人类用户在整个“人机协作”的创作过程中,是否以及在多大程度上付出了足够的、能够达到《著作权法》所要求的“独创性”(Originality)标准的智力投入。用户的贡献需要超越仅仅是提出一个简单的想法、按下一个按钮或者给出一个功能性的指令的程度,其投入需要实质性地影响、塑造和决定了最终生成内容的具体的、可被感知的表达形式(Expression),使得该最终成果能够被视为体现了该用户个人的智力选择、审美判断、技能运用和独特的创造性表达。
- 不同程度的人类介入与独创性判断:
- 低度介入:简单的指令或功能性提示: 如果用户仅仅向AI提供了非常简单、非常笼统、或者纯粹是描述客观需求或功能性目标的提示(例如,“帮我写一首关于春天的五言绝句”、“生成一张可爱的卡通小狗图片”、“将这段会议录音转成文字”),而最终生成内容的所有具体的遣词造句、图像的构图细节、色彩运用、艺术风格等核心表达元素,实际上都是由AI模型基于其内部算法和训练数据自动完成的,那么在这种情况下,人类用户的智力贡献可能被认为过于微不足道,仅仅停留在提出想法(Idea)或指令的层面,而未能达到形成独创性表达(Expression)的高度。根据版权法“思想表达二分法”(Idea-Expression Dichotomy)的基本原则(即版权只保护表达,不保护思想),这种情况下生成的AIGC很可能仍然无法获得版权保护,或者即使有保护,其范围也极其有限。
- 高度介入:复杂的提示设计、深度的迭代优化与实质性的后期编辑: 相反,如果在整个创作过程中,人类用户展现出了显著的、可被证明的独创性智力投入,例如:
- 用户设计并输入了极其复杂、具体、富有想象力甚至包含独特指令组合的提示词,对生成内容的主题构思、情节设计、人物塑造、画面构图、光影色彩、音乐旋律、情感基调乃至具体的风格细节都进行了高度个性化、非显而易见的限定和指导。
- 用户与AI进行了多轮的、反复的交互,通过不断地调整提示、追加约束、提供反馈、尝试不同参数组合等方式,对AI的生成过程进行了持续的、深度的引导、筛选和优化。
- 用户从AI生成的众多初步或中间结果中,进行了具有明确审美标准、价值判断或战略考量的筛选、选择、组合与编排。
- 更进一步地,用户在AI生成的初步成果(例如,AI生成的草图、文本片段、代码框架)的基础上,投入了大量的、实质性的后期人工编辑、修改、润色、重构或再创作,使得最终完成的作品显著地超越了AI的原始输出,并清晰地、可识别地融入了用户本人的独特风格、思想和创造性表达。 在这种人机深度协作、人类主导性更强的情况下,最终形成的整体成果就更有可能被认定为包含了足够的、源于人类的独创性智力贡献,从而使得该人类用户(或者至少是该用户所做出的独创性贡献部分)有资格被认定为作者并获得相应的著作权保护。前述的北京互联网法院关于AI生成图片的判决,正是体现了这种强调人类在AIGC过程中独创性贡献的裁判思路。
- 实践中的模糊地带、举证责任与未来趋势: 尽管上述区分在理论上是清晰的,但在纷繁复杂的实践中,判断人类用户的贡献是否达到了“独创性”标准,往往存在着广阔的模糊地带。这个“度”应该如何精确把握?目前全球范围内都缺乏明确的、统一的法律标准或量化指标。这很可能需要在未来的司法实践中,由法院根据每一个案件的具体事实证据(例如,需要审查用户输入的提示词的详细程度和创造性、人机交互的完整记录、用户进行迭代修改和后期编辑的具体过程与程度、以及最终作品与AI原始输出之间的实质性差异等)来进行非常细致的、个案化的判断。这也意味着,那些希望主张自己对AIGC作品享有著作权的用户,可能需要承担比传统创作更重的举证责任。他们需要有意识地、系统地保存所有能够证明其在整个创作过程中付出了实质性的、达到独创性标准的智力贡献的相关证据(例如,详细的、多版本的提示词记录;与AI进行多轮交互的完整对话历史;所有的中间生成结果和修改草稿;以及关于自己创作思路、选择过程和编辑决策的说明等)。未来,随着技术的发展和案例的积累,可能会逐渐形成更清晰的判断规则或指导原则。
- 核心问题3:AI生成内容(AIGC)本身,是否以及在何种程度上构成对其训练数据中已有受版权保护作品的侵权性复制或改编?
- AIGC输出的“衍生”属性与潜在侵权风险: 即便我们解决了AIGC本身的版权归属问题(例如,认定其属于公共领域,或者认定其版权归属于人类用户),但这并不意味着该AIGC内容就可以自由地、不受任何限制地被使用。一个更为普遍、也更令内容创作者担忧的问题是:AI模型(特别是那些在包含了海量受版权保护作品的数据集上进行训练的图像生成模型、音乐生成模型或大型语言模型)在生成其输出内容时,是否以及在多大程度上是在“记住”并“复现”其训练数据中特定受版权保护作品的独创性表达元素?
- 例如,一个图像生成AI,如果用户提示“画一幅风格类似梵高的星空”,其生成的图像是否可能与梵高的原作《星空》构成实质性相似?
- 一个音乐生成AI,在被要求创作一首特定风格的歌曲时,其生成的旋律或和弦进行是否可能与训练数据中某首受版权保护的歌曲高度雷同?
- 一个大型语言模型,在被要求续写某个故事或解释某个概念时,其生成的文本片段是否可能直接“照搬”了其训练数据中某本小说或某篇百科文章的独特措辞或表达结构?
- 如果AI生成的输出内容,与训练数据中某个(或某些)特定的、受版权保护的原始作品之间,在受保护的表达形式上构成了我国《著作权法》或相关国际条约所认定的“实质性相似”(Substantial Similarity),那么,即使该AIGC本身可能因为缺乏作者资格而无法获得版权,它也极有可能被认定为是对原始作品版权的一种侵权性复制(Infringing Reproduction)或侵权性改编(构成未经授权的衍生作品 Infringing Derivative Work)。
- 版权侵权判定在AIGC场景下面临的巨大挑战: 将传统的版权侵权判定标准(特别是“接触+实质性相似”原则)应用于AIGC场景,面临着极其巨大的技术和法律挑战:
- 如何证明“接触”(Access)? 在传统侵权诉讼中,原告通常需要证明被告曾“接触”过其作品。对于训练了可能包含数十亿甚至数万亿参数、学习了互联网上大部分公开文本和图像的AI模型而言,我们是否可以推定它已经“接触”了几乎所有公开发表的作品?还是需要更具体的证明?
- 如何进行“实质性相似”的比对? AI的生成过程往往是极其复杂的、非线性的、并且可能融合了来自无数不同来源的模式和元素。对于一个具体的AIGC输出(例如,一幅AI生成的图像),我们如何能够准确地、有效地将其与潜在的、可能数以亿计的原始训练数据(其中哪些是受版权保护的?模型开发者通常也不会完全公开其训练数据集)进行全面的比对,以判断是否存在对某一个或某几个特定原始作品的、受保护的独创性表达部分构成了“实质性相似”?这在技术上可能极其困难甚至不可行。
- “风格模仿”与“思想/表达二分法”的界限在哪里? 如果AI只是学习并模仿了某位艺术家、作家或音乐家的独特风格(Style)——例如,生成了一幅具有毕加索立体主义风格但内容完全不同的画作,或者写了一段具有鲁迅犀利讽刺风格但情节完全原创的文字——这是否构成版权侵权?传统的版权法原则是只保护具体的表达(Expression),而不保护抽象的思想、风格、方法、程序、概念(Idea)。但AI极其强大的风格模仿能力是否正在挑战甚至模糊这条界限?对于那些风格本身就极具独创性和商业价值的创作者而言,这种模仿是否构成了一种需要法律干预的“不公平竞争”?这也是当前争议的热点。
- AI模型的“黑箱”特性带来的举证困难: 由于AI模型(特别是大型深度学习模型)的内部工作机制高度不透明,我们几乎无法直接、确切地知道它在生成某个特定输出时,是否以及具体是如何利用了其训练数据中的某个(或某些)特定的原始作品。这给原告(版权持有者)在侵权诉讼中承担证明AI生成内容确实“抄袭”了其作品的举证责任带来了巨大的困难。未来是否需要调整举证责任规则,或者发展新的技术取证方法?
- 当前的全球诉讼态势与未来规则走向的高度不确定性: 正如前文所述,目前全球范围内已经涌现出大量由各类版权持有者针对主要AIGC模型开发者提起的版权侵权诉讼。这些诉讼的核心争议,除了训练数据的合法性外,也直接指向了AI生成内容本身是否构成对其训练数据的侵权性复制或改编的问题。这些标志性案件的最终判决结果(目前大多仍在审理的早期阶段,结果具有高度不确定性),将对如何界定AIGC的侵权边界、如何在技术可能性与法律规则之间进行解释适用、以及如何在新技术背景下重新平衡内容创作者、技术开发者和公众使用者之间的利益关系产生极其深远、甚至是决定性的影响。这些判决很可能将直接塑造未来AIGC技术的法律责任框架、商业模式乃至技术发展路径。
- AIGC输出的“衍生”属性与潜在侵权风险: 即便我们解决了AIGC本身的版权归属问题(例如,认定其属于公共领域,或者认定其版权归属于人类用户),但这并不意味着该AIGC内容就可以自由地、不受任何限制地被使用。一个更为普遍、也更令内容创作者担忧的问题是:AI模型(特别是那些在包含了海量受版权保护作品的数据集上进行训练的图像生成模型、音乐生成模型或大型语言模型)在生成其输出内容时,是否以及在多大程度上是在“记住”并“复现”其训练数据中特定受版权保护作品的独创性表达元素?
二、 AI模型训练数据的版权争议:是技术的“合理使用”还是对创作生态的“大规模侵权”?
Section titled “二、 AI模型训练数据的版权争议:是技术的“合理使用”还是对创作生态的“大规模侵权”?”这个问题是当前人工智能与知识产权领域争议最为激烈、影响最为广泛、也最具有根本性的核心战场之一。它直接关系到目前主流的大型AI模型(无论是LLM还是其他生成模型)其训练方式的合法性基础,以及未来AI技术发展与传统内容创作生态之间能否找到可持续共存模式的关键。
-
核心法律争议的焦点:未经授权的大规模复制与使用 vs. 合法的版权例外或限制抗辩
-
无法回避的复制行为: 训练现代大型AI模型(特别是那些需要达到通用能力或在特定领域具有高水平表现的模型)的一个无法回避的技术前提,就是需要 “喂给” 它们 极其庞大、极其多样化 的数据来进行学习。这些数据通常需要从公共互联网(如抓取网页、论坛、社交媒体内容)、数字化图书馆(如古腾堡计划、Google Books)、开源代码托管平台(如GitHub)、或者其他特定数据库中进行大规模地抓取(Crawling)、复制(Copying)和存储(Storing)。从版权法的角度来看,这个为了训练模型而进行的、通常是系统性的、海量数据的复制和存储行为本身,如果其中包含了大量受版权法保护的作品(而这几乎是不可避免的),并且这个过程没有事先获得绝大多数原始版权持有人的明确授权或许可,那么这个行为就已经在表面上落入了版权人所享有的、受法律严格控制的复制权(Right of Reproduction)的范围之内。除非AI开发者能够提出合法有效的抗辩理由,证明其行为属于版权法所允许的例外或限制情况,否则就可能构成大规模的版权侵权。
-
AI开发者/平台方的核心抗辩理由:“合理使用”(Fair Use,主要适用于美国版权法体系): 面对来自全球各地版权持有者的侵权指控和诉讼,AI模型开发者(特别是那些总部位于美国的科技巨头)普遍提出的最核心、也最重要的法律抗辩理由,就是主张它们将受版权保护的作品用于训练AI模型的行为,属于美国版权法第107条所规定的 “合理使用”(Fair Use)。合理使用原则是美国版权法中一个极其重要、但也极其复杂和富有弹性的制度,它允许在某些特定情况下,未经版权人许可而有限度地使用受版权保护的作品,以促进言论自由、知识传播、教育科研和技术创新等公共利益。判断一项使用行为是否构成合理使用,法律规定需要个案地、综合地考量以下四个非法定的、需要进行权衡的因素:
- 使用的目的和性质(The purpose and character of the use, including whether such use is of a commercial nature or is for nonprofit educational purposes): 这是通常被认为最为关键的一个因素。AI公司会极力论证,它们使用版权作品的目的并非为了简单地复制或替代原作本身的表达功能(例如,不是为了让用户通过AI直接阅读某本小说或观看某部电影),而是为了从中提取统计规律、学习语言模式、构建知识关联,最终训练出一个具有全新功能和目的的AI模型——即实现了一种 “转换性” 的使用(Transformative Use)。它们会援引先前一些涉及搜索引擎(如Google Books案)或技术分析的判例,认为这种转换性使用对原作市场的直接损害很小,并且对于推动人工智能这一新兴技术的进步、实现其巨大的社会和经济价值具有重要的公共利益。然而,这种使用的“转换性”程度到底有多大?AI模型(特别是生成式AI)最终输出的内容与其训练数据之间是否存在替代关系?其主要的商业目的性质是否会削弱合理使用的抗辩力度?这些恰恰是当前诉讼中双方争议最激烈、法院需要做出艰难判断的核心所在。
- 受版权保护作品的性质(The nature of the copyrighted work): 一般而言,对虚构性的、创造性程度高的作品(如小说、诗歌、艺术绘画)的使用,获得合理使用保护的难度要大于对事实性的、信息性的作品(如新闻报道、学术论文、数据库)的使用。AI训练数据通常包含了所有类型的作品,这使得该因素的分析变得复杂。
- 使用部分的数量和实质性程度(The amount and substantiality of the portion used in relation to the copyrighted work as a whole): AI模型的训练通常需要输入作品的全部内容(或者至少是绝大部分),才能有效学习其模式和知识。从数量上看,这似乎是完全、大量的复制,这在传统的合理使用分析中通常是一个非常不利的因素。但是,AI公司可能会辩称,虽然输入了全部内容,但模型在训练过程中并非完整地“存储”或“记忆”了这些作品,而是将其转化为了极其复杂的、抽象的数学参数(模型权重)。它们可能会主张,模型最终 “学习”到的并非作品的具体表达形式,而是其中蕴含的统计模式、知识关联或风格特征,因此从 实质性(Substantiality) 角度看,对原作核心独创性表达的“使用”是有限的。(然而,当模型能够生成与原作高度相似甚至逐字逐句重复的内容时,这种辩称的说服力就会大打折扣。)
- 该使用对受版权保护作品的潜在市场或价值的影响(The effect of the use upon the potential market for or value of the copyrighted work): 这是另一个极其核心且充满争议的因素。版权持有者(特别是新闻媒体、出版商、艺术家、音乐家等内容创作者)强烈认为,AI模型(尤其是生成式AI)通过无偿地、大规模地“学习”他们的作品,最终能够生成在功能上或市场上能够直接替代或严重损害其原始作品(以及基于原作创作衍生作品)的现有市场和所有潜在的、未来可能的许可市场(Potential Markets)的价值。例如,AI生成的摘要可能替代了付费阅读原文的需求;AI生成的图像可能替代了购买授权图片的需求;AI生成的代码可能替代了对原始软件库的依赖。而AI公司则可能反驳称,其生成的内容是全新的创作,与原始作品的市场定位不同,甚至可能因为引发了新的应用场景或用户兴趣而“促进”而非“损害”了原作的市场。法院需要仔细地权衡这些相互冲突的主张,评估AI训练和应用对现有内容市场生态可能造成的真实且重大的经济影响。
-
其他可能的版权例外抗辩:文本与数据挖掘(TDM)例外(主要适用于欧盟、日本等法域): 在美国以外的一些重要司法管辖区(例如,欧盟,在其2019年通过的 《数字单一市场版权指令》(DSM Directive)中;以及日本等国的版权法修订中),为了促进科学研究和技术创新,专门规定了针对“文本和数据挖掘”(Text and Data Mining, TDM)活动的版权限制与例外条款。TDM通常指利用自动化分析技术(包括AI技术)从大量的数字化文本和数据中提取信息、发现模式或构建知识的过程。这些例外条款通常允许研究机构、文化遗产机构等主体,在已经合法访问(例如,通过订阅数据库、获得图书馆授权等)受版权保护作品的前提下,为了科学研究的目的,对这些作品进行复制以用于TDM分析。
- TDM例外对商业AI训练的适用性存疑: 然而,需要特别注意的是,这些TDM例外条款通常都带有严格的限制条件。例如,欧盟DSM指令第4条虽然也将TDM例外扩展到了商业目的,但明确规定版权持有人可以通过适当的方式(例如,在网站robots.txt文件中声明、或在作品元数据中标记)明示地保留(Opt-out)其作品不被用于(特别是商业性)TDM的权利。许多大型新闻出版商和内容平台已经开始采取这种“Opt-out”措施。此外,TDM例外通常不适用于那些主要目的是为了“欣赏”作品本身而非进行分析挖掘的复制行为。因此,当前由商业公司进行的、旨在训练能够生成与人类创作竞争的AIGC模型的大规模数据抓取和使用行为,是否能够以及在多大程度上能够真正援引这些主要为“科学研究”目的而设计的TDM例外条款,仍然是一个充满争议且在法律解释上存在很大不确定性的问题。
-
-
当前的全球诉讼态势与未来规则走向的高度不确定性:
- 诉讼浪潮迭起: 正如前文所述,目前,全球范围内已经涌现出了一系列由各类重要的版权持有者(包括大型新闻集团如纽约时报、知名作家和艺术家个人或其集体组织、大型图片库如Getty Images、代码开发者通过针对GitHub Copilot的集体诉讼等)针对几乎所有主要的AI模型开发者和平台提供商(如OpenAI及其合作伙伴Microsoft、Meta (Facebook/Instagram)、Stability AI、Midjourney、Google等)提起的版权侵权诉讼。
- 争议焦点高度集中: 这些诉讼的核心法律争议都高度集中在未经授权、大规模地使用受版权保护的数据进行AI模型训练的合法性问题上,以及由此产生的AI生成内容是否构成对原始作品的侵权性复制或改编的问题。
- 结果难以预测,影响极其深远: 这些具有标志性意义的案件目前大多仍处于诉讼程序的早期或审理阶段(例如,可能在进行动议辩论、证据开示或等待初审判决)。各国法院将如何在全新的、极其复杂的人工智能技术背景下,重新解释和适用那些主要是为应对前AI时代挑战而制定的传统版权法原则(特别是关于“复制”、“改编”、“合理使用”、“独创性”、“作者身份”等核心概念),其最终的判决结果具有极大的不确定性。然而,这些判决无疑将对整个AI产业的未来发展路径、商业模式的可持续性、以及AI技术开发者与全球内容创作者之间的利益格局和关系模式产生决定性的、里程碑式的影响。它们很可能将直接塑造未来若干年内关于AIGC技术的全球法律责任框架和市场规则。法律专业人士必须对此保持最高度的关注。
- 探索未来可能的解决方案与平衡路径: 面对这一棘手的法律困境,以及在激励AI技术创新发展与保护内容创作者合法权益并维持健康创作生态这两个同样重要的社会目标之间存在的巨大张力,未来可能的解决方案路径可能需要在多个层面进行探索:
- 技术层面的创新探索: 例如,研究和开发那些更注重隐私和版权保护的AI训练新方法(如前文提到的联邦学习、差分隐私等);探索是否可能设计出更容易追踪其生成内容来源、或者能够自动避免生成与训练数据过于相似内容的AI模型架构;或者开发更有效的技术工具来帮助版权人检测其作品是否被不当用于训练或生成侵权内容。
- 构建市场化的数据许可机制: 积极探索建立专门针对AI训练目的的、更有效、更透明、更便捷、成本更合理的数据许可市场或集体管理机制。例如,可以由版权集体管理组织、专门的数据交易平台、或者行业联盟来负责,使得版权持有者可以通过这些平台明确地授权其作品被用于AI训练(可以选择不同的授权范围和条件),并从中获得公平、合理的经济报酬;而AI开发者则可以通过这些平台合法、合规、高效地获取到训练模型所需的、经过授权的高质量数据。但这需要克服权利清理极其复杂、海量数据难以准确定价、全球协调困难重重等诸多现实障碍。
- 立法层面的审慎干预与规则调适: 各国政府和立法机构可能需要在充分研究和广泛征求意见的基础上,通过修改现有的版权法(例如,调整“合理使用”原则的适用标准、或者明确TDM例外的范围和条件),或者制定新的、专门针对AI与版权问题的法律规则,来更清晰地界定AI训练数据使用的合法边界、规定合理使用的具体条件或范围、明确权利人选择退出(Opt-out)或获得补偿(Compensation)的机制、甚至在必要时考虑引入某种形式的强制许可(Compulsory Licensing)制度等,以期在鼓励和保障AI技术创新发展与有效保护内容创作者的核心权益、维护繁荣多元的创作生态这两个同样重要的社会目标之间,达致一个新的、更可持续的法律平衡点。这无疑将是一个充满挑战和博弈的立法过程。
三、 AI相关发明的可专利性问题:当智慧的火花来自硅基而非碳基
Section titled “三、 AI相关发明的可专利性问题:当智慧的火花来自硅基而非碳基”人工智能技术本身(例如,那些构成AI能力基础的新颖算法、独特的神经网络架构、高效的训练方法)以及利用AI技术作为强大工具所做出的各种应用层面的发明创造,也给主要是为了保护和激励人类技术创新而建立起来的传统专利法律制度,带来了一系列新的审视角度、解释难题和潜在的规则调整需求。
-
AI算法/软件本身的可专利性:在抽象思想与技术应用之间划界:
- 普遍存在的排除原则: 在全球绝大多数主要的专利法体系中(包括中国的《专利法》、美国的《专利法》以及《欧洲专利公约》EPC),都存在一个基本且重要的原则,即纯粹的、抽象的数学方法、科学发现、自然规律、以及人类的智力活动的规则和方法本身,通常不被视为可以授予专利权的发明创造(Patentable Subject Matter)。其背后的核心理由是,专利制度旨在保护那些能够解决具体技术问题、并能产生实际技术效果的有形或无形的技术方案(Technical Solution),而非那些仅仅停留在抽象层面、缺乏具体技术应用的思想、原理或算法本身。如果对过于基础或抽象的内容授予专利,可能会不当垄断人类思想的基本工具,阻碍后续的创新。
- 关键在于“技术应用”和“技术效果”: 因此,一个纯粹的、脱离了任何具体应用场景的AI算法或数学模型本身(例如,一个新的排序算法的数学描述),可能难以直接获得专利保护。然而,这绝不意味着所有与人工智能相关的发明都无法获得专利。其可专利性的关键通常在于:
- 该AI算法或软件是否被应用于解决一个在特定技术领域中存在的具体“技术问题”(Technical Problem)?
- 其应用是否能够产生可预期的、具体的、有用的“技术效果”(Technical Effect)?(例如,提高了某个物理过程的效率、提升了某个测量设备的精度、实现了某种新的数据处理功能、或者改善了人机交互的体验等)
- 或者,该AI算法是否与具体的硬件设备或物理过程紧密结合,共同构成了一个完整的、具有技术特征的系统或方法? 如果一项发明巧妙地利用了AI算法来改进一个具体的工业生产流程(例如,一种利用机器学习优化炼钢参数以提高钢材质量的方法)、提升一个医疗诊断设备的性能(例如,一种利用特定卷积神经网络结构显著提高医学图像中早期病灶识别准确率以辅助医生诊断的系统和方法)、优化一个复杂物理系统的运行效率(例如,一种利用强化学习动态调整电网负荷分配以降低损耗的控制系统)、或者实现了一种全新的、具有实用价值的技术功能(例如,一种基于AI的新型自然语言处理方法,能够更准确地理解特定领域的专业术语并应用于智能客服或文档分析),那么这个包含了AI算法作为一个关键技术要素的整体技术方案,通常是可以被视为符合专利法要求的可专利主题的。当然,它还需要同时满足专利法所要求的 新颖性(Novelty)、创造性(Inventiveness / Non-obviousness,即相对于现有技术具有实质性特点和显著进步)和实用性(Utility / Industrial Applicability) 等所有实质性授权条件,才能最终获得专利权。
- 各国专利审查实践中的核心考量:“技术性”(Technical Character): 各国主要的专利审查机构(如中国国家知识产权局CNIPA、美国专利商标局USPTO、欧洲专利局EPO)在其发布的专利审查指南中,都针对涉及计算机程序(包括AI算法)的发明给出了具体的审查标准。虽然具体表述和侧重点有所不同,但其核心的关注点往往都在于判断该发明是否具有足够的“技术性”(Technical Character),是否超越了纯粹的抽象算法、数学方法或商业规则本身,而真正地运用了技术手段(即使是软件手段)解决了某个技术领域中的技术问题,并因此而产生了可信赖的技术效果。只有具备了这种“技术性”,才可能被认为是可专利的主题。
-
经过训练的、包含特定参数的AI模型本身的可专利性: 一个已经训练完成、包含了数以亿计甚至万亿计具体权重参数的大型AI模型(例如,一个经过在海量法律文本上预训练和微调、表现出色的法律领域专用LLM,或者一个能够生成特定风格高质量图像的Diffusion模型),其本身作为一个整体(即包含这些特定参数集合的模型文件)能否获得专利保护?目前来看,这通常非常困难。主要的障碍在于:
- 难以视为“技术方案”: 模型的核心——那些具体的、海量的权重数值——更像是在特定训练数据和算法下计算和学习的结果,或者说是一种极其复杂的、特定信息的组织和表示形式。直接将这些参数集合本身视为一项符合专利法定义的“技术方案”存在困难。
- 缺乏稳定性与可重复描述性: 模型的具体参数可能随着训练过程的微小变化而变化,且难以用简洁、明确的语言在专利权利要求中进行限定和描述。
- 更适合商业秘密保护: 正如后文将讨论的,这些训练好的模型参数,通常更适合也更常被企业作为其核心商业秘密来进行保护。
- 但请注意:这并不意味着与该模型相关的创新完全无法获得专利保护。例如,用于训练这个模型的独特且具有创造性的方法或流程、为了提升其性能或效率而设计的特定技术手段(如新的数据预处理方法、特殊的模型压缩技术)、或者该模型所采用的新颖且具有技术效果的神经网络架构本身,则完全可能构成可专利的技术方案,并获得专利保护。
-
AI作为发明创造过程中的强大辅助工具 (AI as an Inventive Tool): 这是目前人工智能在技术创新领域最常见、应用最广泛、也最没有法律争议的情况。当人类的科学家、研究人员或工程师,在其研发过程中,利用各种AI工具(例如,使用AI进行大规模的药物分子虚拟筛选、新材料性能的模拟与预测、复杂工程设计的自动化优化、海量实验数据的模式挖掘与分析等)来极大地辅助其研究过程、加速探索进程、拓展创新思路时,如果最终基于这些AI辅助的研究所取得的成果,是由人类做出了关键的、创造性的智力贡献,并最终构思和实现了一项符合专利法要求的发明创造,那么该发明成果只要满足专利授权的所有实质性条件(新颖性、创造性、实用性),就完全可以获得专利保护。
- 在这种情况下,AI的角色被清晰地界定为一种极其强大的、能够增强人类能力的“辅助工具”(Inventive Tool)或“研究伙伴”(Research Partner)。它帮助人类提高了研发的效率,处理了更复杂的数据,探索了更广阔的可能性,但最终做出关键性发明构思、判断、选择和实施的主体仍然是人类发明人。
- AI的辅助使用本身,通常不会影响该发明本身的可专利性,也不会改变最终需要被列为发明人的人类个体的资格。当然,在专利申请文件中,可能需要根据具体情况适当披露AI在发明过程中所扮演的辅助角色(尤其是在需要说明发明的背景或技术效果时),但这并不会从根本上改变专利权的归属规则。
-
核心前沿问题:AI本身能否成为法律意义上的“发明人” (Can AI Be Named as an Inventor)?:
-
问题的提出: 随着AI(特别是深度学习和生成模型)在某些领域(如药物发现、材料科学、芯片设计等)展现出越来越强的、看似能够“独立”产生新颖甚至突破性解决方案的能力,一个更具前瞻性、也更具颠覆性的问题开始被严肃地提出:如果未来某个高度自主的、具备强大问题解决和创造能力的AI系统,在没有(或者仅有极少、非实质性的)人类直接干预和指导的情况下,真正独立地构思并实现了一项完全符合专利法所要求的新颖性、创造性和实用性标准的新技术方案,那么,这个AI系统本身,能否以及是否应该被法律承认为该项发明的“发明人”之一,并被列在专利申请文件和最终的专利证书上?
-
当前的全球法律立场:普遍、明确地否定: 与版权法对“作者”必须是人类的要求类似,目前全球绝大多数国家和主要司法管辖区的专利法律体系都明确或隐含地要求,能够被授予“发明人”(Inventor)资格的主体必须是自然人(Human Inventor)。
- 这通常是基于对法律条文中“发明人”一词(例如,美国专利法中的 “individual”)的解释,认为其天然指向人类个体。
- 更深层次的理由则在于传统专利理论认为,“发明”活动的核心在于人类的心智活动(Mental Act),特别是形成发明构思(Conception)的那个创造性瞬间,这被认为是只有具备意识和理解能力的人类才能完成的。目前的AI,无论其输出多么新颖,其过程仍被视为一种复杂的计算和模式匹配,而非人类意义上的“发明构思”。
- 标志性的“DABUS”案的全球裁决: 这一点在备受全球关注的 “DABUS”系列案件 中得到了充分体现。DABUS (Device for the Autonomous Bootstrapping of Unified Sentience) 是由美国人工智能专家Stephen Thaler博士开发的一个据称能够进行自主发明的AI系统。Thaler博士试图在全球多个国家和地区(包括美国、英国、欧盟、澳大利亚、德国、韩国、中国台湾等),为据称完全由DABUS独立产生的两项发明(一种新型食品容器和一种用于吸引注意力的警示灯)申请专利,并在申请文件中坚持将DABUS系统本身列为唯一的或共同的发明人。然而,截至目前,除了南非(其专利法对发明人的定义较为模糊,且专利授权主要采取登记制而非实质审查制)曾短暂地、形式上授予了专利(后也引发争议)之外,所有进行了实质性审理的主要司法管辖区的专利局(如USPTO, EPO)和上诉法院(如美国联邦巡回上诉法院、英国最高法院、德国联邦专利法院),都最终一致地做出裁决:根据现行有效的专利法律,人工智能系统不能被认定为法律意义上的“发明人”,专利申请中的发明人必须是自然人。 这些判决为当前阶段AI不能作为发明人的法律立场奠定了坚实的基础。
-
未来的挑战、反思与可能的路径: 然而,DABUS案的广泛讨论也引发了对未来的深刻反思。如果未来AI的自主创造能力(特别是在科学发现和工程技术发明领域)真的发展到了一个质变的程度,能够持续地、可靠地、独立地产生具有重大价值和突破性的、完全符合专利实质性要求的发明成果,那么我们现行的、以人类为中心的专利法律框架是否还能完全适应?
- 激励机制的考量: 如果AI产生的重大发明无法获得专利保护(因为没有合格的人类发明人),这是否会抑制对开发和应用这类创造性AI的投入和激励?
- 权利归属的公平性: 如果承认AI的“发明贡献”,那么由此产生的专利权利(例如,专利申请权和最终的专利权)应该归属于谁?是AI本身(如果承认其某种法律人格的话)?还是AI的所有者(投入了购买和运行成本)?AI的开发者(贡献了核心算法)?提供关键训练数据的一方?还是那个提出了问题或设定了目标的人类使用者?这需要设计全新的、公平合理的权利分配规则。
- 对“发明”概念的重新定义: 我们是否需要重新审视和定义专利法中“发明”和“发明人”的 核心内涵 ?是否应该将重点从关注发明的“主体”(必须是人)转向更关注发明的“客体”(即技术方案本身是否满足新颖性、创造性、实用性)以及专利制度的最终目标(是仅仅激励人类创造,还是更广泛地激励所有能够产生有益技术进步的活动)?
这些都是极其复杂、涉及根本性法律哲学和制度设计的重大问题,需要法律界、科技界、产业界和全社会进行持续的、深入的跨学科探讨。未来,不排除可能会通过立法修改的方式,来创设某种特殊的规则以适应AI独立或深度参与发明的场景(例如,可能允许将AI系统标记为“贡献者”而非“发明人”,同时明确专利权归属于相关的人类主体)。
-
四、 AI核心资产的商业秘密保护:守护高科技企业的“算法心脏”与“数据粮仓”
Section titled “四、 AI核心资产的商业秘密保护:守护高科技企业的“算法心脏”与“数据粮仓””对于许多投入了巨额研发资金、汇聚了顶尖人才、并期望在激烈市场竞争中脱颖而出的人工智能(特别是机器学习和深度学习)公司而言,其最核心、最具战略价值、也最能构成其长期竞争壁垒的知识资产,往往并非是那些可能申请了专利的外围应用技术或软件界面,而在于其内部专有的、经过持续迭代优化、性能卓越的AI模型本身(尤其是那些作为公司技术平台基石的大型基础模型,或者在特定垂直领域具有独特优势的专用模型)、用于训练这些高性能模型所依赖的独特且高质量的数据集(这些数据集的获取、清洗、标注、增强和管理往往耗费了巨大的成本和精力,是决定模型最终效果的关键“燃料”)、以及那些构成其核心技术“Know-how”的、未公开的特定算法实现细节、独特的模型架构创新、高效的训练策略与技巧、或者关键的超参数(Hyperparameters)组合方案。
这些代表着公司核心技术秘密和竞争优势来源的知识资产,通常难以仅仅通过专利法来进行有效且全面的保护。因为专利制度的基本要求是申请人必须向社会充分、清晰地公开(Disclosure)其发明的技术方案,以换取一段时间内的排他性权利。对于AI公司而言,将其最核心的算法细节、模型结构或训练方法完全公开在专利文件中,无异于将自己的“武功秘籍”公之于众,极易被竞争对手模仿或规避,从而丧失其商业秘密价值。
同时,版权法虽然可以保护AI软件的源代码、目标代码以及相关的文档的具体表达形式不被直接抄袭,但它通常不保护这些代码背后所蕴含的算法思想、功能逻辑、模型结构或其所体现的技术效果。
在这种情况下,商业秘密(Trade Secret)法律制度,就成为了保护这些AI核心知识资产的一道关键性的、甚至可以说是最重要的法律防线。商业秘密保护的核心优势在于其不需要公开,只要能持续保持秘密状态,其保护期限就可以是无限的(而不像专利有固定的保护期)。
-
哪些AI相关的核心资产可能构成受保护的商业秘密: 潜在的范围非常广泛,几乎涵盖了AI研发和应用全流程中所有具有商业价值且不为公众所知的技术信息和经营信息。只要能够满足法律对商业秘密的构成要件,以下都可能被视为商业秘密:
- AI模型的核心要素:
- 训练完成的模型文件本身,特别是其中包含的具体的、海量的 权重参数(Model Weights) 集合。(这些参数是模型能力的直接体现,通常是高度保密的)。
- 公司内部独创的、未公开的神经网络架构设计、或者对现有架构进行的具有显著性能提升的改进。
- 用于模型训练的特定的损失函数(Loss Function)、优化器(Optimizer)的选择及其参数配置。
- 关键的训练数据集及其处理方法:
- 公司耗费巨大资源通过特定渠道收集、或者自行标注、清洗、去偏、增强而形成的高质量、大规模、具有特定领域价值的专有训练数据集(例如,用于训练精准医疗模型的、经过严格处理和标注的匿名化临床病例数据库;或者用于训练金融风控模型的、包含独特风险因子的交易行为数据集)。
- 独特的、未公开的数据预处理方法、特征工程技术、或者数据增强策略。
- 算法实现与优化过程中的“Know-how”:
- 未公开的、具有创新性的特定AI算法的具体源代码实现(虽然代码本身也受版权保护,但其设计思想和优化技巧可能构成商业秘密)。
- 用于显著提升模型训练效率、降低计算成本、或者提高模型推理速度的独特优化技巧、算法捷径或工程实践经验。
- 经过大量实验验证得出的、效果显著的关键超参数(Hyperparameters)的最佳组合方案(例如,学习率、批处理大小、网络层数、正则化系数等的特定取值)。
- 内部使用的、高效的分布式训练框架、流程和调度策略。
- 提示工程(Prompt Engineering)的“独门绝技”与知识库:
- 对于依赖大型语言模型(LLM)提供服务的应用而言,那些由公司内部专家团队经过精心设计、反复测试、被证明效果极其出色的高级提示模板(Prompt Templates)。
- 内部积累的、能够 稳定引导模型生成特定高质量输出(例如,特定风格的法律文书、特定类型的风险分析报告) 的、包含大量实践经验和技巧的“秘方”提示库(Prompt Library)或知识库。
- 用户交互数据、反馈信息与模型迭代策略:
- 在严格遵守数据隐私法规和用户协议的前提下,企业收集到的关于用户如何与其AI系统进行交互的大规模行为数据(例如,用户提出的查询、点击行为、停留时间等)。
- 用户对AI输出结果提供的显式反馈(例如,点赞/点踩、评分、错误报告)或隐式反馈(例如,是否采纳了AI的建议、是否对结果进行了修改)。
- 基于这些用户数据和反馈信息,公司内部用于持续迭代优化AI模型、改进算法性能、提升用户体验的独特分析方法、模型更新策略和A/B测试结果。这些信息对于保持产品的市场竞争力具有极高的商业价值。
- AI模型的核心要素:
-
在中国法下获得商业秘密法律保护的核心要件: 要想让上述这些具有潜在价值的信息能够成功地作为商业秘密,在被他人(如离职员工、竞争对手、或违反协议的合作伙伴)通过不正当手段获取、披露或使用时,能够获得我国 《反不正当竞争法》 (第九条专门规定了商业秘密保护)以及相关司法解释的有效保护,并使权利人能够获得法律救济(例如,请求法院判令停止侵权、赔偿损失),那么该信息必须同时满足以下三个法定构成要件:
- 秘密性 (Secrecy): 即该信息不为其所属技术或者经济领域的相关人员普遍知悉和容易获得。这意味着它不能是公开领域可以轻易查到的信息,也不能是行业内的通用知识或惯例。
- 价值性 (Value): 即该信息因其秘密性而具有现实的或者潜在的商业价值,能够为权利人带来经济利益、竞争优势或者其他经营上的好处。
- 权利人采取了相应的保密措施 (Reasonable Measures to Maintain Secrecy): 这是在商业秘密侵权诉讼中最为核心、也最常成为双方争议焦点的环节! 权利人必须能够向法院提供充分的证据,证明其已经根据该商业秘密的性质、价值、载体形式等具体情况,采取了与其重要性程度相适应的、合理的、持续的措施来积极地、主动地保护该信息的秘密状态,使他人不容易通过正当途径获取。如果权利人自己都对信息保护漠不关心、措施松懈,任由信息轻易外流,那么法律通常也不会再给予其商业秘密的特殊保护。
-
AI时代背景下采取“合理保密措施”的挑战与实践要点: 保护与人工智能相关的、往往以无形的数据、代码、模型参数等形式存在的商业秘密,需要权利人采取更加全面、更加严密、更加技术化的综合性保护措施。这些措施应至少涵盖以下几个方面:
- 技术层面的严密访问控制与安全防护 (Technical Safeguards):
- 必须实施极其严格的、基于最小权限原则的访问控制机制(例如,采用基于角色的访问控制RBAC、多因素认证MFA、动态权限管理等),最大限度地限制能够接触到核心AI模型文件、关键训练数据集、核心算法源代码、或者重要提示库的内部人员范围,确保只有确因工作需要且经过严格授权的人员才能访问,并且其访问权限应被限制在完成其工作所必需的最小范围之内。
- 对存储这些核心数字资产的服务器、数据库、代码版本控制系统(如GitLab/GitHub Enterprise)、云存储等基础设施,必须实施最高级别的物理安全和网络安全防护措施(例如,部署先进的防火墙、入侵检测/防御系统(IDS/IPS)、数据丢失防护(DLP)系统、进行持续的安全漏洞扫描和加固)。
- 对所有静态存储(At Rest)和网络传输过程中(In Transit)的核心数据、模型文件和源代码,都必须使用符合国家密码管理规定或国际主流标准的强加密算法进行加密保护。
- 建立并运行全面、详细、且能够防篡改的操作审计日志系统,记录所有对核心AI资产的访问、下载、修改、复制、删除和使用情况,以便于事后追踪、发现异常行为和进行安全事件调查取证。
- 在将AI模型部署到线上环境以提供API服务或集成到产品中时,需要采取额外的技术措施来增加模型被外部攻击者恶意下载、进行逆向工程分析、参数被窃取(Model Stealing)或核心功能被非法复制(Model Extraction)的难度。虽然完全阻止这些攻击在技术上非常困难,但可以采取一些增加攻击成本和难度的措施,例如,对API接口进行严格的身份认证、访问频率限制和异常行为模式检测;研究和应用模型混淆(Model Obfuscation)、模型水印(Model Watermarking)、或者差分隐私输出等前沿安全技术。(需要持续关注AI安全领域的最新研究进展)。
- 合同层面的严密法律约束 (Contractual Protections):
- 与所有可能接触到核心AI商业秘密的内部员工(特别是核心的研发人员、算法工程师、数据科学家、产品经理等),都必须在劳动合同之外,单独签署内容严谨、权利义务清晰、保密范围明确、保密期限足够长(通常应约定离职后仍需承担持续保密义务)、违约责任具体且具有威慑力的专项保密协议(Non-Disclosure Agreement, NDA)。
- 与所有可能接触相关秘密信息的外部顾问、承包商、技术合作伙伴、数据供应商、甚至进行联合研发或提供测试服务的重要客户,都必须签署同样严格的NDA,明确约定信息的保密范围、使用限制、知识产权归属以及违约责任。
- 在与最终用户签订的服务协议(Terms of Service)或最终用户许可协议(EULA)中,也应包含关于保护AI系统本身(包括其算法、模型、数据)的知识产权和商业秘密、禁止用户进行非法反向工程或数据抓取的相关条款。
- 内部管理制度的健全、规范与严格执行 (Internal Management Policies & Enforcement):
- 必须建立并严格执行一套清晰、明确、覆盖全员的内部信息安全管理制度、数据访问审批与管理流程、以及商业秘密保护工作规范。
- 对所有相关员工(特别是新入职员工和核心涉密岗位员工)进行持续的、反复的、有针对性的保密意识教育和安全操作规程培训,使其充分理解商业秘密的重要性、机构的保密要求以及违反规定的严重后果。
- 在工作场所的物理环境和数字环境中,采取必要的隔离措施,例如,设置保密区域、对包含商业秘密的文件或系统进行明确的“保密”标记、限制移动存储设备的使用、监控异常的数据外流行为等。
- 对核心涉密员工的离职过程进行严格的、规范化的管理,包括进行离职谈话提醒保密义务、收回所有包含商业秘密的资料和设备、进行必要的离职审计、以及在符合法律规定(如支付经济补偿)的前提下,考虑与其签署合理的、范围和期限明确的竞业限制协议(Non-Compete Agreements),以防止其在离职后立即加入竞争对手并将核心技术秘密带走。
- 平衡开源策略与核心商业秘密保护: 如果企业出于促进技术交流、构建开发者生态、履行社会责任、吸引顶尖人才等战略考虑,决定将其部分AI模型、算法代码或数据集进行开源,那么在做出开源决策之前和之后,都需要极其仔细地进行规划和界定:
- 明确开源的范围: 清晰界定哪些部分是开源的,哪些部分(特别是那些构成核心竞争力的、更高性能的专有模型版本、独特的训练数据集、关键的优化技巧、内部使用的、效果更好的提示库等)是必须作为商业秘密继续严格保护的。
- 选择合适的开源许可证: 根据开源的目的和对后续使用的控制需求,选择最合适的开源许可证(例如,是允许商业使用的宽松许可证如Apache 2.0 / MIT,还是要求衍生作品也必须开源的GPL系列许可证?)。
- 确保核心秘密不随开源泄露: 在开源代码或模型时,必须极其小心地进行审查和处理,确保其中不包含或不泄露任何仍需作为商业秘密保护的关键信息(例如,不小心将包含敏感信息的训练数据片段、内部使用的API密钥或关键的超参数配置注释包含在开源代码中)。
- 开源并不意味着自动放弃所有相关的商业秘密权利: 企业即使开源了部分技术,对于其未开源的核心部分,只要持续采取了合理的保密措施,仍然可以主张商业秘密保护。
- 技术层面的严密访问控制与安全防护 (Technical Safeguards):
-
商业秘密侵权诉讼作为权利救济的最后防线: 如果企业的AI相关核心商业秘密不幸被他人(无论是内部员工跳槽带走、竞争对手实施商业间谍活动、还是合作伙伴违反协议约定)通过不正当手段所获取、披露、使用或者允许他人使用,从而给权利人造成了实际损害或面临重大损害的威胁,那么权利人可以依据 《中华人民共和国反不正当竞争法》 (第九条、第二十一条等对商业秘密侵权行为及其法律责任有明确规定)以及相关的司法解释,或者依据相关国家/地区的商业秘密保护法律(例如,美国的 《统一商业秘密法》(UTSA) 和联邦层面的 《保护商业秘密法》(DTSA)),向有管辖权的人民法院(或相应的外国法院)提起商业秘密侵权诉讼。
- 诉讼请求: 通常可以请求法院判令侵权方立即停止(Cease and Desist)所有形式的侵权行为(禁令救济 Injunctive Relief),并要求其赔偿因侵权行为给权利人造成的实际经济损失(损害赔偿 Damages),或者在难以计算实际损失时请求法院根据侵权情节判处惩罚性赔偿。
- 举证挑战: 商业秘密侵权诉讼通常被认为举证难度较大。权利人需要首先证明其主张保护的信息确实构成了法律意义上的商业秘密(满足秘密性、价值性、保密措施三大要件),然后需要证明被告实施了法律所禁止的不正当手段(如盗窃、利诱、胁迫、电子侵入或违反保密约定)来获取、披露或使用了该商业秘密,并且该侵权行为与权利人的损失之间存在因果关系。这往往需要依赖复杂的证据调查(包括可能的证据保全、司法审计)、技术鉴定以及严谨的法律论证。
结论:在AI创造的迷雾中寻求法律与创新的平衡点,在规则的演进中明确权利边界
Section titled “结论:在AI创造的迷雾中寻求法律与创新的平衡点,在规则的演进中明确权利边界”人工智能与知识产权的交汇地带,无疑是当前全球法律领域最富有活力、理论争议最为激烈、实践挑战最为复杂、也最具不确定性的前沿探索区域之一。AI生成内容(AIGC)的版权归属与独创性认定标准、AI模型训练数据使用的合理性边界与侵权风险、AI相关发明的可专利性门槛与发明人资格认定、以及AI核心技术资产的商业秘密保护策略——这些相互关联、盘根错节、且每一个都可能引发重大法律和商业后果的问题,正以前所未有的力度深刻地撼动着我们现有的、主要是为了规范和激励人类智慧创造活动而构建起来的知识产权法律框架。
身处这个充满“迷雾”和快速变化的法律领域,法律专业人士在为客户提供服务或进行内部决策时,需要:
- 保持对AI技术发展趋势的高度敏锐洞察: 持续学习和深入理解不同类型的AI技术(特别是生成式AI)的基本工作原理、当前的能力边界、以及它们对传统意义上的“创作过程”和“发明过程”所带来的实际影响和潜在的颠覆性变革。
- 密切跟踪全球范围内的相关立法动态与标志性司法实践: 高度关注主要国家和地区(特别是美国、欧盟、中国等关键法域)在人工智能与知识产权交叉领域的最新立法尝试、重要的司法判例(尤其是那些关于AI训练数据合理使用、AIGC版权归属、AI发明人资格的标志性诉讼案件的进展和最终裁决)、以及相关的政府监管政策和知识产权主管机构(如专利局、版权局)发布的官方指导意见或审查标准。这个领域的法律规则正处在一个极其活跃的、被快速塑造和重新定义的历史窗口期。
- 深刻理解并能够灵活运用不同的知识产权保护工具组合: 不仅要熟练掌握版权法、专利法、商标法、反不正当竞争法(商业秘密保护)等传统知识产权法律工具各自的保护对象、授权/认定条件、权利范围、保护期限、以及各自的优势与局限性,更要能够根据人工智能技术和相关商业模式的独特特点(例如,算法迭代速度快、核心价值可能在于数据和模型参数、商业模式可能基于服务而非产品销售等),为客户设计出最适合、最有效、往往需要将多种工具进行组合使用的、具有前瞻性的综合性知识产权战略和保护方案。
- 提供务实、精准且具有前瞻性的知识产权风险管理建议: 能够准确地识别和评估在人工智能技术的研发、训练、部署、商业化应用乃至投资并购的整个生命周期中,可能出现的各种复杂的知识产权风险(这既包括侵犯他人现有知识产权的“输入性”风险,也包括自身核心知识产权资产被侵害或流失的“输出性”风险),并能够基于对法律、技术和商业的综合理解,为客户提供切实可行的、能够有效平衡创新发展需求与合规要求、并具有一定前瞻性的风险管理方案、内部治理建议和争议解决策略。
这不仅要求我们法律专业人士具备扎实的、传统的知识产权法律专业功底,更对我们提出了进行跨学科学习(需要主动去理解技术的基本原理、了解相关的产业逻辑和商业模式)、在规则尚不明确时进行审慎分析和判断(适应法律的模糊性与动态性)、以及进行前瞻性思考和战略性布局的更高要求。在AI与知识产权的这个“法律迷局”中,法律人的价值将更多地体现在驾驭复杂性、管理不确定性、并为创新活动提供可靠法律导航的能力上。