跳转到内容

10.4 核心术语表 (Glossary)

本术语表汇集了在人工智能(AI)、机器学习(ML)、大型语言模型(LLM)、法律科技(LegalTech)以及相关法律与伦理讨论中经常出现的关键术语,并提供简明扼要的解释。旨在帮助读者更好地理解本百科的内容以及相关领域的专业文献。

  • 问责制 (Accountability): 在AI伦理和治理中,指能够明确由谁负责以及如何负责 AI系统的设计、部署和其产生的结果(特别是当出现错误或造成损害时)的原则和机制。这涉及到透明度、可追溯性、以及建立清晰的责任链条。
  • 对抗性攻击 (Adversarial Attack): 指恶意设计的、旨在欺骗AI模型使其做出错误判断或行为的输入。例如,对图像添加人眼难以察觉的扰动导致错误分类,或通过提示注入让LLM绕过安全限制。
  • 算法 (Algorithm): 为解决特定问题或完成特定任务而设计的一系列明确的、有限的指令或计算步骤。AI的核心是各种复杂的算法。
  • 算法偏见 (Algorithmic Bias): AI系统产生的、对特定群体系统性不公平或歧视性的结果。可能源于数据偏见、算法设计或部署方式。
  • 对齐 (Alignment / AI Alignment): AI研究和伦理中的核心挑战,指确保越来越强大和自主的AI系统的目标、价值观和行为人类设计者的意图和人类社会的最佳利益保持一致。这涉及到如何有效定义、传达和评估人类的价值观,并将其嵌入AI系统中,防止AI产生非预期或有害的行为。RLHF是当前实现对齐的一种重要技术。
  • 人工智能 (Artificial Intelligence, AI): 计算机科学的一个广泛领域,旨在研究、开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统。是一个包含机器学习、深度学习等的总称。
  • 人工神经网络 (Artificial Neural Network, ANN): 受生物大脑启发的计算模型,由大量相互连接的节点(人工神经元)按层级结构组成,是深度学习的基础。
  • 人工通用智能 (Artificial General Intelligence, AGI): 假设性的、具有与人类相当或超越人类的、跨领域通用认知能力的AI。目前尚未实现,所有现有AI均为狭义AI (ANI)。
  • API (Application Programming Interface): 应用程序编程接口。一套预定义的规则和协议,允许不同的软件系统之间相互通信和数据交换。
  • 注意力机制 (Attention Mechanism): 深度学习中的一种机制,允许模型在处理序列数据时,动态地、有选择地关注输入序列中不同部分的重要性,并赋予不同权重。自注意力机制是Transformer架构的核心。
  • 自动化决策 (Automated Decision-Making): 完全由算法或AI系统在没有实质性人工干预的情况下做出的决策,可能对个人权益产生重大影响。受到数据保护法规(如GDPR, PIPL)的特别关注,通常要求透明度、解释权和拒绝权。
  • 自主武器系统 (Autonomous Weapons Systems, LAWS / Lethal Autonomous Weapons Systems): 能够自主搜索、识别、选择并攻击目标的武器系统。引发严重的伦理和国际法(特别是战争法)争议,其规制是国际社会的重要议题。
  • 反向传播 (Backpropagation): 训练人工神经网络的核心算法,通过计算损失函数相对于网络参数的梯度,并将误差信号从输出层反向传播回网络,来更新网络权重。
  • 基准测试 (Benchmark): 用于标准化地评估和比较不同AI模型在特定任务(如文本分类、图像识别、机器翻译)上性能的标准数据集和评价指标(如准确率、F1分数、BLEU分数)。有助于客观了解模型的相对能力。
  • 偏见 (Bias): 见“算法偏见”。也指机器学习模型中的统计偏差(模型预测平均值与真实值平均值的差异),是模型误差的组成部分之一(与方差 Variance 构成 Bias-Variance Tradeoff)。
  • 大数据 (Big Data): 指具有4V(Volume容量大、Velocity速度快、Variety类型多样、Veracity真实性存疑,有时也加Value价值密度低)特征的海量数据集。其处理和分析需要超越传统数据库技术的新方法。大数据的可获得性是驱动现代AI(特别是深度学习)发展的重要燃料。
  • 黑盒 (Black Box): 形容那些内部工作机制极其复杂、难以被人类直接观察、理解和解释的AI模型,尤其是深度神经网络。这是导致AI可解释性差、难以建立信任、以及责任认定困难的主要原因之一。
  • 聊天机器人 (Chatbot): 能够通过文本或语音界面与人类用户进行自然语言对话的AI程序。常用于客户服务、信息查询、初步咨询、任务执行等场景。现代聊天机器人常基于LLM构建。
  • 思维链 (Chain-of-Thought, CoT): 一种提示工程(Prompt Engineering)技巧。通过在提示中明确要求或示范模型在给出最终答案之前,先输出其解决问题的中间推理步骤、逻辑链条或思考过程,可以显著提高大型语言模型(LLM)在需要多步推理、数学计算或复杂逻辑分析的任务上的准确性和可靠性
  • 分类 (Classification): 监督学习(Supervised Learning)的一种核心任务,其目标是将输入的数据实例(例如,一份文档、一封邮件、一张图片)分配到预先定义好的、离散的类别(Categories) 中的某一个。例如,将合同自动分类为租赁合同、服务合同或保密协议。
  • CLIP (Contrastive Language-Image Pre-training): 由OpenAI开发的一种强大的多模态(Multimodal)模型。它通过在海量的图像-文本对数据上进行对比学习(Contrastive Learning),学习到了一个共享的表示空间,能够深刻地理解图像和文本之间的语义关联。CLIP是许多先进的文生图模型(如DALL-E 2)和视觉问答模型的基础。
  • 云计算 (Cloud Computing): 指通过互联网按需提供可伸缩的计算资源(包括服务器、存储空间、数据库、网络、软件以及人工智能服务等)的模式。云计算平台(如AWS, Azure, GCP, 阿里云, 腾讯云)极大地降低了普通开发者和企业获取训练和运行大型AI模型所需强大算力的门槛,是推动AI普及应用的重要基础设施。
  • 聚类 (Clustering): 无监督学习(Unsupervised Learning)的一种核心任务,其目标是在没有预先标签指导的情况下,将数据集中的样本根据其内在的相似性(通常是在特征空间中的距离)自动地分组到若干个“簇”(Clusters)中,使得同一个簇内的样本彼此相似,而不同簇之间的样本差异较大。例如,将大量判决文书根据其论证风格或主题进行聚类。
  • 计算机视觉 (Computer Vision, CV): 人工智能的一个重要领域,致力于让计算机能够从数字图像或视频中“看到”和“理解”视觉信息,并能像人类视觉系统一样进行识别、检测、跟踪、分割和场景理解等任务。
  • 卷积神经网络 (Convolutional Neural Network, CNN): 一种特别擅长处理具有网格状拓扑结构(Grid-like Topology)的数据(最典型的就是图像)的深度学习模型。它通过引入卷积层(Convolutional Layer) 来有效提取空间层次特征(从边缘、纹理到物体部件再到整体对象),并通常结合池化层(Pooling Layer) 来降低维度和增强鲁棒性。CNN在图像识别、目标检测等领域取得了巨大成功。
  • 上下文窗口 (Context Window / Context Length): 大型语言模型(LLM)在一次交互(处理输入提示并生成输出)时能够有效考虑和利用的文本信息的最大长度。这个长度通常以Token(词、子词或字符)的数量来衡量。超出上下文窗口限制的信息会被模型忽略。对于需要处理长篇法律文件(如合同、判例)的任务,模型的上下文窗口大小是一个极其关键的性能瓶颈。近年来,LLM的上下文窗口长度在不断扩展(从几千Token到几十万甚至上百万Token)。
  • 持续学习 (Continual Learning / Lifelong Learning): 指AI系统在部署到实际环境后,能够持续不断地从新的数据流中学习新知识或适应环境变化,同时不严重遗忘(Catastrophic Forgetting) 之前已经学习到的知识和能力。这是实现更接近人类学习方式的、更具适应性的AI的关键挑战之一,目前仍是AI研究的前沿领域。
  • ControlNet: 专为扩散模型(Diffusion Models)(如Stable Diffusion)设计的一种强大的控制机制。它允许用户在生成图像时,额外提供一张“控制图”(例如,人体姿态骨架图、房间深度图、物体边缘线稿、涂鸦草图、语义分割图等),从而能够极其精确地控制最终生成图像的空间布局、人物姿态、物体形状或整体结构,极大地提升了AI图像生成的可控性和实用性。
  • 数据增强 (Data Augmentation): 在训练机器学习模型(特别是深度学习模型)时,通过对现有训练数据应用各种轻微的、保持语义不变的变换(例如,对图像进行旋转、裁剪、颜色抖动;对文本进行同义词替换、回译等)来人工地扩充训练数据集规模和多样性的技术。数据增强有助于提高模型的泛化能力、增强鲁棒性、以及缓解因训练数据不足导致的过拟合问题。
  • 数据标注 / 数据标签 (Data Annotation / Labeling): 在监督学习中,为原始数据(如图像、文本、音频)添加信息性标签或元数据的过程,这些标签通常是模型需要学习预测的“正确答案”或“目标输出”。例如,在图片中标注出物体的位置和类别(用于目标检测),或将客户评论标注为“正面”或“负面”(用于情感分析)。数据标注是监督学习模型训练的关键前提,其质量直接影响模型性能,且通常是非常耗时和昂贵的过程。
  • 数据挖掘 (Data Mining): 从大规模数据集中自动或半自动地发现有用的、先前未知的、非平凡的模式、关联、趋势或异常的过程。常使用统计学和机器学习技术。
  • 数据脱敏 (Data Masking / De-identification / Anonymization): 对包含个人身份信息(PII)或其他敏感信息的数据进行技术处理,以移除、替换、加密或模糊化这些敏感信息,从而降低数据泄露或隐私侵犯的风险,同时尽可能保留数据的可用性。在AI应用(特别是训练或使用第三方服务时)处理敏感数据前,进行有效的数据脱敏是重要的合规措施。
  • 决策树 (Decision Tree): 一种基础且直观的监督学习模型。它通过学习一系列基于特征的“IF-THEN”规则,将数据从根节点开始,沿着树状结构逐层划分,最终在叶节点得出分类结果或回归预测值。决策树的可解释性强,易于理解和可视化,但单个决策树容易过拟合。常作为集成方法(如随机森林、梯度提升树) 的基础组件。
  • 深度伪造 (Deepfake): 利用深度学习(特别是生成模型如GANs, Diffusion Models)技术创建的高度逼真、真假难辨虚假或被篡改的音频、视频或图像内容。例如,将一个人的脸替换到另一个人的视频上(换脸),或者合成某个特定人物的声音说出任意内容(语音克隆)。Deepfake对信息真实性、个人名誉、社会信任乃至国家安全都构成了极其严峻的威胁
  • 深度学习 (Deep Learning, DL): 机器学习的一个核心子领域,其特点是使用具有多个(通常是很多个)处理层人工神经网络(ANN)。深度学习的核心优势在于其能够自动地从原始数据中学习和提取层次化的、越来越抽象的特征表示(Hierarchical Feature Representation),而无需大量的人工特征工程。它在处理高维度、非结构化的数据(如图像、语音、自然语言文本)方面取得了突破性的成功,是驱动当前AI浪潮的主要技术引擎。
  • 扩散模型 (Diffusion Models): 近年来在高质量生成建模领域(特别是图像、音频和视频生成)取得巨大成功的一类深度学习模型。其核心思想分为两个过程:
    1. 前向(扩散)过程: 从真实数据样本开始,逐步、迭代地向其中添加随机噪声,直至数据完全变成纯粹的噪声。
    2. 反向(去噪)过程: 训练一个神经网络(通常是U-Net架构)来学习如何精确地逆转这个加噪过程,即从纯粹的噪声开始,逐步地、迭代地去除噪声,最终还原或生成一个清晰的、符合真实数据分布的样本。 Stable Diffusion, DALL-E 2/3, Midjourney, Imagen等当前最先进的文生图工具,其核心技术都基于扩散模型。
  • 降维 (Dimensionality Reduction): 机器学习中的一类技术,旨在将高维度的数据(即具有大量特征的数据)转换为一个维度较低的表示,同时尽可能地保留原始数据中的重要信息或结构。降维有助于克服“维度灾难”、降低计算复杂度、去除冗余特征、便于数据可视化。常用方法包括主成分分析(PCA)、t-分布随机邻域嵌入(t-SNE)、线性判别分析(LDA) 等。
  • 数字鸿沟 (Digital Divide): 指不同社会群体之间在访问、使用数字技术(包括互联网、计算机、智能手机以及AI应用)以及从中获益的能力方面存在的差距和不平等。AI技术的普及如果未能充分考虑包容性,可能会加剧现有的数字鸿沟,使得弱势群体(如老年人、低收入者、偏远地区居民、残疾人)更加边缘化。
  • 电子证据开示 (e-Discovery / Electronic Discovery): 在法律诉讼或调查过程中,对电子形式存储的信息(Electronically Stored Information, ESI)(如电子邮件、办公文档、数据库记录、社交媒体内容、移动设备数据等)进行识别、收集、保存、处理、审阅、分析和出示的一整套程序和实践。AI技术(特别是技术辅助审查TAR/预测编码)在处理e-Discovery中海量数据方面扮演着越来越重要的角色。
  • 电子人格 (Electronic Personality / Legal Personhood for AI): 一个前沿的、充满争议的法律与哲学概念,探讨是否应该以及如何在法律上赋予高度自主和智能的人工智能系统某种形式的独立的法律主体资格,使其能够像自然人或法人一样享有权利、承担义务和责任。目前在全球范围内未被主流法律体系所接受。(参见 8.3节
  • 嵌入 (Embedding): 在机器学习(特别是NLP和CV)中,指将高维度的、通常是离散或非结构化的数据对象(例如,一个词语、一个句子、一篇文档、一张图片、一个用户映射到一个维度相对较低的、稠密的、连续的向量空间中的数学表示(即一个向量)。这种“嵌入”向量被设计为能够捕捉原始数据对象之间潜在的语义关系、相似性或其他重要特征。例如,语义相近的词语(如“律师”和“法律顾问”)在嵌入空间中的向量距离会比较近。嵌入是许多现代AI模型(特别是深度学习模型)处理和理解复杂数据的基础。
  • 集成方法 (Ensemble Methods): 机器学习中一种强大的技术范式。它不是训练单个模型,而是构建并结合多个(通常是同类型或不同类型的)基础学习器(Base Learners)的预测结果,以获得比任何单个基础学习器都更好、更鲁棒的最终预测性能。常见的集成策略包括Bagging(如随机森林 Random Forest)、Boosting(如AdaBoost, Gradient Boosting Machines - GBDT, XGBoost, LightGBM)和Stacking
  • 伦理影响评估 (Ethical Impact Assessment, EIA): 一种系统性的、前瞻性的评估过程,旨在识别、分析和评估一项新技术、新政策或新项目(特别是AI应用)可能带来的潜在伦理风险和社会影响(例如,对公平、隐私、自主性、人权等方面的影响),并据此制定相应的缓解措施或治理策略。对于高风险或具有广泛社会影响的AI部署,进行EIA被认为是负责任治理的重要实践。
  • 评估指标 (Evaluation Metrics): 用于量化衡量机器学习模型在特定任务上性能好坏的标准。选择合适的评估指标对于理解模型能力、比较不同模型、以及判断模型是否满足应用要求至关重要。常见的指标包括:
    • 分类任务: 准确率 (Accuracy), 精确率 (Precision), 召回率 (Recall), F1分数 (F1-Score), AUC (Area Under the ROC Curve), 混淆矩阵 (Confusion Matrix)。
    • 回归任务: 均方误差 (MSE), 平均绝对误差 (MAE), R平方 (R-squared)。
    • 生成任务: BLEU分数 (用于机器翻译), ROUGE分数 (用于摘要), FID分数 (用于图像生成)。
  • 可解释性 (Explainability / Interpretability, XAI): 指人类能够理解一个AI模型为什么会做出某个特定的预测或决策的能力或程度。可解释性对于建立信任、调试模型、确保公平、实现问责以及满足监管要求都至关重要。然而,为复杂的“黑箱”AI模型提供有意义且可靠的解释仍然是一个巨大的技术挑战。(参见 6.4节
  • 专家系统 (Expert System): 早期人工智能(符号主义AI)的一种重要形式。它试图将特定领域(如医学诊断、化学分析、设备故障排查)的人类专家的知识、经验和推理规则编码成一个庞大的“IF-THEN”规则库,并配备一个推理引擎(Inference Engine),使其能够模拟人类专家在该领域解决问题的能力。专家系统在特定、规则明确的领域曾取得成功,但因知识获取瓶颈、难以处理模糊性和常识、缺乏学习能力等局限而逐渐式微(尽管基于规则的系统在某些场景仍有应用)。
  • 公平性 (Fairness): 在AI领域,这是一个极其复杂且核心的伦理和技术概念。它旨在确保AI系统的决策过程和最终结果不会因为个体的受保护特征(如种族、性别、年龄等)而对其产生系统性的、不公平的歧视或偏袒。然而,“公平”本身没有统一的、公认的数学定义。存在多种不同的公平性度量标准(如群体公平、个体公平;机会均等、待遇均等、人口均等等),它们之间往往相互冲突,无法同时满足。选择追求哪种公平性,本身就蕴含着价值判断和权衡。(参见 6.4节
  • 特征 (Feature): 在机器学习中,指从原始输入数据中提取出来的、用于描述该数据点某方面属性或特性可测量的、通常是数值化的变量。模型通过学习这些特征与目标输出之间的关系来进行预测或决策。例如,在判断一封邮件是否为垃圾邮件时,特征可以是邮件的发送者、主题中是否包含特定词语、正文中链接的数量等。
  • 特征工程 (Feature Engineering): 在传统的机器学习流程中,这是一个极其关键且通常非常耗时的步骤。它指的是由人类专家(通常需要结合领域知识和数据分析经验)手动地从原始数据中设计、提取、选择和转换出那些被认为对目标任务最有效、最具有预测力的特征,然后再将这些“精心构造”的特征输入给机器学习算法进行学习。深度学习的一个核心优势就在于其能够在很大程度上自动化特征工程的过程。
  • 联邦学习 (Federated Learning): 一种新兴的、注重隐私保护分布式机器学习范式。它允许多个参与方(例如,多部手机、多家医院、多家银行)在不将其本地原始数据发送出去的情况下,共同训练一个全局的机器学习模型。其基本过程是:中央服务器将初始模型分发给各参与方;各参与方利用其本地数据对模型进行训练,得到模型参数的更新量;然后各参与方只将这些更新量(而非原始数据)加密发送回中央服务器;中央服务器将收集到的各方更新量进行安全聚合(Secure Aggregation),用以更新全局模型;然后重复此过程。联邦学习有望在保护数据隐私和商业秘密的同时,实现联合建模。
  • 小样本学习 / 零样本学习 (Few-Shot Learning / Zero-Shot Learning): 机器学习(特别是深度学习模型)的一种能力,指模型在只接触到极少数(Few-Shot,例如每个类别只有1-5个)甚至完全没有(Zero-Shot)特定任务的标注训练样本的情况下,就能够对该任务进行有效泛化和执行的能力。这通常依赖于模型在大规模预训练中学习到的广泛的通用知识和模式识别能力。现代大型语言模型(LLM) 通常展现出较强的零样本和小样本学习能力。
  • 微调 (Fine-tuning): 这是训练大型AI模型(特别是基础模型 Foundation Models)的一种常用且高效的技术。它指的是在一个已经在海量通用数据上预训练(Pre-trained)好、具备广泛基础能力的大型模型的基础上,再使用一个与特定下游任务或专业领域相关的、通常规模相对小得多的数据集,对其进行进一步的、针对性的训练。通过微调,可以使通用的基础模型更好地“适应”(Adapt)特定任务的需求、掌握特定领域的知识或遵循特定的指令风格,从而在该任务或领域上取得更好的性能表现。(参见 2.4节
  • 基础模型 (Foundation Model): 指那些基于超大规模、多样化的数据(通常是无标注或自监督学习)进行预训练,从而具备了强大的通用理解、生成或推理能力,并且可以被方便地适配(例如通过微调)广泛的下游具体任务上去的大型人工智能模型。典型的例子包括 大型语言模型(LLMs) 如GPT-4, BERT, Llama系列,以及 大型视觉模型 如CLIP, ViT,和 多模态基础模型 。基础模型的出现正在改变AI应用的开发范式。
  • 函数调用 / 工具使用 (Function Calling / Tool Use): 指大型语言模型(LLM)具备的一种高级能力,允许它们不仅仅生成文本,还能理解用户请求中需要调用外部工具或API(例如,搜索引擎、计算器、数据库查询接口、日历管理、在线购物等)的意图,并生成结构化的请求(如JSON格式)来调用这些外部函数,然后接收函数的返回结果,并基于这些结果来生成最终的、更准确、更具行动力的回复。这项能力极大地扩展了LLM的应用范围,使其能与外部世界进行更有效的交互。
  • 生成对抗网络 (Generative Adversarial Network, GAN): 一种强大的生成模型(Generative Model)框架,由Ian Goodfellow等人在2014年提出。GAN的核心思想是设置两个相互竞争的神经网络:一个生成器(Generator)负责学习真实数据的分布并尝试生成以假乱真的新样本;另一个判别器(Discriminator)则负责学习如何区分真实样本和生成器伪造的样本。两者在对抗性的“零和游戏”中共同进化,最终理想状态下生成器能够生成高度逼真的数据。GAN在图像生成领域取得了巨大成功(如StyleGAN),但也面临训练不稳定、模式崩溃等挑战。
  • 生成式人工智能 (Generative AI, GenAI): 指能够创造新的、原创性的内容(而非仅仅进行分析或预测)的一大类人工智能系统。这些生成的内容可以是文本、图像、音频、视频、代码、音乐、3D模型、甚至化学分子结构等多种形式。其生成的内容通常在模式、风格和结构上与其所学习的训练数据相似。GenAI的核心技术通常是基于大型深度学习生成模型,如GANs、VAEs、Transformer(尤其是LLM)、以及扩散模型。(参见 6.6节
  • 通用目的AI模型 (General-Purpose AI Model, GPAI): 指那些被设计为具有广泛通用能力,可以被用于多种不同目的和下游应用场景的AI模型或系统(与只能执行单一特定任务的狭义AI相对)。大型语言模型(LLM) 是典型的GPAI。由于其潜在影响范围广,欧盟《人工智能法案》等监管框架开始对其(特别是具有“系统性风险”的大型GPAI模型)提出专门的治理要求
  • 梯度下降 (Gradient Descent): 训练机器学习模型(尤其是神经网络)最核心、最常用的优化算法(Optimizer)之一。其基本思想是:通过计算损失函数(Loss Function)相对于模型所有可学习参数梯度(Gradient)(梯度指示了损失函数值上升最快的方向),然后沿着梯度的负方向(即下降最快的方向),以一个称为学习率(Learning Rate)的步长,逐步迭代地更新模型的参数,最终目标是找到一组能够最小化损失函数的参数值。实践中通常使用其各种更高效、更稳定的变种,如随机梯度下降(SGD)、Adam、RMSprop等。
  • 图形处理器 (Graphics Processing Unit, GPU): 最初是为加速计算机图形渲染而设计的专用硬件芯片。但研究人员发现,GPU内部包含数千个可以并行执行简单计算的核心,这种大规模并行计算(Massively Parallel Processing)的架构极其适合执行深度学习模型(特别是神经网络)训练和推理中涉及的海量矩阵和向量运算。GPU的广泛应用被认为是推动现代深度学习革命关键硬件基础之一,它使得训练更大、更复杂的模型成为可能。
  • 幻觉 (Hallucination): 生成式AI(特别是大型语言模型LLM)中一种常见且极其危险的现象。指模型自信地、流畅地生成那些实际上是虚假的、不准确的、与输入提示或已知事实不符的、甚至是完全凭空捏造的信息内容,但其表达方式却可能看起来非常合理、专业甚至具有权威性。例如,编造不存在的法律案例、引用错误的法条、歪曲历史事件等。幻觉是LLM基于其统计模式进行生成而非进行事实核查的本质缺陷所致。在法律等要求高度准确性的领域,识别和防范AI幻觉是应用中的核心挑战。(参见 2.8节, 6.1节, 6.6节

  • 人机协同 / 人在回路 / 人在其上 (Human-AI Collaboration / Human-in-the-Loop / Human-on-the-Loop): 指人类与AI系统协同工作的各种模式。

    • Human-in-the-Loop (HITL): 人类在AI系统的关键决策点或处理流程中扮演着不可或缺的、主动参与的角色,例如,人工审核AI的初步结果、修正错误、提供反馈以改进模型。
    • Human-on-the-Loop (HOTL): 人类主要扮演监督者的角色,监控AI系统的运行,只在必要时(例如,系统遇到疑难情况、发出警报或结果置信度低时)才进行干预或最终决策
    • Human-AI Collaboration: 更广义的概念,强调发挥人与AI各自的优势(人类负责复杂判断、创造性、伦理考量;AI负责处理信息、识别模式、自动化任务),实现 “1+1>2” 的协同效应。在法律领域,强调人类的最终判断权和责任,人机协同是负责任应用AI的基本模式。
  • 超参数 (Hyperparameter): 在机器学习模型开始训练之前,需要由人类开发者或使用者预先设定的参数(与模型在训练过程中通过数据学习到的模型参数 Parameters相对)。超参数的选择会直接影响模型的训练过程和最终性能。常见的超参数包括:学习率(Learning Rate)、神经网络的层数和每层的神经元数量、卷积核的大小和数量、正则化的强度(如L1/L2系数)、优化器的选择(如Adam, SGD)、训练的轮数(Epochs)、批量大小(Batch Size) 等。寻找最优的超参数组合(Hyperparameter Tuning) 通常需要大量的实验和经验,也是机器学习实践中的重要环节。

  • 信息提取 (Information Extraction, IE): 自然语言处理(NLP)中的一项重要任务。其目标是从非结构化(如自由文本)或半结构化(如网页)的文本中,自动地识别、提取并结构化出用户感兴趣的特定类型的信息,例如实体(人名、地名、组织机构名)、实体之间的关系、或者特定类型的事件及其参与者。IE技术在法律文件处理(如从合同中提取关键条款、从判决书中提取案件要素)中有广泛应用。
  • 指令微调 (Instruction Fine-tuning): 一种改进大型语言模型(LLM)能力和行为的关键微调(Fine-tuning)技术。其核心思想是,收集大量的、形式多样的“指令-期望输出”示例对(例如,<“请将以下段落翻译成法语”, “对应的法语翻译”>, <“总结这篇文章的主要观点”, “对应的摘要”>, <“写一首关于秋天的诗”, “生成的诗歌”>),然后使用这些示例对预训练好的LLM进行进一步的有监督训练。通过这种方式,模型能够更好地理解人类使用自然语言下达的各种指令的意图,并学会按照指令的要求来生成更符合期望的、更有用、更安全的回答InstructGPT(ChatGPT早期基础)和许多现代对话式LLM都大量采用了指令微调技术。
  • 知识产权 (Intellectual Property, IP): 指法律赋予人们对其智力创造(例如,发明、文学和艺术作品、设计、商业中使用的名称、图像和符号等)所享有的一系列专有权利。主要类型包括专利(Patents)、版权(Copyrights)、商标(Trademarks)和商业秘密(Trade Secrets)。人工智能技术的发展,特别是在训练数据的使用、AI生成内容的权利归属、以及AI相关发明的可专利性等方面,对传统的知识产权法律体系提出了深刻的挑战。(参见 7.3节
  • 可解释性 (Interpretability): 同“可解释性 (Explainability, XAI)”。指人类能够理解AI模型决策原因的程度。
  • 大型语言模型 (Large Language Model, LLM): 指那些基于Transformer架构、在极其庞大(通常包含数千亿甚至数万亿个Token)的文本和代码数据上进行大规模自监督预训练、并拥有巨大数量(通常从数十亿到数万亿)的可学习参数深度学习模型。LLM展现出了惊人的自然语言理解、生成、推理、翻译、摘要、问答甚至代码编写等多种能力,是驱动当前生成式AI浪潮核心引擎。代表性例子包括OpenAI的GPT系列、Google的Gemini/PaLM系列、Anthropic的Claude系列、Meta的Llama系列以及中国的文心一言、通义千问等。(参见 2.4节, 3.1节
  • 潜在空间 (Latent Space / Latent Representation): 在某些类型的机器学习模型(特别是生成模型如VAE、GANs的部分变种、以及潜在扩散模型LDM)中,指一个维度相对较低的、抽象的向量空间。模型学习将高维的、复杂的原始输入数据(如图像、文本)编码(Encode)到这个潜在空间中的一个点(即潜在向量 Latent Vector)。这个潜在向量被认为捕捉了原始数据最核心、最本质的潜在特征或“语义”。反过来,模型也可以从潜在空间中采样一个点,并通过解码器(Decoder)将其映射回原始数据空间,从而生成新的数据样本。在潜在空间中进行操作(例如,插值、加法)通常能实现对生成内容更有意义的控制。
  • 法律科技 (Legal Tech / Legal Technology): 指利用技术(包括但不限于人工智能、大数据、云计算、区块链等)提供法律服务、改进法律工作流程、提升司法系统效率、或者增强法律信息可及性行业、实践和相关技术工具的总称。法律科技是技术与法律深度融合的产物,正日益改变着法律行业的生态。
  • LoRA (Low-Rank Adaptation): 一种参数高效的微调(Parameter-Efficient Fine-Tuning, PEFT)技术,特别适用于微调大型预训练模型(如LLM、图像生成扩散模型)。其核心思想是,在微调时冻结(Freeze)住原始模型的绝大部分(数以亿计的)权重参数不进行更新,而是在模型的某些关键层(通常是注意力层或前馈层)旁边插入两个小型的、秩(Rank)很低的可训练矩阵(A和B)。微调过程仅仅训练这两个小矩阵(其参数量远小于原始模型)。在推理时,将这两个小矩阵的乘积(A*B,其秩仍然很低)加到原始的权重矩阵上,从而以极小的参数增量实现了对模型行为的有效适配和修改。LoRA因其训练速度快、显存占用小、微调出的适配器文件小(便于分享和加载)等优点,在Stable Diffusion等开源模型的个性化定制(如学习特定画风、角色) 中得到了极其广泛的应用。
  • 损失函数 (Loss Function / Cost Function / Objective Function): 在机器学习模型训练(特别是监督学习)中,用于量化衡量模型的预测输出与其对应的真实标签(Ground Truth)之间的差距或误差程度的一个数学函数。训练模型的核心目标就是通过不断调整模型参数来最小化(Minimize) 这个损失函数的值。损失函数的具体形式取决于任务类型(例如,回归任务常用均方误差MSE,分类任务常用交叉熵损失Cross-Entropy Loss)。
  • 机器学习 (Machine Learning, ML): 人工智能的一个核心子领域和实现方法。它专注于研究和开发能够让计算机系统从数据中自动“学习”规律或模式,并据此在特定任务上不断改进其性能的算法,而无需为每种情况显式地编写规则。是现代AI技术的基础。(参见 1.3节, 2.2节
  • 梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients, MFCCs): 在语音识别(STT)领域曾经最常用的一种声学特征。它通过结合梅尔频率刻度(Mel Scale,模拟人耳对频率的非线性感知)倒谱分析(Cepstrum Analysis,用于解耦声源和声道特性),能够有效地表示语音信号的频谱包络(Spectral Envelope),即反映音色(Timbre) 的主要特征。
  • 模型 (Model): 在机器学习语境下,指通过学习算法训练数据上学习到的一个数学表示或结构。这个模型封装了从数据中发现的模式、规律或输入与输出之间的关系,并可以被用来对新的、未见过的数据进行预测、分类、生成或其他任务。模型的具体形式多种多样,例如可以是一组线性回归的系数、一棵决策树的结构、一个支持向量机的超平面、或者一个包含大量权重和偏置参数的深度神经网络
  • 模型风险管理 (Model Risk Management, MRM): 主要在金融等受到严格监管的行业中,指一套系统性的政策、流程和实践,用于识别、评估、监控和控制模型(包括传统的统计模型和现代的AI/ML模型)本身的错误、缺陷、不当使用或失效而可能给机构带来的各种风险(如财务损失、合规风险、声誉风险、操作风险等)。MRM通常要求覆盖模型的整个生命周期,从开发验证到部署使用再到监控退役。(参见 8.5节 金融科技部分
  • 多模态AI (Multimodal AI): 指能够同时处理、理解、关联和生成来自不同信息模态(Modality)的数据的AI系统。“模态”指信息的不同形式,如文本、图像、音频、视频、表格数据、传感器信号等。多模态AI旨在模拟人类综合运用多种感官信息理解世界的能力,是当前AI研究的热点方向,例如图文理解(如CLIP, GPT-4V)、视觉问答(VQA)、文本生成图像/视频等。(参见 2.7节
  • 命名实体识别 (Named Entity Recognition, NER): 自然语言处理(NLP)的一项基础且关键的任务。其目标是从文本中自动地识别并分类出预先定义好的命名实体类别,例如人名(PER)、组织机构名(ORG)、地名(LOC)、日期时间(TIME)、专有名词等。NER是许多下游NLP应用(如信息提取、知识图谱构建、问答系统、关系抽取)的重要前置步骤
  • 自然语言处理 (Natural Language Processing, NLP): 人工智能与计算机科学、语言学交叉的一个重要领域。它致力于研究和开发能够让计算机理解、解释、处理、操纵和生成人类自然语言(如中文、英文)的各种理论、方法和技术。NLP是实现人机自然语言交互、从海量文本数据中提取信息和知识的关键,也是法律AI应用中最为核心和基础的技术领域。(参见 1.3节
  • 神经网络 (Neural Network): 见“人工神经网络 (ANN)”。
  • 神经声码器 (Neural Vocoder): 在现代语音合成(TTS)技术中,负责将声学模型生成的中间声学特征表示(例如,梅尔频谱图)转换合成最终的、可听的、高质量的原始音频波形基于深度神经网络的组件。神经声码器(如WaveNet, WaveGlow, HiFi-GAN)的出现是极大提升TTS合成语音自然度和保真度的关键技术突破。(参见 2.6节
  • N-gram模型 (N-gram Model): 一种简单但常用统计语言模型(Statistical Language Model, SLM)。它基于一个简化的马尔可夫假设:一个词语在序列中出现的概率,仅仅取决于其前面紧邻的 N-1 个词语。通过在大规模文本语料库上统计不同N元词组(N-grams)的出现频率,来估计词语序列的概率。N通常取2(Bigram模型)或3(Trigram模型)。N-gram模型简单、高效,但难以捕捉长距离的语法或语义依赖关系。在深度学习语言模型(如基于RNN或Transformer)出现之前,N-gram是NLP中广泛使用的基础技术。
  • 光学字符识别 (Optical Character Recognition, OCR): 指利用计算机软件识别印刷体或(有时是)手写体字符,并将扫描的文档图像或图片中的文字转换为机器可读、可编辑、可搜索的电子文本格式的技术。OCR是实现纸质法律文件数字化和后续AI文本分析的关键基础步骤。现代OCR技术通常结合了计算机视觉(用于文本定位、图像预处理)自然语言处理(用于字符识别、上下文纠错)
  • 过拟合 (Overfitting): 机器学习模型训练中一种常见的问题。指模型在训练数据上表现极好(例如,损失很低,准确率很高),但在从未见过的新数据(如测试集或实际应用数据)上表现却显著下降的现象。这通常是因为模型过于复杂(相对于数据量和任务复杂度而言),以至于不仅仅学习到了数据中潜在的、具有泛化性的规律,还过度地“记忆”或“拟合”了训练数据中特有的噪声、随机波动或不具代表性的细节。防止过拟合是机器学习模型训练中的核心挑战之一,常用的方法包括正则化(Regularization)、提前停止(Early Stopping)、数据增强(Data Augmentation)、Dropout等。
  • 参数 (Parameters): 在机器学习模型(尤其是神经网络)中,指那些其值是通过模型在训练数据上进行学习和优化而得到的变量。例如,神经网络中连接不同神经元的权重(Weights)和每个神经元的偏置(Biases) 都是模型参数。模型的能力和行为最终就体现在这些参数的具体数值上。大型模型的参数量可以达到数亿、数十亿甚至万亿级别。
  • 个人信息保护影响评估 (Personal Information Protection Impact Assessment, PIA / Data Protection Impact Assessment, DPIA): 一种结构化的、前瞻性的风险评估流程,旨在识别、分析和评估某项计划进行的个人信息处理活动(特别是那些涉及新技术、处理敏感信息、进行自动化决策、或者可能对个人权益带来较高风险的活动)可能对个人信息主体带来的潜在风险,并据此制定有效的风险缓解措施。在许多数据保护法规(如欧盟GDPR Article 35, 中国PIPL Article 55)下,对于特定类型的高风险处理活动,进行PIA/DPIA是一项法定的强制性要求
  • 隐私增强技术 (Privacy-Enhancing Technologies, PETs): 指一类旨在保护个人数据隐私和机密性的技术和方法。它们允许在处理或分析数据的同时,最小化对原始敏感信息的暴露。常见的PETs包括差分隐私(Differential Privacy)、同态加密(Homomorphic Encryption)、安全多方计算(Secure Multi-Party Computation, SMPC)、零知识证明(Zero-Knowledge Proofs)以及联邦学习(Federated Learning) 等。在AI应用(尤其是涉及敏感数据时)中采用PETs有助于满足数据保护法规要求。
  • 提示 (Prompt): 用户向生成式AI模型(特别是LLM)输入的指令、问题、需要补全的文本片段、或者包含上下文信息和示例的引导性描述。提示是触发和引导AI生成特定输出的起点和依据。提示的质量直接决定了输出的质量。(参见 4.1节
  • 提示工程 (Prompt Engineering): 一门新兴的、实践性极强的学科和技能,专注于如何设计、构建、测试、优化和迭代提示(Prompts),以最大限度地引导大型语言模型(LLM)或其他生成式AI模型,使其能够按照用户的真实意图,生成高质量、相关性强、准确、安全且符合特定要求的输出结果。它是有效利用和驾驭现代生成式AI能力的关键。(参见 第四部分
  • 提示注入 (Prompt Injection): 一种针对基于LLM的应用新型安全攻击。攻击者通过在看似无害的用户输入(提示)巧妙地嵌入隐藏的、恶意的指令,试图覆盖、绕过或操纵开发者为LLM设定的原始系统指令(System Prompt)或安全护栏,从而诱导LLM执行非预期的、甚至是有害的操作,例如泄露其内部知识库中的敏感信息、生成本应被禁止的有害内容、或者调用其连接的外部工具(Function Calling)执行恶意命令。提示注入是LLM应用安全需要重点防范的风险之一。(参见 6.1节 对抗性攻击部分
  • 随机森林 (Random Forest): 一种强大且广泛使用的集成学习(Ensemble Learning)算法,属于Bagging类型。它通过构建大量的决策树(Decision Trees),并在训练每棵树时引入随机性(例如,随机选择样本子集、随机选择特征子集),然后将所有树的预测结果进行聚合(分类任务通常用投票,回归任务通常用平均值)来得到最终的预测。随机森林通常具有较高的准确性、良好的鲁棒性、不易过拟合,并且能评估特征的重要性。
  • 检索增强生成 (Retrieval-Augmented Generation, RAG): 一种旨在提升大型语言模型(LLM)回答问题准确性、减少“幻觉”、并使其能够利用特定外部知识的关键技术框架。其核心思想是 “先检索,再生成”:当LLM接收到一个问题时,不直接依赖其内部知识回答,而是首先使用一个检索器(Retriever)从一个外部的、可信赖的知识库(例如,内部文档库、法规数据库、特定案件卷宗)中检索出与问题最相关的几段文本信息(上下文 Context)。然后,将这些检索到的上下文信息原始问题一起 “增强”(Augment)并组合 成一个新的提示,最后将这个包含上下文的提示交给LLM,要求它主要基于这些提供的上下文信息来生成最终的答案。RAG是目前在企业和专业领域应用LLM最重要、最有效的技术范式之一。(参见 4.6节
  • 回归 (Regression): 监督学习(Supervised Learning)的一种核心任务,其目标是预测一个连续的(非离散的)数值型输出。例如,预测房屋的价格、预测股票的未来价值、预测完成某个法律项目所需的时间。
  • 正则化 (Regularization): 机器学习中一类用于防止模型过拟合(Overfitting)的技术的总称。其核心思想是在模型的损失函数(Loss Function)加入一个惩罚项(Penalty Term),该惩罚项与模型的复杂度(例如,模型参数的大小)相关。通过在优化过程中同时最小化原始损失和这个惩罚项,正则化能够限制模型的复杂度,迫使其学习到更简单、更平滑的模式,从而提高模型在未见过数据上的泛化能力。常见的正则化方法包括L1正则化(Lasso)和L2正则化(Ridge)
  • 强化学习 (Reinforcement Learning, RL): 机器学习的三大范式之一。它研究的是一个智能体(Agent)如何在一个动态的环境(Environment)中,通过不断地与环境交互(采取行动 Actions),并根据环境给予的反馈(奖励 Rewards 或惩罚 Punishments)通过试错(Trial-and-Error)来学习一个最优的行为策略(Policy),以最大化其在长期过程中能够获得的累积奖励总和。RL特别适用于需要进行序贯决策(Sequential Decision Making)且环境反馈可能延迟的场景。(参见 2.2节
  • 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF): 一种关键的AI对齐(Alignment)技术,广泛用于优化大型语言模型(LLM)的行为,使其输出更符合人类的偏好、更有用、更诚实、更无害。其基本流程通常包括三个步骤:
    1. 收集人类偏好数据: 让模型针对一批输入提示生成多个不同的回答,然后邀请人类评估员对这些回答进行比较和排序(例如,哪个回答更好?)。
    2. 训练奖励模型 (Reward Model, RM): 利用收集到的人类偏好排序数据,训练一个独立的模型(奖励模型),使其能够学习人类的偏好标准,并能对任意一个LLM生成的回答进行打分(预测人类会给出的评价高低,即奖励值)。
    3. 使用强化学习优化LLM: 将训练好的奖励模型作为环境的反馈信号,使用强化学习算法(如Proximal Policy Optimization, PPO)来进一步微调原始的LLM。目标是让LLM学会生成那些能够从奖励模型那里获得更高分数的回答,从而使其行为逐渐向人类的偏好靠拢。RLHF是ChatGPT等模型展现出优秀对话能力和安全性表现的核心技术之一。(参见 2.4节 微调部分
  • 机器人流程自动化 (Robotic Process Automation, RPA): 指使用软件机器人(Bots)模拟人类用户在计算机界面上的操作(例如,点击鼠标、键盘输入、复制粘贴数据、登录系统、打开应用程序等),以自动化执行那些基于明确规则的、重复性的、跨多个系统的业务流程。RPA本身不一定涉及复杂的AI,但它常常与AI技术(如OCR、NLP、机器学习)相结合,以处理更复杂的任务(例如,从扫描件中提取数据并录入ERP系统)。
  • 鲁棒性 (Robustness): 指AI模型在面对输入数据的微小扰动、噪声、或者遇到与训练数据分布略有不同的新数据(Out-of-Distribution Data)时,仍然能够维持其性能(如预测准确率、决策稳定性)的能力。许多深度学习模型在鲁棒性方面表现相对脆弱,容易受到对抗性攻击的影响。(参见 2.8节
  • 语义搜索 (Semantic Search): 指基于对查询语句和文档内容深层含义(语义)的理解,而非仅仅依赖于表面的关键词匹配,来进行信息检索的技术。语义搜索能够更好地处理同义词、近义词、概念关联以及用户用自然语言表达的复杂查询意图,从而提供更相关、更精准的搜索结果。现代语义搜索通常基于向量嵌入(Embeddings)和相似度计算技术实现。
  • 自注意力机制 (Self-Attention Mechanism): Transformer架构核心创新和基石。它是一种特殊的注意力机制,允许模型在处理输入序列(如一个句子)中的每一个元素(如一个词语)时,都能够同时计算并关注该序列中所有其他元素(包括自身)与当前元素的相关性或重要性,并根据这些相关性权重来动态地生成该元素的包含了丰富上下文信息的表示(Contextualized Representation)。自注意力机制有效解决了传统RNN难以捕捉长距离依赖关系的问题,并且其计算过程高度可并行化,是LLM能够处理长文本并取得巨大成功的关键。(参见 2.4节
  • 自监督学习 (Self-supervised Learning, SSL): 机器学习的一种范式(有时被视为介于监督学习和无监督学习之间)。其核心特点是,模型从大量的、未经人工标注的数据中进行学习,但它并非完全没有“监督信号”,而是通过巧妙地设计一些“代理任务”(Pretext Tasks),让模型能够从数据自身中自动生成“伪标签”(Pseudo Labels)来作为监督信号进行学习。例如,在自然语言处理中,LLM的预训练就是典型的自监督学习: * 掩码语言模型(Masked Language Modeling, MLM): 随机遮盖输入文本中的一部分词,让模型根据上下文预测被遮盖的词。 * 下一词预测(Next Token Prediction): 给定一段文本的前缀,让模型预测下一个最可能的词。 通过完成这些代理任务,模型能够学习到关于语言的丰富结构、语法、语义和世界知识,而无需耗费巨大的人力进行数据标注。自监督学习是训练大型基础模型(Foundation Models)的关键技术
  • 序列到序列模型 (Sequence-to-Sequence, Seq2Seq): 一种深度学习模型架构,专门用于处理输入和输出都是可变长度序列的任务。它通常由两个主要部分组成:一个编码器(Encoder)负责读取整个输入序列并将其压缩成一个固定长度的上下文向量(Context Vector);一个解码器(Decoder)则以该上下文向量为初始状态,逐步地生成目标输出序列。Seq2Seq模型(通常基于RNN或LSTM/GRU)在机器翻译、文本摘要、对话系统等任务中曾是主流架构,后来很大程度上被Transformer所取代,但其编码-解码的基本思想仍然具有影响力。
  • 语音合成 (Speech Synthesis / Text-to-Speech, TTS): 指利用人工智能技术将输入的文本(Text) 自动转换成听起来自然、流畅、具有表现力的人类语音(Speech) 的过程。现代TTS系统通常基于深度学习,能够生成高度逼真的合成语音。(参见 2.6节
  • 语音识别 (Speech Recognition / Speech-to-Text, STT): 指利用人工智能技术将人类的语音信号(Speech) 自动转换成对应的书面文本(Text) 的过程。是实现人机语音交互和处理音频信息的关键技术。(参见 2.6节
  • 监督学习 (Supervised Learning): 机器学习的三大范式之一。算法从一个带有“标签”或“正确答案”的训练数据集中学习,目标是学习一个能够根据新的输入预测出相应输出的映射函数(模型)。主要任务包括分类(Classification)回归(Regression)。(参见 2.2节
  • 支持向量机 (Support Vector Machine, SVM): 一种强大且经典的监督学习算法,既可用于分类也可用于回归任务,但在分类问题上应用更广。其核心思想是,在特征空间中找到一个能够最佳地分隔不同类别数据点的超平面(Hyperplane)。所谓“最佳”,通常指这个超平面能够使得距离它最近的不同类别的数据点(即支持向量 Support Vectors)到该超平面的间隔(Margin)最大化。SVM在高维空间中表现良好,并且可以通过核技巧(Kernel Trick) 有效处理非线性可分的数据。
  • 技术辅助审查 (Technology Assisted Review, TAR) / 预测编码 (Predictive Coding): 在电子证据开示(e-Discovery)领域广泛使用的一种基于机器学习(通常是监督学习)的技术。其核心流程是:先由人类律师对一小部分种子文件集进行相关性标注;然后训练一个AI模型来学习这些标注的模式;接着用该模型对剩余的海量未审阅文件进行相关性预测和打分排序;最后,将最可能相关的文件优先呈现给律师进行人工审阅。TAR能够显著减少需要人工审阅的文件数量,大幅提高电子证据审查的效率和成本效益。(参见 5.3节
  • 温度 (Temperature): 在使用生成式AI模型(特别是LLM)进行文本生成时,一个用于控制输出随机性或创造性采样参数较低的温度值(例如,接近0)会使得模型倾向于选择概率最高的下一个Token,生成的文本会更确定性、更保守、更聚焦;而较高的温度值(例如,大于1)会增加低概率Token被选中的可能性,使得生成的文本更随机、更多样化、更具创造性(但也可能更不连贯或偏离主题)。调节温度是在可预测性创造性之间进行权衡的重要手段。
  • 张量处理单元 (Tensor Processing Unit, TPU): 由Google专门为加速机器学习(特别是深度学习中涉及的大规模张量/矩阵运算)而设计的专用集成电路(ASIC)。与GPU类似,TPU也采用了大规模并行处理架构,但在硬件层面针对神经网络计算(尤其是矩阵乘法和卷积)进行了深度优化,通常能在能效比和特定类型的AI任务上提供比GPU更高的性能。TPU主要通过Google Cloud Platform提供服务。
  • Token: 在自然语言处理(NLP)中,通常指文本被分割成的最小的有意义的单元,模型以Token为单位来处理和生成文本。一个Token可以是一个完整的词语(如英文的 “law”),也可以是一个子词(Subword)(例如,“lawyer” 可能被分割成 “law” 和 “##yer”),或者在某些情况下甚至是一个字符(Character)(如中文)。将文本分割成Token的过程称为分词(Tokenization)大型语言模型(LLM)的上下文窗口长度和API计费通常都以Token的数量来计算。理解Token的概念对于使用LLM至关重要。
  • 训练数据 (Training Data): 用于训练机器学习模型的数据集。模型通过分析训练数据中的模式和关系来学习如何执行特定任务。训练数据的数量、质量、代表性和标注准确性(对于监督学习)直接决定了最终模型的性能和可靠性
  • Transformer: 由Google研究人员在2017年的论文《Attention Is All You Need》中提出的一种革命性的深度学习模型架构。它完全摒弃了传统用于处理序列数据的RNN(循环连接)和CNN(卷积操作),而是完全基于强大的自注意力机制(Self-Attention Mechanism)。Transformer架构不仅能够极其有效地捕捉序列数据中的长距离依赖关系,而且其计算过程高度可并行化,极大地提高了训练效率。Transformer架构的出现彻底改变了自然语言处理(NLP)领域,并成为几乎所有现代大型语言模型(LLM)以及许多其他模态(如视觉、语音)的先进模型的基础。(参见 2.4节
  • 迁移学习 (Transfer Learning): 机器学习中的一种重要策略。其核心思想是,将一个在源任务(Source Task)上预训练好的模型(通常该任务拥有大量的可用数据)的知识和能力,“迁移”并应用于一个不同但相关的目标任务(Target Task)(该任务可能只有少量数据)。这通常通过重用预训练模型的部分或全部结构和参数,并在目标任务的数据上进行微调(Fine-tuning)来实现。迁移学习能够显著减少目标任务所需的训练数据量和训练时间,并提高模型性能,是基础模型(Foundation Models) 应用范式的核心。
  • 透明度 (Transparency): 指AI系统的内部工作机制、使用的数据、决策过程以及相关的性能和风险信息在多大程度上是可见的、可理解的和可获取的。透明度是建立信任、实现问责和进行有效监管的基础,但在面对复杂的AI模型时实现起来充满挑战。(参见 6.4节
  • 图灵测试 (Turing Test): 由计算机科学之父艾伦·图灵(Alan Turing)在1950年提出的一个著名的思想实验,旨在为“机器能否思考?”这个问题提供一个操作性的判断标准。其基本形式是:一个人类裁判通过文本界面同时与一个人类和一个机器进行对话,如果在足够长的时间后,裁判无法可靠地区分哪个是人类、哪个是机器,那么就可以认为这台机器通过了图灵测试,表现出了与人类相当的智能行为。图灵测试对人工智能领域的发展产生了深远影响,但它作为衡量真正智能的标准也备受争议(例如,它更侧重于模仿人类行为而非内在理解)。
  • 无监督学习 (Unsupervised Learning): 机器学习的三大范式之一。算法从一个完全没有“标签”或“正确答案”的数据集中学习。其目标是探索和发现数据本身内在的结构、模式、关联或分布规律,例如将相似的数据点分组(聚类 Clustering)降低数据的维度(降维 Dimensionality Reduction)、或者发现数据项之间的频繁共现模式(关联规则挖掘 Association Rule Mining)。(参见 2.2节
  • 用户界面 (User Interface, UI): 人类用户与计算机系统或软件进行交互和沟通的媒介。它可以是图形化的(GUI,如窗口、按钮、菜单)、命令行的(CLI)、语音的(VUI)或基于自然语言的(LUI,如聊天界面)。良好的UI设计对于AI工具的易用性至关重要。
  • 用户体验 (User Experience, UX): 指用户在使用一个产品、系统或服务(例如,一款法律AI软件)过程中的整体感受、认知和反应。UX不仅仅关乎界面是否美观、功能是否强大,更关乎任务流程是否顺畅、操作是否便捷、结果是否符合预期、以及整体过程是否令人愉悦或至少不令人沮丧。在AI工具选型和设计中,关注用户体验非常重要。
  • 验证数据 (Validation Data / Validation Set): 在机器学习模型训练过程中使用的一个独立的数据集(与训练集和测试集都不同)。验证数据不直接用于训练模型的参数(权重),而是用于在训练的不同阶段评估模型的性能,以便进行超参数(Hyperparameters)的调整(例如,选择最佳的学习率、网络层数、正则化强度等),以及监控模型是否开始出现过拟合(Overfitting)并据此决定何时提前停止(Early Stopping)训练。验证集对于构建一个泛化能力良好的模型至关重要。
  • 向量数据库 / 向量存储 (Vector Database / Vector Store): 一种专门设计用于高效存储、索引和查询高维向量数据(如通过嵌入 Embedding 技术生成的向量)的数据库系统。与传统关系型数据库不同,向量数据库的核心能力是快速执行近似最近邻(Approximate Nearest Neighbor, ANN)搜索,即在海量向量中迅速找到与给定查询向量最相似(例如,在向量空间中距离最近) 的向量。向量数据库是实现大规模语义搜索、推荐系统、以及检索增强生成(RAG) 等应用的关键基础设施。
  • 声码器 (Vocoder): 在语音合成(TTS) 技术中,负责将声学模型生成的中间声学特征表示(例如,梅尔频谱图,它描述了声音的频谱特性但本身不能直接播放)转换合成最终的、可听的、一维的原始音频波形(Waveform)的组件。声码器的质量直接决定了最终合成语音的自然度和保真度。现代的神经声码器(Neural Vocoders) 极大提升了TTS的音质。(参见 2.6节
  • 词嵌入 (Word Embedding): 自然语言处理 (NLP) 中的一种重要的嵌入(Embedding) 技术。它将词汇表中的每个词语映射到一个稠密的、低维的、连续的向量空间中,使得语义相近或用法相似的词语在向量空间中的位置也相对接近。与传统的独热编码(One-hot Encoding) 相比,词嵌入能够捕捉词语之间的语义关系,并且维度更低,是许多深度学习NLP模型(如用于文本分类、情感分析、机器翻译等)的基础输入表示。著名的词嵌入方法包括 Word2Vec, GloVe, FastText
  • 可解释AI (Explainable AI, XAI): 人工智能的一个重要研究领域和实践方向,致力于开发各种技术和方法,使得人类(包括开发者、使用者、监管者、受影响者)能够理解、解释和信任AI系统(特别是那些复杂的“黑箱”模型)所做出的预测或决策的原因和逻辑。XAI的目标是回答“为什么AI会给出这个结果?”的问题,以增强透明度、促进公平性、实现有效问责和提升人机协作效率。(参见 6.4节
  • 零样本学习 (Zero-Shot Learning): 见“小样本学习 / 零样本学习 (Few-Shot Learning / Zero-Shot Learning)”。

(本术语表旨在提供核心概念的快速参考,建议结合正文章节进行更深入的理解。随着技术和应用的发展,新的术语会不断涌现,本表也将力求持续更新和补充。)