2.2 机器学习基本范式

机器如何学习？机器学习的三大范式解析

机器学习（Machine Learning, ML）作为现代人工智能（AI）最为核心的驱动引擎，赋予了计算机系统一种非凡的能力——从数据中汲取经验、自我完善性能，而无需人类针对每一种可能情况预先编写详尽的指令规则。对于法律专业人士而言，理解机器学习的基本运作逻辑与主要流派，是评估各类AI法律工具的能力边界、内在局限，并洞察其在法律服务领域应用潜力与风险的基础。

机器学习并非一项单一的技术，而是涵盖了一系列算法、模型和方法的庞大家族。根据计算机系统学习数据的方式以及所使用数据类型的不同，我们通常可以将机器学习划分为三种主要的范式（Paradigms）：监督学习（Supervised Learning） 、无监督学习（Unsupervised Learning） 和 强化学习（Reinforcement Learning） 。

本节将逐一解析这三大范式，揭示机器“学习”的奥秘。

一、监督学习 (Supervised Learning)：带标签的“导师制”学习

核心思想与原理

监督学习是目前应用最广泛、研究最为成熟的一种机器学习范式。其核心思想可以形象地比喻为“导师制”学习：我们为机器提供大量的、已经标注好“正确答案”（标签 Labels / Ground Truth） 的训练数据，如同给学生提供带有标准答案的练习册。机器的任务就是从这些“例题”中学习，找出输入数据（特征 Features） 与已知输出（标签 Labels） 之间的潜在映射关系或模式。最终目标是训练出一个足够聪明的模型（可以看作一个复杂的函数 f），使其在遇到全新的、没有见过的数据时，也能够准确地预测出其对应的“答案”（标签）。

训练数据的“教材”: 监督学习的“教材”是标注数据 (Labeled Data)。每一条训练样本都包含两个关键部分：
- 输入特征 (Input Features): 用来描述这个数据点的各项属性或特征，通常以数值向量的形式表示。例如，在合同风险审查场景中，输入特征可以是一份合同文本的词频统计（如词袋模型 Bag-of-Words, TF-IDF），或者是更先进的文本嵌入向量（Text Embeddings）表示。
- 输出标签 (Output Label): 这个数据点对应的“标准答案”或所属类别。标签的形式决定了监督学习的具体任务类型，它可以是离散的类别（用于分类任务），也可以是连续的数值（用于回归任务）。
学习的目标：拟合与泛化: 算法的目标是找到一个最优的模型 f，使得对于训练集中的每一个输入 x，模型预测出的输出 f(x) 与其真实的标签 y 之间的差距（误差） 尽可能小。这个“差距”通常通过一个损失函数 (Loss Function) 来量化。训练过程就是不断调整模型内部参数以最小化总损失的过程。

然而，仅仅在训练数据上表现完美是不够的，这可能导致 “过拟合”（Overfitting） ——模型过度学习了训练数据中的噪声和细节，以至于在面对新数据时表现很差。监督学习的真正目标是获得良好的泛化能力（Generalization） ，即训练好的模型在前所未见的、真实世界的新数据上也能做出准确的预测。

主要任务类型

监督学习主要用于解决两大类问题：

分类 (Classification):
- 任务目标: 将输入数据实例分配到预先定义好的、离散的类别（Categories） 中的某一个。模型的输出是类别的标识符（如名称或编号）。
- 典型例子:
  - 判断一封电子邮件是否为垃圾邮件（类别：垃圾邮件 / 非垃圾邮件）。
  - 医疗影像诊断：判断一张X光片是否显示有肿瘤（类别：有 / 无）。
- 法律场景实例:
  - 法律文件自动分类: 将上传的文件自动归类为合同、判决书、起诉状、律师函、证据材料等。
  - 技术辅助审查 (Technology-Assisted Review, TAR): 在电子证据开示（eDiscovery）中，判断海量文档是否与案件相关（类别：相关 / 不相关），极大提高筛选效率。
  - 合同条款识别与分类: 自动识别并标注合同中的特定条款类型，如管辖权条款、保密条款、赔偿责任条款、不可抗力条款等。
  - 判决倾向性分析: 分析一份判决书对于某个特定的法律论点或证据是持支持、反对还是中立态度。
  - 法律风险评估（分类视角） : 基于历史数据，将某个交易或行为归入预设的风险等级（类别：高风险 / 中风险 / 低风险）。
- 常用算法: 逻辑回归 (Logistic Regression)、支持向量机 (Support Vector Machines, SVM)、K-近邻 (K-Nearest Neighbors, KNN)、决策树 (Decision Trees)、随机森林 (Random Forests)、朴素贝叶斯 (Naive Bayes)、神经网络 (Neural Networks) / 深度学习。
回归 (Regression):
- 任务目标: 预测一个连续的数值（Continuous Value） 。模型的输出是一个实数。
- 典型例子:
  - 预测一套房屋未来的市场价格。
  - 预测某只股票明天的收盘价。
  - 预测一个地区的降雨量。
- 法律场景实例:
  - 法律服务工作量预测: 基于案件类型、复杂程度等历史数据，预测处理某项法律服务（如完成一项尽职调查、起草一份合同）大致需要的工作小时数，为项目报价和资源分配提供参考。
  - 合同续约概率预测: 基于客户历史行为、合同特征等，预测一份合同到期后客户续约的可能性（通常预测为0到1之间的概率值）。
  - 潜在损害赔偿额度估算: （需极其谨慎对待！）基于类似案件的历史判决数据，尝试预测某个案件可能的损害赔偿金额范围。这在伦理、准确性和公平性上面临巨大挑战，结果通常只作为非常初步的参考，绝不能替代律师的专业判断和具体案情分析。
- 常用算法: 线性回归 (Linear Regression)、多项式回归 (Polynomial Regression)、岭回归 (Ridge Regression)、Lasso回归、决策树、随机森林、梯度提升机 (Gradient Boosting Machines, GBM)、神经网络 / 深度学习。

法律场景的应用与挑战

监督学习凭借其明确的目标导向和相对成熟的技术，在法律科技（Legal Tech）领域获得了广泛应用，尤其擅长处理需要进行自动化分类、判断或标准化评估的任务，以及利用大量结构化或半结构化数据的场景。

优势:
- 目标明确: 对于有清晰定义的目标（如分类到哪个类别、预测哪个数值）的任务，监督学习通常能提供有效的解决方案。
- 效果可衡量: 可以使用明确的指标（如准确率、精确率、召回率、F1分数、均方误差等）来评估模型性能。
- 技术成熟: 拥有众多成熟的算法和工具库可供选择。相对而言，一些传统监督学习模型（如决策树、逻辑回归）的可解释性比复杂的深度学习模型更好。
挑战:
- 标注数据的瓶颈: 这是监督学习在法律领域应用的最大挑战之一。对法律文件进行准确、一致的标注，通常需要具备深厚专业知识的律师或法律专家投入大量时间和精力，成本极其高昂。对于复杂、主观性强或涉及多种解释可能的法律问题（例如，判断某个合同条款是否“显失公平”），保证标注质量和一致性本身就非常困难。
- 数据不平衡问题 (Data Imbalance): 在许多法律场景中，我们关心的目标类别往往是少数。例如，在合规审查中，真正存在问题的交易远少于合规交易；在欺诈检测中，欺诈案例也远少于正常案例。训练数据中类别分布的严重不平衡，会使得模型倾向于预测多数类，导致对少数类的识别能力很差。
- 概念漂移 (Concept Drift): 法律是不断发展变化的。新的法规出台、重要的判例产生、司法实践的演变，都可能导致过去有效的模式不再适用。这意味着基于历史数据训练出的监督学习模型，其性能可能会随着时间的推移而衰退（即发生“概念漂移”），需要建立持续监控、评估和更新模型的机制。
- 特征工程的技艺 (Feature Engineering): 对于传统的（非深度学习）监督学习算法，模型性能在很大程度上依赖于输入特征的质量。如何从原始的、往往是非结构化的法律文本或案件数据中，提取出最能反映问题本质、对预测目标最有区分度的特征，需要结合领域知识和数据处理技巧，这是一项既重要又需要经验的工作（尽管深度学习在一定程度上可以自动学习特征，减轻了这部分负担）。

二、无监督学习 (Unsupervised Learning)：在无标签数据中探寻内在结构

核心思想与原理

与监督学习截然不同，无监督学习面对的是没有任何“正确答案”或预先设定标签的训练数据。它的目标不是去预测某个特定的输出值，而是如同侦探一般，在看似杂乱无章的数据中自主地探索和发现其中隐藏的结构、模式、关联性或内在规律。它试图让机器在没有“老师”直接指导的情况下，自己从数据中“领悟”出一些有意义的东西。

训练数据的“素材”: 无监督学习的“素材”只包含输入特征 x，完全没有对应的标签 y。数据是“原始”的、未经人工标注的。
学习的目标：发现而非预测: 其核心目标是理解数据本身，例如：
- 找出数据中哪些样本是相似的，可以将它们聚集在一起？（对应聚类任务）
- 能否用更简洁、更低维度的方式来有效表示这些复杂的数据？（对应降维任务）
- 数据中是否存在一些与其他样本格格不入的异常点？（对应异常检测任务）
- 数据项之间是否存在某种频繁同时出现的模式？（对应关联规则挖掘任务）
评估的挑战: 由于缺乏明确的“正确答案”，评估无监督学习算法的效果通常比监督学习更为困难和主观。评估往往需要依赖一些基于数据内部属性的指标（例如，衡量聚类结果的簇内紧密度和簇间分离度），或者更重要的是，需要结合领域专家的知识进行人工解释和验证，判断发现的模式是否真的有意义、有价值。

主要任务类型

聚类 (Clustering):
- 任务目标: 将数据集中的样本自动地划分成若干个“簇”（Clusters） 。其原则是使得同一个簇内的样本彼此尽可能相似（例如，在特征空间中距离近），而不同簇之间的样本尽可能相异。簇的数量有时需要预先指定，有时则由算法根据数据分布自动确定。
- 典型例子:
  - 市场细分：将客户根据其购买行为、人口统计学特征等自动分成不同的群体，以便实施差异化的营销策略。
- 法律场景实例:
  - 电子证据开示（eDiscovery）探索: 在处理海量的、未经审阅的文档时，运用聚类算法可以快速将内容相似的文档聚集在一起，形成不同的主题簇。这有助于律师迅速了解整个文档集的内容概貌，优先审阅可能更重要的主题簇，或者发现异常的、需要特别关注的文档簇。
  - 判例分析: 将大量的判决文书根据其事实特征、争议焦点、法律适用或判决理由进行聚类，可能揭示出法院在处理某类案件时存在的不同裁判思路、模式或流派。
  - 合同库管理: 对律所或企业积累的大量合同文本进行聚类，可以按合同类型、业务领域、复杂程度等自动分组，便于管理和检索。
- 常用算法: K-均值 (K-Means)、层次聚类 (Hierarchical Clustering)、DBSCAN (Density-Based Spatial Clustering of Applications with Noise)。
降维 (Dimensionality Reduction):
- 任务目标: 在尽可能保留原始数据中蕴含的关键信息的前提下，减少数据的特征维度（数量） 。将数据从高维空间映射到低维空间。
- 主要目的:
  - 数据可视化: 人类视觉只能直观理解二维或三维空间。降维可以将高维数据（如具有数百上千个特征的文本向量）投影到二维或三维平面上，使得我们能够直观地观察数据的分布、结构、簇群关系等。
  - 提升效率与性能: 减少特征数量可以显著降低后续机器学习算法（如监督学习分类器）的计算复杂度和存储需求，有时甚至能通过去除噪声和冗余特征来提升模型性能。
  - 特征压缩: 用更少的特征来表示数据，节省存储空间。
- 常用算法: 主成分分析 (Principal Component Analysis, PCA)、线性判别分析 (Linear Discriminant Analysis, LDA - 严格来说属于有监督降维，但常与PCA对比)、t-分布随机邻域嵌入 (t-Distributed Stochastic Neighbor Embedding, t-SNE)、统一流形逼近与投影 (Uniform Manifold Approximation and Projection, UMAP)。后两者尤其擅长高维数据的可视化。
- 法律应用实例: 将大量法律文书（如合同、判决）通过词嵌入等方式转换为高维向量后，使用t-SNE或UMAP将其降维到二维平面进行可视化，可以直观地看到不同类型的文书或由不同律师起草的文书是否在空间上形成不同的聚集模式。
关联规则挖掘 (Association Rule Mining):
- 任务目标: 从数据集中发现项（Item）与项之间有趣的、频繁的关联或共现（co-occurrence）关系。这些关系通常以“如果 {A} 那么 {B}”（If {A} then {B}）的规则形式呈现，并使用支持度（Support） （规则在数据集中出现的频率）和置信度（Confidence） （当A出现时B也出现的条件概率）等指标来衡量规则的强度和可靠性。
- 经典例子: 在超市交易数据中发现著名的“尿布与啤酒”规则——购买尿布的顾客往往也同时购买啤酒。
- 法律应用潜力 （需谨慎解读）:
  - 分析大量案件数据，尝试发现某些特定的案件事实组合（如原告类型、证据类型、争议金额范围）与某种判决结果（如胜诉率、调解率）之间是否存在较强的统计关联。（重要提示：关联不等于因果关系！ 发现的规则仅能提示可能存在的模式，绝不能直接用于预测或推断因果。）
  - 分析大量合同文本，发现哪些条款（如“排他性管辖权条款”与“适用外国法条款”）经常一起出现，或者哪些条款组合可能预示着较高的谈判破裂风险。
- 常用算法: Apriori算法、FP-Growth算法。
异常检测 (Anomaly Detection / Outlier Detection):
- 任务目标: 从数据集中识别出那些与绝大多数数据点的行为模式显著不同的样本，即异常点（Anomalies） 或离群值（Outliers） 。这些异常点可能代表了错误、欺诈、罕见事件或需要特别关注的情况。
- 法律应用实例:
  - 金融合规与反欺诈: 在大量的交易流水或客户行为数据中，检测可能预示着洗钱、内部交易或其他金融欺诈的异常交易模式。
  - 企业内部审计: 分析员工报销、差旅、权限访问等记录，发现可能违反公司规定或存在舞弊风险的异常行为。
  - 网络安全监控: 在律所或企业的网络流量、系统日志中，检测异常的登录尝试、数据访问或传输行为，及时发现潜在的安全威胁。
  - 尽职调查: 在并购或投资项目中，对目标公司提供的大量财务或运营数据进行异常检测，以发现可能隐藏的风险点或数据异常。

法律场景的应用与挑战

无监督学习的核心价值在于其强大的数据探索能力，它能够在没有先验知识或标注的情况下，从海量的、未标记的法律数据（如文档库、案件记录）中挖掘出潜在的结构、趋势或异常，为后续的分析或决策提供洞见。

优势:
- 无需昂贵的标注数据: 这是其相对于监督学习的最大优势，使得处理海量原始数据成为可能。
- 发现未知模式: 可能揭示出人类凭直觉难以发现的、隐藏在数据深处的规律或关联。
- 数据预处理: 降维、聚类等技术常被用作监督学习或其他分析任务的有效预处理步骤。
挑战:
- 结果解释的主观性: 无监督学习发现的模式（例如，聚类形成的簇群）其内在含义是什么？是否具有真实的业务价值或法律意义？这往往需要领域专家的深入解读和验证，并非总能自动得出清晰的结论。
- 评估标准模糊: 如何客观评价一个聚类结果或降维效果的好坏？缺乏统一、公认的评价标准是无监督学习面临的一大难题。
- 对算法和参数敏感: 许多无监督学习算法（例如，K-Means需要预先指定簇的数量K）的性能表现对其自身的选择以及参数的设置比较敏感，可能需要反复试验和调整。
- 难以直接解决特定预测任务: 无监督学习本身不以预测特定目标为目的，如果需要解决明确的分类或回归问题，通常还需要结合监督学习或其他方法。

三、强化学习 (Reinforcement Learning, RL)：在交互与试错中学习最优策略

核心思想与原理

强化学习是机器学习领域中一个非常独特且近年来发展迅猛的范式。它研究的核心问题是：一个智能体（Agent） 如何在一个复杂的、不确定的环境（Environment） 中，通过不断地与环境交互、采取行动（Actions） 并观察结果（状态变化和奖励信号），来学习到一套最优的策略（Policy） ，从而使得其在长期过程中获得的累积奖励（Cumulative Reward） 最大化。

强化学习的学习过程是交互式和试错式（Trial-and-Error） 的。与监督学习不同，环境并不会直接告诉智能体在某个状态下应该采取哪个“正确”的动作，而是只给出一个反馈信号——奖励（Reward）或惩罚（Punishment） 。智能体必须自己去探索不同的行为，并根据得到的反馈来逐步调整自己的策略，以期未来获得更好的回报。

核心要素拆解:
- 智能体 (Agent): 学习者和决策者。它可以是一个下棋的程序、一个自动驾驶汽车的控制系统、一个进行谈判的机器人，或者一个优化投资组合的算法。
- 环境 (Environment): 智能体所处的外部世界或系统。智能体的动作会作用于环境，导致环境的状态发生改变。
- 状态 (State, S): 对环境当前状况的一个描述。例如，在棋类游戏中，状态就是当前的棋盘布局。
- 动作 (Action, A): 智能体在某个状态下可以选择执行的操作。例如，在围棋中，动作就是在某个合法的空点落子。
- 奖励 (Reward, R): 环境在智能体执行一个动作并转移到新状态后，给予智能体的一个即时反馈信号（通常是一个数值）。奖励信号是评价动作好坏的依据，智能体的目标是最大化累积奖励。例如，在游戏中，赢棋获得正奖励，输棋获得负奖励，中间步骤可能没有奖励或有小的过程奖励/惩罚。
- 策略 (Policy, π): 智能体的“行为方式”或“决策逻辑”。它定义了智能体在给定状态下选择采取哪个动作的规则或概率分布。学习的目标就是找到最优策略π*。
- 价值函数 (Value Function, V/Q): 用来评估一个状态（V函数）或者一个“状态-动作”对（Q函数）的“好坏”程度，即从该状态或状态-动作对开始，遵循某个策略预期能够获得的未来累积奖励的总和。价值函数是许多RL算法学习的核心。
- 模型 (Model) (可选): 智能体对环境工作方式的内部理解或模拟。它能够预测在某个状态下执行某个动作后，环境将转移到哪个新状态，并会获得多少奖励。基于模型的RL算法会尝试学习一个环境模型，而无模型（Model-Free）RL算法则不学习模型，直接学习策略或价值函数（后者更为常见）。
学习的循环: 智能体观察当前状态 -> 根据策略选择并执行一个动作 -> 环境给出新的状态和奖励 -> 智能体根据奖励信号和状态转移更新其策略或价值函数 -> 进入下一个状态，循环往复。
探索与利用的平衡 (Exploration vs. Exploitation Trade-off): 这是强化学习中的一个核心挑战。为了找到最优策略，智能体需要探索（Exploration） 那些它不熟悉的、甚至看起来不是最优的动作，以发现潜在的更好的路径。但同时，为了获得尽可能多的奖励，它也需要利用（Exploitation） 那些根据当前经验判断是最好的动作。如何在探索未知和利用已知之间取得恰当的平衡，是RL算法设计中的关键考量。

典型应用领域

强化学习特别擅长解决需要进行序贯决策（Sequential Decision Making） （即需要做出一系列相互关联的决策）且环境反馈（奖励）可能存在延迟性（即一个动作的好坏可能要过很久才能体现出来）的问题。其成功应用包括：

游戏 AI: 在围棋（AlphaGo）、国际象棋、星际争霸（AlphaStar）、Dota 2（OpenAI Five）等复杂策略游戏中达到甚至超越人类顶尖水平。
机器人控制: 让机器人学习行走、跑步、抓取物体、执行复杂装配任务等。
自动驾驶: 车辆的决策系统（如何时变道、加速、刹车、应对突发情况）。
推荐系统与广告: 优化内容推荐或广告投放策略，以最大化用户的长期参与度、满意度或平台收益。
资源优化配置: 如数据中心的能源调度、通信网络的流量控制、库存管理等。
金融工程: 制定最优的资产交易、风险管理策略。
自然语言处理 (结合LLM): 如优化对话管理策略，以及后文会具体提到的RLHF（基于人类反馈的强化学习）用于对齐大型语言模型。

法律场景的应用潜力与挑战

目前，强化学习在法律领域的直接应用案例相对较少，且大多处于非常初步的探索阶段。这主要是由于将RL应用于复杂的法律场景面临着诸多严峻挑战：

环境建模的极端复杂性: 真实的法律环境（如法庭辩论、合同谈判、案件策略制定）极其复杂，不仅涉及明确的规则，还包含大量难以形式化的人类因素（如法官/对方律师/客户的心理状态、策略意图、沟通技巧、社会关系、声誉影响等）。为这些环境建立精确、可靠的模拟模型非常困难。
奖励函数设计的困境: 如何为复杂的法律任务（例如，“赢得一场诉讼”、“达成一份公平且有利的和解协议”、“起草一份无懈可击的合同”）设计一个清晰、可量化、并且能够正确引导智能体学习到期望行为的奖励函数，是一个巨大的难题。短期内的某个“有利”动作（如强硬表态）可能损害长期的关系或最终目标。奖励的设定可能引入意想不到的偏见。
高风险决策与试错成本: 法律决策的后果往往非常严重，直接关系到当事人的权利、财产甚至自由。强化学习依赖的“试错”学习方式，在真实法律场景中可能带来不可接受的风险和成本。一个错误的“探索性”动作可能导致案件败诉或重大损失。
可解释性与问责难题: 强化学习模型（尤其是与深度学习结合的Deep RL）往往是“黑箱”，其决策逻辑难以解释。这与法律领域对决策过程透明度、理由阐述和责任追究的要求存在根本性冲突。如果一个由RL驱动的系统给出了错误的法律建议或策略，如何进行问责？

尽管存在这些挑战，强化学习在某些特定的、风险可控的法律相关场景中，仍然展现出一定的潜在应用价值，更多是作为辅助分析、模拟推演或培训工具：

谈判策略模拟与辅助: 开发模拟合同谈判或诉讼和解过程的RL智能体，让律师可以通过与其交互来测试不同的谈判策略（例如，何时提出要约、何时让步、如何应对对方的不同策略），或者让智能体基于历史数据学习可能的最优回应策略，为律师提供参考。
诉讼策略推演: 模拟在特定案件类型中，采取不同的诉讼策略（如证据出示的顺序、选择何种诉讼请求、如何进行交叉询问）可能带来的不同结果（基于历史数据或规则模拟），辅助律师进行战术层面的决策思考。
智能合约（Smart Contracts）的优化: 对于部署在区块链上的智能合约，可以探索使用RL来设计更智能的执行逻辑，使其能够在满足预设条件时自动执行条款（如支付、资产转移），并且能够根据外部环境的变化（如市场价格波动）动态调整其行为，以最大化合约参与方的利益或稳定性。
法律教育与交互式培训: 开发基于RL的“虚拟客户”、“虚拟对方律师”或“虚拟法官”，创建高度仿真的模拟法庭、谈判场景或咨询环境。法律学生或年轻律师可以在与这些智能AI“陪练”的互动中，安全地练习沟通技巧、辩论策略、应变能力，并获得即时反馈。

总结：三足鼎立，各擅胜场，亦可协同

监督学习、无监督学习和强化学习，共同构成了机器学习这座宏伟大厦的三根主要支柱。它们各自拥有独特的学习机制和擅长的应用领域：

监督学习：依赖标注数据，擅长解决有明确目标的预测和分类问题，是目前应用最广泛的范式。
无监督学习：处理无标注数据，擅长进行探索性分析，发现数据中隐藏的结构、模式和异常。
强化学习：通过与环境交互和试错学习，擅长解决需要序贯决策以最大化长期累积奖励的问题。

在构建复杂的法律AI应用时，往往并非只使用单一范式，而是根据具体需求组合运用这些不同的学习方法。例如，可以先用无监督学习（如聚类或主题模型）对海量的法律文书进行初步的探索性分析和分组，然后针对识别出的关键类别进行人工标注，再利用监督学习训练一个高精度的文档分类器。而强化学习则可能用于优化人机交互流程或提供策略模拟。

深度学习（Deep Learning）作为一种强大的实现技术（特别是基于深度神经网络的模型），可以被广泛应用于这三种学习范式之中（尤其是在监督学习和强化学习中取得了巨大成功，也在无监督学习中扮演重要角色），极大地提升了模型的性能和处理复杂数据的能力。

理解这三大基本范式及其核心原理、优势和局限，是法律专业人士深入学习后续章节介绍的更具体的AI技术（如深度学习、自然语言处理、大型语言模型），并最终能够明智地评估和应用这些技术于法律实践的前提和基础。

2.2 机器学习基本范式

机器如何学习？机器学习的三大范式解析

一、 监督学习 (Supervised Learning)：带标签的“导师制”学习

核心思想与原理

主要任务类型

法律场景的应用与挑战

二、 无监督学习 (Unsupervised Learning)：在无标签数据中探寻内在结构

核心思想与原理

主要任务类型

法律场景的应用与挑战

三、 强化学习 (Reinforcement Learning, RL)：在交互与试错中学习最优策略

核心思想与原理

典型应用领域

法律场景的应用潜力与挑战

总结：三足鼎立，各擅胜场，亦可协同

一、监督学习 (Supervised Learning)：带标签的“导师制”学习

二、无监督学习 (Unsupervised Learning)：在无标签数据中探寻内在结构

三、强化学习 (Reinforcement Learning, RL)：在交互与试错中学习最优策略