[ PROMPT_NODE_27534 ]
Umap Learn API 参考
[ SKILL_DOCUMENTATION ]
# UMAP API 参考
## UMAP 类
`umap.UMAP(n_neighbors=15, n_components=2, metric='euclidean', n_epochs=None, learning_rate=1.0, init='spectral', min_dist=0.1, spread=1.0, low_memory=True, set_op_mix_ratio=1.0, local_connectivity=1.0, repulsion_strength=1.0, negative_sample_rate=5, transform_queue_size=4.0, a=None, b=None, random_state=None, metric_kwds=None, angular_rp_forest=False, target_n_neighbors=-1, target_metric='categorical', target_metric_kwds=None, target_weight=0.5, transform_seed=42, transform_mode='embedding', force_approximation_algorithm=False, verbose=False, unique=False, densmap=False, dens_lambda=2.0, dens_frac=0.3, dens_var_shift=0.1, output_dens=False, disconnection_distance=None, precomputed_knn=(None, None, None))`
寻找近似数据底层流形的低维嵌入。
### 核心参数
#### n_neighbors (int, 默认值: 15)
用于流形近似的局部邻域大小。较大的值会产生更全局的流形视图,而较小的值则保留更多的局部结构。通常在 2 到 100 之间。
**调优指南:**
- 使用 2-5 获取非常局部的结构
- 使用 10-20 获取平衡的局部/全局结构(典型值)
- 使用 50-200 强调全局结构
#### n_components (int, 默认值: 2)
嵌入空间的维度。与 t-SNE 不同,UMAP 可以很好地扩展嵌入维度。
**常用值:**
- 2-3: 可视化
- 5-10: 聚类预处理
- 10-100: 下游机器学习的特征工程
#### metric (str 或 callable, 默认值: 'euclidean')
使用的距离度量。接受:
- 来自 scipy.spatial.distance 的任何度量
- 来自 sklearn.metrics 的任何度量
- 自定义可调用距离函数(必须使用 Numba 编译)
**常用度量:**
- `'euclidean'`: 标准欧几里得距离(默认)
- `'manhattan'`: L1 距离
- `'cosine'`: 余弦距离(适用于文本/文档向量)
- `'correlation'`: 相关性距离
- `'hamming'`: 汉明距离(用于二进制数据)
- `'jaccard'`: 杰卡德距离(用于二进制/集合数据)
- `'dice'`: Dice 距离
- `'canberra'`: 堪培拉距离
- `'braycurtis'`: Bray-Curtis 距离
- `'chebyshev'`: 切比雪夫距离
- `'minkowski'`: 闵可夫斯基距离(通过 metric_kwds 指定 p)
- `'precomputed'`: 使用预计算的距离矩阵
#### min_dist (float, 默认值: 0.1)
嵌入点之间的有效最小距离。控制点被压缩在一起的紧密程度。较小的值会导致更聚集的嵌入。