余弦相似度 (Cosine Similarity)
将文本转换为词频向量,计算向量夹角的余弦值。值域 [0, 1],1 表示完全相同。
Jaccard 相似度
计算两个集合的交集与并集的比值。值域 [0, 1],适合比较词集重合度。
编辑距离 (Levenshtein Distance)
将一个字符串转换为另一个所需的最少操作数(插入、删除、替换)。数值越小越相似。
最长公共子序列 (LCS)
找出两个序列中最长的公共子序列长度,反映结构相似性。
将文本转换为词频向量,计算向量夹角的余弦值。值域 [0, 1],1 表示完全相同。
计算两个集合的交集与并集的比值。值域 [0, 1],适合比较词集重合度。
将一个字符串转换为另一个所需的最少操作数(插入、删除、替换)。数值越小越相似。
找出两个序列中最长的公共子序列长度,反映结构相似性。