文章相似度检测 — Jaccard / Cosine / Levenshtein 三算法

在线文本相似度检测工具:用 Jaccard 词集、Cosine 词频向量、Levenshtein 编辑距离三种经典算法并行对比,按句高亮重合部分,适合论文查重自查、洗稿识别、版权比对,全程本地

· 三算法并行 · 全程浏览器本地
文本 A (原文)0
文本 B (对比)0
算法说明
· Jaccard:词集交集除并集 —— 对改写顺序不敏感,但无视词频
· Cosine:词频向量夹角 —— 综合考虑词频分布,抄袭检测主指标
· Levenshtein:字符级编辑距离 —— 对同义替换敏感,段落级通用指标(大文本截 2000 字)
· 综合分 = Cosine×0.5 + Jaccard×0.3 + Levenshtein×0.2
· 适用于论文查重自查、公众号洗稿识别、短文本版权比对

文档工具 · 相关工具