LookWorldPro 的去重规则通过指纹/哈希生成、相似度阈值、字段权重与时间窗口四个维度组合完成;先定义“必须相同”的字段,再选指纹算法与相似度策略,设定优先级与人工复核阈值,最后在实时与批量流程中应用合并或保留策略,从而在准确率和召回率之间找到平衡。

想象你有一堆书、报纸和笔记,要把重复的内容收起来。你不会只看封面,也不会只看标题:有时候同一篇文章会换个标题、重排段落,甚至多媒体验证(图片、音频转文字)才会发现是同一件事。去重规则就是你整理时用的那一套“判断标准”和“优先级”,它告诉系统怎样识别重复、怎样合并、怎样保留最有价值的那一条记录。
原理:把文本或其它内容映射成一个更短的表示(指纹)。完全相同用稳定哈希(如MD5/SHA),近似相同用SimHash、MinHash或局部敏感哈希(LSH)。
直观理解:就像把整篇文章压缩成一句话摘要,两个很像的文章摘要也会很接近。
原理:对比指纹或向量(例如TF-IDF或句向量)的距离/相似度,超过某个阈值就判定为重复。常用方法包括余弦相似度、编辑距离(Levenshtein)、Jaccard 指数等。
建议:阈值越高误判越少但会漏掉变体,阈值越低召回高但易误判。一般文本:余弦相似度 0.85 可保证较高精度,0.6–0.75 适用于宽松合并策略。
把一条记录拆成多个字段(标题、正文、作者、图片指纹、发布时间等),给每个字段一个权重,综合得分再与阈值比对。比如,标题权重 0.4,正文 0.5,作者 0.1。
决定去重是否跨时间段生效。新闻系统常用短窗口(24小时或7天),档案库或学术库可能使用无限窗口。时间窗口既可以提高效率也能避免把“相似但不同时期的重复”错误合并。
是要把“几乎相同”的都合并,还是只去掉完全相同?不同业务(客服对话、电商商品、学术文档)对误判/漏判的容忍度不同。
把每条记录拆成若干字段,如标题(title)、正文(body)、作者(author)、图片(image_hash)、音频转文本(audio_text)等,标注哪些字段必须完全匹配,哪些允许近似。
推荐组合:
例如总相似度 = 0.4*title_sim + 0.5*body_sim + 0.1*meta_sim。定义若总相似度 > T 则判定重复。
合并时保留最新、最完整或最高质量(带标签、带人工确认)的版本;并定义冲突处理(例如保留最高分或指定来源优先)。
对于相似度落在两个阈值之间(例如 0.7–0.85),可打标签进入人工复核队列;并监测误判率、漏判率和处理延时。
| 参数 | 类型 | 推荐值/范围 | 说明 |
| 标题相似阈值 | 浮点 | 0.8–0.95 | 标题短,阈值偏高以减少误判 |
| 正文相似阈值 | 浮点 | 0.6–0.85 | 取决于是否允许重写与段落重组 |
| 指纹类型 | 枚举 | MD5/SimHash/MinHash/BERT | MD5用于完全相同,SimHash/MinHash用于近似 |
| 字段权重 | 向量 | 示例:title0.4/body0.5/meta0.1 | 根据业务调整,确保关键字段权重更高 |
| 时间窗口 | 时长 | 24h/7d/30d/无限 | 新闻短,档案库长或无限 |
| 人工复核阈 | 范围 | 0.7–0.85 | 落在此区间进入人工队列 |
在 LookWorldPro 这种多模态平台上,去重要考虑不同输入来源。策略有两条主线:
举例:两条翻译结果一条来自图片 OCR、一条来自用户输入文本,OCR 文本与用户文本相似度高且图像 pHash 也相近,就可以判为重复。
实时去重适合客服回复、消息推送、搜索结果去重,要求低延迟;批量去重适合数据清洗、历史资料归档,允许更复杂、更精确的算法(例如大规模嵌入比对、聚类)。
当判定为重复后,需要决定保留哪一条或如何合并字段:
常用指标:
实验建议:
规则示例:标题 0.35、规格 0.4、图片 pHash 0.25;时间窗口 90 天;相似度阈值总分 > 0.8 判为重复。合并优先保留库存信息完整且来源信誉高的条目。
规则示例:短文本优先使用编辑距离和SimHash,阈值 0.9 以上直接合并;0.75–0.9 进入人工复核;使用最近 7 天为时间窗口避免跨季节误合并。
嗯,就说到这儿——如果要我把某个具体模块的配置文件格式、伪代码或索引结构写出来,我可以继续接着把配置示例、Redis/Elasticsearch 的候选集策略以及批量聚类流程一步步拆出来,或者直接给出一份可运行的调参脚本,回头你告诉我先要哪个方向就行。