Copying detection

欢读文学平台投稿作品抄袭查询服务

背景介绍

  • 米读小说开放欢读文学平台后,涌入大量原创作者投稿,稿件中存在抄袭、水文等现象。

业务痛点

  • 欢读平台投稿的作品量非常大,存在不少薅羊毛党(抄袭、灌水),目前是由编辑进行人工审稿,业务方希望借助机器实现自动化判别抄袭稿件,减轻编辑审稿压力,释放大量重复性工作。

明确任务

  • 对投稿作品分段进行句向量化存储。

  • 基于faiss建立向量相似度检索。

向量化服务

针对应用场景,float32的精度对于计算向量的相似度帮助不大,因此在向量服务端将模型的精度改为float16,bert提供特征向量服务细节可见另一篇博客。

roberta-tiny service

基于Faiss的向量化检索

Faiss是facebook AI research组开源的一款为稠密向量提供高效相似度搜索和聚类的框架,能够支持十亿级别的向量搜索。Faiss是由C++编写的高性能库,并提供python的接口,简单易用。

在前期为了快速验证系统功能性时,我们选取了十来本书,转为向量后,调用faiss的库,发现判断抄袭的效果还不错,决定采用这个方案进行开发。上线到生产环境上后,随着书籍库的量不断扩大,性能、RAM、模型训练时间、响应时长都成了需要考虑的瓶颈。

实际上faiss库里已经为我们解决了这些问题,但是需要针对我们的数据量级去选定

Last updated