Copying detection

欢读文学平台投稿作品抄袭查询服务

背景介绍

欢读平台投稿的作品量非常大，存在不少薅羊毛党（抄袭、灌水），目前是由编辑进行人工审稿，业务方希望借助机器实现自动化判别抄袭稿件，减轻编辑审稿压力，释放大量重复性工作。

针对应用场景，float32的精度对于计算向量的相似度帮助不大，因此在向量服务端将模型的精度改为float16，bert提供特征向量服务细节可见另一篇博客。

Faiss是facebook AI research组开源的一款为稠密向量提供高效相似度搜索和聚类的框架，能够支持十亿级别的向量搜索。Faiss是由C++编写的高性能库，并提供python的接口，简单易用。

在前期为了快速验证系统功能性时，我们选取了十来本书，转为向量后，调用faiss的库，发现判断抄袭的效果还不错，决定采用这个方案进行开发。上线到生产环境上后，随着书籍库的量不断扩大，性能、RAM、模型训练时间、响应时长都成了需要考虑的瓶颈。

实际上faiss库里已经为我们解决了这些问题，但是需要针对我们的数据量级去选定

Last updated 5 years ago