0530|利用doc2vec和milvus搭建相似文章召回服务

当前相似文章召回,较为流行的有 bag of words,average word vectors,tfidf-weighting word vectors,这些方法能都实现文章向量的训练,但是对文章在语义空间中的表达仍有一定的欠缺,主要原因是不能够学习到单词的顺序或者句子的语义。Doc2vec又叫Paragraph Vector是Tomas Mikolov基于word2vec模型提出的,doc2vec 相较于传统的 word2vec 的方法,考虑了文章中单词的顺序,能更好更准确的在向量空间中表示一篇文章的语义,而相比于神经网络语言模型,Doc2vec 的省时省力更适合工业落地。

文章语义向量化后,利用 Milvus 对特征向量做相似度检索。能极大的提高相似文章的召回速度,做到实时相似文章召回。最后获取召回的相似文章相似度,根据业务场景通过策略加权,最终排序输出符合当前业务的相似文章结果。

 

| 直播流程

👉🏻​​​​​​首先利用 doc2vec 训练文章向量,简单讲解训练中注意的问题。

👉🏻​​​​​​之后将训练好的文章向量储存分区到 milvus,通过 milvus 快速召回相似文章,并返回相似度,milvus 的操作介绍。

👉🏻​​​​​​最后将返回的相似文章通过 milvus 查询其标题向量并计算相似度,通过标题和文章相似度加权得分进行排序,得到最终相似文章召回列表。最后的加权排序是与业务强相关的,这里会介绍相似文章召回与业务场景的结合,并简单介绍实例标题与文章相似度的加权。

👉🏻​​​​​​答疑

 

| 讲师介绍

 

                                                                               松鼠, 推荐算法工程师

曾多次参加算法比赛,在阿里天池推荐比赛多次 top10%,Kaggle 比赛多次银牌,有较丰富的推荐经验,结合业务场景落地推荐系统。

 

| 活动信息

时间:5/30 (Sat.) 7:00 PM - 8:00 PM

直播报名:

https://www.huodongxing.com/event/4545398282122

https://www.slidestalk.com/m/150

 

 

| 看直播拿好礼

我们会从报名的名单中抽出 5 名幸运的童鞋送出限量的 Milvus 不锈钢冰石,有了它今夏的快乐加倍!5/28 前报名才有机会参加抽奖喔,手慢无!

 


| 欢迎加入 Milvus 社区

github.com/milvus-io/milvus | 源码

milvus.io | 官网

milvusio.slack.com | Slack 社区

zhihu.com/org/zilliz-11/columns | 知乎

zilliz.blog.csdn.net | CSDN 博客

space.bilibili.com/478166626 | Bilibili

实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值