广西壮族自治区网站建设_网站建设公司_阿里云

原文：towardsdatascience.com/introducing-semantic-tag-filtering-enhancing-retrieval-with-tag-similarity-4f1b2d377a10?source=collection_archive---------2-----------------------#2024-09-09

语义标签过滤

如何利用语义相似度改进标签过滤

https://medium.com/@ardito.bryan?source=post_page---byline--4f1b2d377a10--------------------------------https://towardsdatascience.com/?source=post_page---byline--4f1b2d377a10-------------------------------- Michelangiolo Mazzeschi

·发表于 Towards Data Science ·阅读时长 9 分钟·2024 年 9 月 9 日

–

要理解这篇文章，需要掌握Jaccard 相似度和向量搜索*的知识。此算法的实现已发布在GitHub上，并且完全开源。

多年来，我们已经掌握了如何从不同模态中检索信息，如数字、原始文本、图像，以及标签。

随着定制化用户界面（UI）越来越受欢迎，标签搜索系统成为了一种方便的方式，可以高效且准确地过滤信息。一些常见的标签搜索应用场景包括社交媒体帖子、文章、游戏、电影，甚至是简历的检索。

然而，传统的标签搜索缺乏灵活性。如果我们要筛选包含精确标签的样本，可能会遇到一些情况，尤其是对于只包含几千个样本的数据库，可能没有（或仅有少数）匹配的样本。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8deb50b654d346627375b7d90a6963a5.png

两种搜索方式在结果稀缺情况下的区别，图片来源：作者

****通过以下文章，我试图介绍几种新的算法，据我所知，我一直没有找到相关的资料。我愿意接受批评并且欢迎任何反馈。

传统的标签搜索是如何工作的？

传统系统使用一种叫做Jaccard 相似度的算法（通常通过minhash 算法执行），它能够计算两个元素集合之间的相似度（在我们的例子中，这些元素是标签）。如前所述，这种搜索方法根本不灵活（集合要么包含，要么不包含查询的标签）。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/db30a66064d36f7c16764a5cf985b2d7.png

简单与位运算示例（这不是 Jaccard 相似度，但可以让你大致了解过滤方法），图像由作者提供

我们能做得更好吗？

那么，如果我们不仅仅是从匹配标签中过滤样本，而是考虑样本中所有其他不完全相同但与我们选择的标签相似的标签呢？我们可以使算法更加灵活，将结果扩展到非完美匹配的项，但仍然是较好的匹配。我们将直接将语义相似性应用于标签，而不是文本。

引入语义标签搜索

如前所述，这种新方法试图将语义搜索的能力与标签过滤系统相结合。为了构建这个算法，我们只需要一件事：

一个带标签的样本数据库

我将使用的参考数据是开源的Steam 游戏库（可从 Kaggle 下载 — MIT 许可证） — 大约 40,000 个样本，这是测试我们算法的一个不错的样本量。从显示的数据框中可以看到，每个游戏都有多个分配的标签，在我们的数据库中有超过 400 个独特的标签。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/98840614196d9a8643fe33a8f184b312.png

示例笔记本中的 Steam 数据框截图，图像由作者提供

现在我们有了起始数据，我们可以继续：算法将在以下步骤中进行阐述：

提取标签关系
编码查询和样本
使用向量检索进行语义标签搜索
验证

在本文中，我将仅探讨这种新方法背后的数学（有关带有工作演示的代码的详细解释，请参阅以下笔记本：如何使用 simtag 的说明请参见根目录的 README.md 文件）。

结论

在此之前，无法在不依赖复杂方法的情况下过滤标签，同时考虑到它们的语义关系，例如聚类、深度学习或多个 knn 搜索。

该算法所提供的灵活性应该使其脱离传统的人工标签方法，这些方法迫使用户在预定义的标签集之间做出选择，同时也开辟了使用 LLM 或 VLM 的可能性，可以自由地为文本或图像分配标签，而不受限于预先存在的结构，从而为可扩展且改进的搜索方法提供了新的选项。

我怀着最好的祝愿将这个算法开放给全世界，并希望它能够被充分利用。

广西壮族自治区网站建设_网站建设公司_阿里云_seo优化

语义标签过滤

如何利用语义相似度改进标签过滤

传统的标签搜索是如何工作的？

我们能做得更好吗？

引入语义标签搜索

1. 提取标签关系

a. 使用米开朗基罗相似度构建共现矩阵

b. 使用预训练神经网络

2. 编码查询和样本

编码样本

编码查询：协变量编码

加权搜索

3. 使用向量检索执行语义标签搜索

4. 验证

结论

热门文章

文章分类

标签云

需要专业的网站建设服务？

广西壮族自治区网站建设_网站建设公司_阿里云_seo优化

语义标签过滤

如何利用语义相似度改进标签过滤

热门文章

文章分类

标签云

相关文章

2026年抖音推广公司推荐：聚焦高客单价行业获客的3家专业服务商盘点。 - 十大品牌推荐

Unity游戏语言障碍终结者：XUnity自动翻译技术深度解析

XUnity自动翻译插件：零门槛游戏翻译革命

需要专业的网站建设服务？