Bag of Words
Bag of Words
词袋模型最早用于文本检索,把一篇文章看作“词”的集合,忽略顺序,只统计每个词出现的频率
在回环检测中,词袋模型的本质是 用“视觉单词”替代原始特征点,将图像转化为稀疏向量进行快速检索,再结合几何验证确保准确性
在图像中,“词” 对应的是 视觉单词(Visual Words),由局部特征(如ORB、BRIEF、SIFT等)聚类得到
每张图像就可以用一个 视觉单词直方图 表示,方便快速比较相似度
流程
-
特征提取与描述: 从图像中提取局部特征点(如 ORB 特征)、用二进制描述子(如 BRIEF/ORB)表示特征,便于快速匹配(汉明距离)
-
视觉词典构建(离线):从大量训练图像中提取特征,用 K-means 或 K叉树分层聚类 生成固定数量的视觉单词(如 10^4 个),每个叶子节点就是一个视觉单词
-
图像向量化(在线):将当前图像的特征映射到词典中的单词,统计每个单词的出现次数(TF)并结合逆文档频率(IDF)计算权重得到加权的词袋向量:
-
相似度计算:用 L1/L2 距离、余弦相似度等方法比较两张图像的词袋向量,得分高的候选帧进入下一步验证
-
候选验证:时间一致性检查:避免短时间内重复检测同一位置;几何一致性检查:用特征匹配+RANSAC验证空间几何关系,防止误检