基于视觉大模型的图像地理定位

工作来源

PETS 2025

工作背景

在 OSINT 开源情报分析领域，通过图片来确定拍摄位置一直是一项高级技能。那么多模态的视觉大语言模型，可不可以基于已有的知识实现这一判断呢？将图片的元数据（EXIF 的 GPS 坐标等）剥离，仍可以通过图片本身的内容来判断地理与时间细节。

工作准备

模型准备：挑选了过去三年内最前沿的模型，包括传统视觉模型（StreetClip, GeoClip）、开源 LVLM（LLaVA）、闭源商业巨头（GPT-4o）以及专用的商业定位工具（GeoSpy）。

图片准备：现有数据集（Im2GPS, YFCC26k 等）中有很多图片不适合该场景使用，研究人员构建了一个 5 万张图片的全新数据集。数据集以国家领土面积作为权重，从 Google Street View 进行全球随机采样，确保非洲、南美等常被忽视的地区也能被覆盖。利用 GPT-4o 对每一张抓取的图像生成描述，通过关键词过滤掉所有“室内”、“严重遮挡”、“无特征（如纯天空/纯地面）”的无效图片。最后还引入了人类专家进行 1000 张图像的抽样双盲验证（Kappa 一致性高达 0.82）。

工作设计

原生 LVLM 具备一定的识别能力，但往往极度依赖“标志性建筑”，在面对普通街景时表现不佳。

为了探究 LVLM 攻击的“破坏力上限”，研究人员提出了一个增强型攻击框架ETHAN。其核心有两大技术：

基于领域数据的微调：使用 GEOLOCATIONHUB 中 3 万张带有详细地理描述的图像对 LVLM 进行有监督微调，使其真正具备处理全球街景特征的底层视觉直觉。

“专家”级思维链提示工程：研究人员深入分析了 GeoGuessr（著名地理盲猜游戏）人类顶级玩家的思维模式，并将其固化为一段结构化的思维链提示词。ETHAN 强制要求大模型在给出最终经纬度之前，必须按顺序从以下四个维度进行分析：

① 基础设施：分析道路标线颜色、路标语言/形状、电线杆样式和车牌特征；

② 自然元素：分析土壤颜色、植被类型（温带树木还是热带棕榈）、地形地貌（高山、海岸、沙漠）；

③ 车辆分析：分析常见车型、方向盘位置，甚至涉水喉（说明多雨涝）和生锈模式（说明沿海高盐）；

④ 文化指标：分析建筑材料、店铺招牌、路人服饰和涂鸦风格。

工作评估

超越他人的准确度：在 GEOLOCATIONHUB 的 2 万张图片测试数据集上，ETHAN 在最严格的街道级（1公里以内）精度上达到了 28.7%，超过了商业专有工具 GeoSpy 的 26.5% 和 GPT-4o 的 23.2%。在城市级（25公里）达到 59.2%，国家级达到 95.6%，大洲级高达 99.3%。

人机大战（GeoGuessr 游戏）：研究人员编写脚本让 ETHAN 直接接入 GeoGuessr 游戏平台，与全球真实玩家进行了 41 轮随机匹配对战。结果 ETHAN 取得了 4550.5 分的平均分（人类平均仅 4120.3），胜率高达 85.4%。在一次挪威偏远村庄的测试中，ETHAN 仅通过屋顶建筑风格和路标排版，将误差锁定在 2 公里以内，而人类对手偏差了 5 公里。

不足与局限：在极度低能见度（大雾、黑夜）、缺乏特征的沙漠荒原，以及高度同质化的现代城市住宅区，ETHAN 依然会发生严重的误判。

工作思考

通过游戏的 PK 测试，说明 ETHAN 具备真实环境下的动态对抗能力。其一公里的定位精度也十分恐怖，将目标锁定在 1 公里范围内，基本上就意味着攻击者可以通过无人机、摄像头或线下踩点轻易完成最后的“收网”了。

过去的时代，大家常常认为随便一拍的照片怎么会有人能认得出来是哪里，即使有能认出来的人也不会针对我。在大模型时代，看着差不多的照片也能分辨出大概的位置，想保持隐身变得不容易。该技术被用于监控和跟踪会很令人担忧，间谍可以执行定向的暗杀，私生饭可以追踪明星的住宅地址。当然，科技向善，警方也可以利用它快速定位绑架等恶性犯罪受害者的大概位置。

根据 GDPR 第 9 条和欧盟《人工智能法案》，此类能够从图像中推断出敏感个人位置的 AI 系统，极有可能被归类为高风险应用，存在较大合规与隐私风险。有一些潜在的防御策略：① 在 LVLM 训练阶段引入差分隐私或选择性特征抑制，让模型“故意遗忘”特定的地理敏感特征；② 社交媒体平台（如微信、Twitter）在用户上传图像时，实时运行后台过滤，对高风险的建筑立面或路标进行自动模糊处理；③ 给图像添加人眼不可见的微小对抗噪声（如使用 SGA 技术扰乱模型的 CoT 注意力机制），可以让模型将美国的自由女神像误认为是法国的埃菲尔铁塔，使得大模型的国家级定位准确率从 78.6% 暴跌至 3.4%。

声明：本文来自威胁棱镜，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

基于视觉大模型的图像地理定位

Agent安全四组件框架：本质不是危险内容，而是上下文授权

AI私人助手会被偷偷篡改记忆：揭秘隐形内存注入攻击

单个协议都没错，Agent组合后却越权：形式化分析揭示30个跨协议安全失败