AI最前线：基于回声定位的人类活动识别系统

选自SingularityHub，作者：Shelly Fan

机器之心编译参与：韩放、一鸣

随着监控系统在日常生活中的普及，公众对个人隐私安全的担忧也日渐增长。近日，来自武汉理工大学的博士 Guo Xinhua 和团队开发了一个监控系统，仅根据回声定位原理监测人类活动，而不依赖任何个人信息。作者认为，这一系统可以减少监控摄像头的使用，并在智能家居监控、火灾预防和救援、病人管理等方面得到广泛应用。

如果一个监控系统不用视频也可以观察，不获取声音也可以监听，你会同意被监控吗？

如果你的本能反应是：「不！」然后突然迟疑，「哈？这可能吗？」我的反应也和你一样。在 Applied Physics Letters 的新论文《A single feature for human activity recognition using two-dimensional acoustic array》中，一个中国团队正致力于通过回声定位的计算机系统来达到隐私和安全的复杂平衡。通过训练人工智能来筛选来自声学传感器阵列的信号，系统可以逐渐学会只使用超声波来分析你的动作，不论是站着、坐着还是摔倒。

在武汉理工大学研究作者 Guo Xinhua 博士的研究中，该系统可能比安全摄像头更适合倡导尊重隐私的人们。因为它依赖于超声波——蝙蝠用来在黑暗空间中导航的那种——它不会捕捉视频或音频。它只会跟踪你的身体位置，但不是你本身。

一组声波发射器和接收器（绿色芯片）用来收集超声波，教 AI 检测人体运动。图片来源：Guo Xinhua。

当该系统进一步小型化时，可以帮助看护人监控独居老人是否在家中跌倒，或者跟踪医院房间内的患者以确保安全。它甚至可以安装在公共区域的火车、Ubers、图书馆、公园浴室，以防暴力或性骚扰，或者替换掉 AirBnB 家庭中的摄像机，以兼顾保护财产和客人的隐私。

因为系统只检测身体的运动，所以不需要人脸识别或者任何认证，它只基于记录。系统甚至不会生成像斑点一样的身体形状。这使美国机场相机屏幕看起来更体面（而不是暴露旅客的身体隐私）。它在的确是在监控，但是有一层薄薄的隐私，类似于在网上留下半匿名的评论。

如果你持怀疑态度，我也是。旧金山最近禁止了面部识别技术，纽约很快就会遵循更严格的监控规则。但在安全摄像头成千上万，隐私不一定是一项基本权利的国家里，一个回声定位监控系统可能会更好地安抚那些因为行为被监视和记录而感觉不舒服的人们。

「保护隐私不受监控摄像头入侵已成为全球关注的问题。我们希望未来这项技术可以帮助减少相机的使用」Guo 说。

论文地址：https://aip.scitation.org/doi/abs/10.1063/1.5096572

它是如何工作的？

研究小组从蝙蝠和其他使用回声定位作为主要导航工具的动物身上得到了提示。

要进行回声定位，主要需要两种类型的硬件：一种是传感器（如麦克风），用于发射超声波以从表面反弹，另一种是接收器用于收集反射波。据 Guo 说，之前的尝试中，他们通常只使用一个麦克风和少量的传感器进行回声定位。有效，但不高效，像是残疾的蝙蝠。

作者说，「识别的准确度不太高」，大约为 90%。如果一个系统要像摄像机一样工作，其精度需要接近完美。

该团队在三维空间中设置了四个发射器，每个发射器以 40kHz 的频率发射声波。这个频率大约比健康年轻人最高听力高两倍。为了捕捉反弹波，他们使用了 256 个声波阵列，完美地排列在一个 16×16 网格的平面上。发送器和接收器物理设备位于一个类似于芯片的结构上，视觉上类似于圆形的种子点缀在绿色的莲蓬上。

每次一个志愿者站着、坐着、摔倒或走在阵列前面时，接收器都会扫描一排反射声波。总之，团队有四个不同身高和体重的人参与实验，使得系统能够更好地将特定的数据模式泛化为一种运动，而不是一个特定的人。

最精妙的部分是，为了在计算机中模拟蝙蝠大脑的处理，研究小组使用了一个卷积神经网络（CNN），当前许多计算机视觉系统中都在使用它。研究团队设计了一种算法，首先预处理所有的回声定位数据，以去除传感器目标 40kHz 以外接收到的任何噪声，上下最多浮动 5kHz。

然后，该算法对收集到的数据进行分析，找出运动模式。这类似于脑机接口在神经电信号中发现肌肉意向的方式。例如，坐着时反射的声波模式与站着或摔倒时略有不同。与其他深度神经网络相似，该算法无法解释每个身体位置在回声定位方面的差异，但是声学指纹已经足够清晰，使得算法在 97.5% 的情况下都可以成功地解析四种测试行为。

一般来说，该算法似乎可以更好地识别静态活动，如坐和站，而不是运动。作者解释说，这是意料之中的，因为摔倒和走路引入了人在移动方式上的个体差异，使计算机很难计算出一种通用的声学模式。

老大哥来了?

Guo 的研究进一步拓展了一个相对较新的领域，即人类活动识别。在领域中，计算机仅根据传感器数据来预测人的运动。这听起来可能非常「老大哥」，但是任何拥有 Fitbit、Apple Watch 或其他活动追踪器的人都已经从人类活动识别中获益了。例如，你的智能手表使用嵌入式陀螺仪计算你的步数。该领域还包括视频监控，例如计算机根据图像或视频中的像素来确定一个人在做什么。你有 Kinect 吗？这个漂亮的盒子使用红外线、摄像机和深度传感器来识别你在游戏中的动作。

作者解释说：「人类活动识别被广泛应用于许多领域，如智能家居的监控、火灾探测和救援、医院病人管理等。」

随着传感器变得越来越轻，这项技术的应用范围会越来越扩大。2017 年，一个中美合作组织发现，仅仅依靠人们周围的 WiFi 就可以跟踪他们的运动。这样的系统仍然太大，不能完全便携化移动，但硬件小型化在未来几乎不可避免。

并非所有人都反对加强监控。特别是护理者可能会欣赏这种技术，用于提醒他们注意老年人摔倒，摔倒对年轻人无害但对超过一定年龄的人可能会致命。作者设想了一个完全自动化的系统，在这个系统中，摔倒行为发生时会自动向多个救助方报警，而不必泄露伤者在跌倒前正在做什么。

但撇开善意不谈，Guo 的系统有被滥用的可能。与面部识别形成鲜明对比的是，到目前为止，围绕在人类活动跟踪的隐私问题上，相关的讨论还很少。据来自纽约数据与社会智库的技术伦理学家 Jake Metcalf 称，这种系统可以很容易地重新调整用途，以监听人们的私人生活，或者与现有技术结合，以进一步增加监测覆盖范围。

目前，Guo 的团队不愿介入隐私问题。相反，他的团队希望进一步调整系统，以适应更复杂的活动和「随机」的情况，比如可能是一个人在闲逛的场景。

「我们知道，人的活动是复杂的。以摔倒为例，人们可能以各种姿势摔倒。我们希望收集更多的摔倒行为数据集，以达到更高的准确性」他说。

声明：本文来自机器之心，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

AI最前线：基于回声定位的人类活动识别系统

战胜Mythos 5，OpenAI安全专用GPT-5.5-Cyber完全体来了

GPT-5.6首批实测公布，精准狙击Mythos

ChatGPT正在生成一些非常诡异的图片