今天分享的论文是关于利用附近商业搜索服务进行违禁药物推广的一项研究工作,由来自印第安纳大学布卢明顿分校的研究人员完成。附近商业搜索服务指根据用户的搜索条目,向用户展示附近一定范围内的相关商家搜索结果。论文通过研究三种类型的附近商业搜索服务(浏览器搜索、地图搜索及语音搜索),揭示了非法推广者可利用附近商业搜索服务提供商(如Google、Bing等)收集数据过程中的脆弱环节,注入违禁药物推广数据,以达到非法推广的目的。论文对这种新出现的非法推广活动的整体生态系统及其安全影响进行了全面分析。论文发表于网络安全领域顶级会议NDSS 2022(录用率 :16.2%)。

【背景介绍】

附近商业列表推荐服务可以根据用户的搜索条目,自动化地向用户推荐与搜索条目相关的附近商店,这种推荐服务已经广泛被搜索引擎(如Google,Bing)和附近商业门户(如Yelp,Yellowpages)部署和应用。基于附近商业列表推荐服务,用户可以通过搜索引擎、地图搜索以及语音搜索获取附近商家的信息。图表1为百度搜索引擎提供的附近商业列表推荐服务示例。

图表1 百度提供的附近商业搜索服务示例

附近商业列表推荐服务的数据基础是各个商家的结构化信息,如商家名称、地址、电话号码等。如图表2所示,在附近商业搜索服务的生态系统中,附近商业数据经销商(Local data brokers)可以直接收集商家数据,也可以通过附近商家代理(Local listing agents)间接从商家所有者(Business owners)收集商家的数据。基于收集到的商家数据,附近商业数据经销商会进行数据清洗、去重、正确性验证等操作,最终转换为结构化的数据出售给搜索引擎等附近商业搜索服务提供商。

图表2 附近商业搜索服务生态系统

此论文发现附近商业搜索服务会被非法推广者滥用,以进行违禁药物推广。如图表3所示,在谷歌地图上搜索“where to buy research chemicals(一种违禁药品的黑话表达)”,搜索引擎返回的是一个在线药店商家,然而,该商家却出售数十种违禁成瘾药物。与此前工作研究的通过匿名市场和SEO(Search Engine Optimization)进行违禁药物推广[1,2]不同,附近商业搜索服务是一种全新的非法推广途径。论文定义这种通过附近商业搜索服务进行违禁药物非法推广的附近商业列表为 IDLL(Illicit Drug Local List),并对其展开系统研究,主要关注两个问题:

1. 如何在附近商业列表中检测出IDLL?

2. IDLL的生态系统和安全影响是怎样的?

图表3:附近商业搜索推广非法药品的示例

【检测方法】

为了全面、系统地理解 IDLL,论文设计了一套分析方法,整体流程如图表4所示,包括如下3个步骤。

图表4 针对 IDLL 的整体分析流程

步骤1:数据收集

论文根据美国国家药物滥用研究所 (NIDA) [3] 和药物管制局 (DEA)[4] 报告的常见违禁药物,选取种子关键词,总共收集了1,850个,包括759个药物名称以及1,091个药物黑话。针对这些种子关键词,论文在8个主要的附近商业列表数据经销商(Factual, Foursquare等)上进行搜索,总共收集到94,856个药物相关的附近商业列表,作为基础数据集。为了获得Ground-truth数据集,两位研究者手工标记了部分数据,共获得1,718个IDLL黑样本,以及5,105个推销正常药品的附近商业列表白样本。

步骤2:检测 IDLL

为有效检测 IDLL,论文设计并实现了IDLLSpread系统,可以从已知的IDLL发现未知的IDLL。研究人员发现,非法推广者为了进行推广,会向数据经销商提供虚假构造的商家信息,商家名称和店铺描述可能不同,但为了与客户联系以进行后续交易,非法推广者一般会使用相同联系信息(如电话号码、网站链接、商家地址等)。根据这个发现,论文认为,与已经确定的IDLL具有相同联系信息的附近商业列表大概率也是IDLL。

因此,论文基于图挖掘算法,设计并实现了针对IDLL的检测系统,IDLLSpread。如图表5所示,IDLLSpread以附近商家列表作为节点,将商家的关联信息为边构建无向加权图。其中,关联关系分为两种:1)联系信息(如商家地址、电话号码、网站链接),作者认为这种属于强关联关系,会赋予与其相关的边较高的权重;2)药品术语(大麻等)、推销术语(购买、比特币等)属于弱关联关系,表示类似的商品种类和推销行为,因此被赋予较低的边权重。基于该无向加权图,IDLLSpread可以快速从已知的IDLL检测未知的IDLL。

图表5 无向加权图示例

论文在Ground-truth数据集上对IDLLSpread进行了验证,发现IDLLSpread的检测非常有效,可以达到96.56%的精度和92.66%的召回率,并最终在94,856个附近商业列表中检测出了3,571个IDLL(包括Ground-truth数据集中标注的1,718个)。为使检测结果更加全面,作者借助 Yext.com [6](一款附近商家列表扫描工具)构建了扩展数据集。具体来说,作者根据已经发现的IDLL的商家名称、地址和电话号码,利用Yext.com扫描51个数据经销商的附近商业列表数据库、获得相关的附近商业列表。最终,论文基于Ground-truth数据集中检测到的3,571个IDLL,在扩展数据集上总共检测出32,520个IDLL。

步骤3:评估 IDLL 的现实影响

为了研究IDLL对附近商业搜索服务提供商查询结果的影响,论文提出了四种根据药物种子关键词自动生成附近商业搜索查询的方法,分别是搜索引擎自动补全、关键词工具TextOptimizer(根据关键词生成待检索的问题)[8]、搜索引擎返回的相关问题以及在待检索的问题后附加地区。此论文研究了搜索引擎、地图搜索和语音搜索三种场景下受IDLL影响的查询数量以及查询结果中出现IDLL的比例,评估了IDLL 的现实影响。

【主要发现】

论文对检测到的IDLL展开全面分析,主要包括IDLL整体生态系统及其安全影响,并基于研究发现提供了一些缓解建议。主要内容介绍如下。

IDLL 的整体生态系统

在收集到的附近商业列表(来自于8个数据经销商)中,有3.76%的附近商业列表被确认为是IDLL。如图表6所示,一些知名的数据经销商公司受影响严重,比如Infogroup、Manta和Yelp,这也说明IDLL是一个非常值得关注的安全问题。

      图表6 IDLL在不同数据经销商的分布

其次,论文进行了细粒度的团伙分析。作者将共享强关联关系中的电话号码或者网站链接的IDLL聚类为一个团伙,最终得到1,614个团伙和1,463个孤立节点。其中,有15个IDLL团伙的规模超过100个IDLL,最大的团伙包含962个IDLL。通过对聚类得到的IDLL团伙进行分析,发现如下团伙特征:

  • 为了在更大的区域范围内吸引买家,同一个团伙中的IDLL倾向于使用多个虚假的商家地址信息;

  • 为了确保受害者可以联系到IDLL非法推广者,以进行后续的交易行为,同一个 IDLL 团伙会维护相同的联系信息,尤其是网站链接和电话号码,其中80.55%的团伙只使用了一个电话号码作为其联系方式。

    论文也对 IDLL 的推广策略进行了分析,发现非法推广者会采取多种策略提升推广成效,主要发现了四种推广方式:附近商业列表钓鱼;直接使用问题作为商家名称;滥用多个位置信息;使用多个药品关键词进行填充。有意思的是,一些非法推广者会使用与正规商家相同的店铺地址和类似的网站域名来进行钓鱼,以欺骗用户。同时,一些非法推广者为了在更广的地理区域范围内进行非法药品推广,会在店铺名称或者描述中滥用多个地区的名称,如一个IDLL的商家名称为“Buy Marijuana Online USA, Buy Weed Online UK, Buy Marijuana Online Australia. ” 。

    IDLL 的安全影响

    首先,论文发现附近商家列表的收集过程缺乏内容合法性审查,存在安全风险。具体来说,作者通过调研两家受欢迎的附近商家代理(BrightLocal和MozLocal)的数据收集策略,发现这两家代理商在数据收集的过程中,仅关注附近商业列表数据的正确性和完整性,而不进行内容合法性的审查。同时,数据经销商会完全信任商家代理提供的数据,而不做进一步的检查。论文认为,商家代理和数据经销商在内容合法性审查上的缺失是IDLL产生的直接原因。

    其次,论文也分析了 IDLL 对附近商业搜索服务的安全影响。为了研究IDLL对附近商业搜索的污染程度,作者通过前文提到的根据关键词自动生成待检索问题的方式,生成了8,546个非法药品相关的附近商业搜索查询请求,分别在浏览器搜索、地图搜索和语音搜索中,检查在Ground-truth数据集中发现的3,571个IDLL在检索结果中出现的次数以及受影响的查询个数。图表7显示了通过不同的搜索渠道进行查询的结果,其中语音搜索受到IDLL污染的情况最为严重,而在Apple、Bing和Google三家附近搜索服务提供商中,Google是最严重的受害者。

    图表7 通过不同搜索渠道进行查询,发现 IDLL 的结果

    针对 IDLL 的缓解措施

    为了缓解乃至消除IDLL的影响,作者建议附近商家代理和数据经销商对收集的数据进行更加严格的内容合法性审查。同时,搜索引擎等附近商业搜索服务提供商也要对来自第三方的商家列表进行内容审查,并尽力消除已经存在的IDLL带来的影响。

    【结论】

    非法推广者可以利用上游数据经销商在数据审查上的缺失,注入非法附近商业列表数据,从而进行违禁药物推广,论文将推广违禁药物的附近商业列表定义为 IDLL(Illicit Drug Local List),并首次对此类恶意行为展开系统研究。根据对IDLL的分析,论文提出了基于图挖掘算法的检测方法IDLLSpread,可以有效检测IDLL。基于检测结果,论文从整体生态系统、IDLL团伙以及推广策略等角度对IDLL进行了全面、系统的分析,披露了IDLL对附近商业搜索服务提供商的安全影响,并提出了一系列针对IDLL的缓解措施。

    原文链接:

    https://www.ndss-symposium.org/wp-content/uploads/2022-284-paper.pdf

    IDLL开源数据集:

    https://sites.google.com/view/idlls

    参考文献

    [1]N. Christin, “Traveling the silk road: A measurement analysis of a large anonymous online marketplace,” in Proceedings of the 22nd international conference on World Wide Web, 2013, pp. 213–224.

    [2]N. Leontiadis, T. Moore, and N. Christin, “Measuring and analyzing search-redirection attacks in the illicit online prescription drug trade.” in USENIX Security Symposium, vol. 11, 2011.

    [3]“Dea drug slang term and code words,” https://www.dea.gov/ documents/2018/07/01/2018-slang-terms-and-code-words, 2018.

    [4]“Commonly used drugs charts,” https://www.drugabuse.gov/drugtopics/commonly-used-drugs-charts/, 2020.

    [5]D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Sch¨olkopf,“Learning with local and global consistency,” in Advances in neural information processing systems, 2004, pp. 321–328.

    [6]“Yext listings scan,” https://www.yext.com/pl/powerlistings/scan.html.

    [7]“Jaro–winkler distance - wikipedia,” https://en.wikipedia.org/wiki/JaroWinkler distance. “Jaro–winkler dista.

    [8]“Textoptimizer,” https://textoptimizer.com, 2020.

    李岩,编辑&审校|刘明烜、张一铭、刘保君

    声明:本文来自NISL实验室,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。