0x01. 黑产业检测科研介绍
黑产业介绍
平常归类:
金融欺诈(如:电信诈骗)
贩卖服务,贩卖工具(如:为犯罪集团供给服务和工具研发等)
违法交易(如:非开源数据、违禁品等)
特点:
规模庞大,影响卑劣,行踪隐蔽。
据某2018年的科研报告表示,2017年我国黑产从业人员超过150万人(算是有些正好擦边的从业者,数量只会更加多),年产值达千亿级别。
黑产展现形式
Promotion Attack:攻击者利用网站的弱点注入违法宣传内容的攻击。(平常的例如高权重网站的留言板、search等)
应对思路:经过批量扫描网页页面,识别域名与内容是不是存在不一致,以跟踪攻击者。
BulletProof Hosting(BPH):简叫作“防弹主机”服务,为犯罪份子供给了可抵抗违法活动投诉的技术基本架构。
例如供给黑产网站域名和主机服务,使其能绕过运营商的限制,发送垃圾邮件和垃圾信息,或组建钓鱼网站、组件僵尸网络等。(当然,我国由于有备案制度限制,因此在国内发布垃圾信息的黑产网站基本溯源后IP都分布在境外或国内某地区)
应对思路:提取BPH的动态特征,进行特征提取。
Black Hat seo:黒帽搜索引擎优化,这个是最广为人知的黑产形式之一。平常技术有:隐形文本链接,关键词填充,链接工厂,webshell挂暗链等。
相对较新的黑帽优化手段是蜘蛛池(Spider Pool)(PS:其实亦流行好几年了)。
图上是搜索引擎蜘蛛进入网站后,网站持续动态生成一堆子域名和页面,让搜索引擎蜘蛛在站群中始终爬来爬去,没法绕出,以此加强目的页面的收录率和排名。
更通俗的解释是:蜘蛛池便是一堆由垃圾域名构成的站群,在每一个站点下都生成海量页面(抓一堆文本内容相互组合),页面模板与正常网页没多大区别。因为每一个站点都有海量的页面,因此全部站群的蜘蛛总抓取量亦是巨大的。给未收录的页面引蜘蛛,例如在站群正常网页的模板中单独开一个DIV,放上未收录网页的链接(可用程序掌控,已收录的链接就再也不展示于此,只持续堆积无收录的链接),服务器不设缓存,使得蜘蛛每次拜访这块DIV中展现的链接都是不同样的。
蜘蛛池给哪些未收录的页面,在短期内供给海量的真实的外链,是页面入口揭发多了,被抓取几率就增多,收录率自然会提高,又由于是外链,因此在排名上亦有必定的正向加分。
丝绸之路(Silk Road):和咱们历史课学的那个名词无任何关系。是一个在线鬼市网站,首个被世人所知的现代暗网市场,曾经是著名的违法交易平台,重点运用比特币进行交易(现已被FBI端掉)。
基于黑词进行交易:经过运用“黑词”(亦叫“黑话”)进行违法交易。例如贩卖枪支团伙在交易中通常叫作枪支为“狗”,叫作子弹为“狗粮”。加拿大某些人以“lemon”代指大麻。
什么是黑产词? 123“黑产词”是伴同黑产显现的制品同义词及违法制品本身的关键词的统叫作。违法商贩和买家经过协定新的词汇暗示一种制品,以此躲避监管。这些隐蔽的“黑产词”一般会扭曲常用词含义,引起“外行人”没法理解其背面的含义,上面举例的有些即是“黑产词”。
通常而言,在分析黑产交易过程中最大的困难是理解她们怎样交流。因此呢,相当多的黑词是“难发掘、难理解”的,毕竟针对黑产交易者来讲,识别度越低越安全。
例如: 1234球板 ball board -- 球类运动的职业签赌版,属于违法犯罪行径。出肉 cut meat -- 和drug相关咕噜咕噜 guruguru -- 和drug相关水烟壶 hookah -- 和drug相关
更加多内容可见黑产科研(地下产业科研)笔记
0x02.黑词挖掘——基于SEO
那样怎样捉捕黑产行踪呢?现今的有些设备学习技术能够供给不少帮忙。
黑产商人将商品页面交给黑帽SEO做优化,黑帽SEO对关键词做“优化”(谐音、长尾词等)后加强黑产制品页面和黑词排名。
倘若经过搜索能找到一小批黑词,就能以此挖掘更加多的黑词。
经过爬取页面数据清洗和识别(如:href锚链接的文本),利用NLP关联技术,整理出真正的黑词并进行归类和分级。
数据清洗思路:
合法的关键词常常会被黑词更长
搜索引擎会帮忙咱们标记恶意的页面
利用搜索引擎举荐的关联搜索词继续挖掘黑词
识别核心词语,并对类似的黑词进行聚类
运用NLP技术去掉无关词语,如停用词(指的是在信息检索中,为节省存储空间和加强搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被叫作为Stop Words,即停用词)、地点、无道理标点符号、虚词、emoji等。
找到一起的子串。
0x03.黑词检测——基于语义
部分词语在不消语境下有区别词义。如可乐在鬼市上可能代指“可卡因”,葡萄可能代指“大麻”,老鼠在黑客交易中代指“木马”。能够利用语境分析来进行识别。
如上图例子中,按照红框关键词和上下文语境,能够自然理解到rat在这儿不指的是老鼠,而指的是木马程序。
一个用于黑词识别分析的模型架构,运用多种词库,包括关系判断模型(因此需要运用设备学习的关联技术,这儿触及的内容无设备学习和自然语言处理基本的人理解起来还是比较困难的,意见认真阅读论文原文,最后的REF)。
拓展阅读
How to Learn Klingon without a Dictionary: Detection and Measurement of Black Keywords Used by the Underground Economy
Reading Thieves’ Cant: Automatically Identifying and Understanding Dark Jargons from Cybercrime Marketplaces 转载:https://blog.fullstackpentest.com/black-hat-seo-preliminary-study.html作者:黑帽SEO 欢迎大众去关注作者
欢迎师傅加入安全交流群(qq群:611901335),或后台回复加群
倘若想和我一块讨论,欢迎加入我的知识星球!!!
扫描下图加入freebuf知识大陆
师傅们点赞、转发、在看便是最大的支持
后台回复知识星球或知识大陆亦可获取加入链接(两个加其一就可)
|