爬虫本无罪,幕后英雄却秒变阶下囚

​前言:

网络爬虫源于上个世纪90年代的Google等搜索引擎,爬虫用于抓取互联网上的Web页面,再由搜索引擎进行索引和存储,从而为我们提供检索服务。网络爬虫位于搜索引擎的后台,并未直接与用户接触,属于幕后技术,因此爬虫一直属于互联网发展的幕后英雄


但是最近发生的一些事件,把爬虫技术推向风口浪尖:

  • 爬虫发家的巧达科技,号称是中国最大的用户画像关键数据服务提供商,整个公司200多人被抓,包括开发爬虫代码的程序员小哥哥。
  • 知名第三方数据服务公司,“爬虫一哥”聚信立宣布将暂停对外提供用户授权的运营商爬虫服务。
  • 国内大数据风控平台龙头同盾科技也被曝爬虫部门已解散。


还有天翼征信传出风声,其总经理、副总经理以及市场人员被警察带走;新颜科技CEO黄向前被警方带走;魔蝎科技公司CEO周江翔涉事被查、公信宝公司门口被贴了封条……原因都与爬虫数据相关,幕后英雄秒变阶下囚。

目录



  • 什么是网络爬虫技术
  • 爬虫乱象
  • 如何界定非法爬虫
  • 整个行业影响
  • 小维洞见
  • 结语

1. 什么是网络爬虫技术

根据百度百科定义:网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

简单的来说,随着互联网的飞速发展,已经进入了信息大爆炸时代。通过一般的技术或者手段,无法分检出对你真实有价值的信息。于是,爬虫诞生了,帮你在海量的信息流中,找到你想要的信息。

2. 爬虫乱象

爬简历

根据公开数据显示:巧达科技旗下有38个B端招聘产品、超过170万招聘者用户,巧达科技数据库有2.2亿自然人的简历、简历累计总数37亿份。

爬通讯录

此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。

爬运营商

爬界“大哥”聚信立最火的一款产品就是爬取客户运营商数据。用户通常在借现金贷的时候,通常需要输入服务密码或者验证码,然后爬取用户通话记录等作为催收数据。

爬电商

还有就是爬取电商数据,只要用户输入你的京东登录账号密码,那么爬虫数据就可以爬取历史购物记录,交易金额以及收获地址等信息。当然,大型电商一般拥有反爬虫机制,所以通常这个接口不太稳定。

爬社交

微信爬虫则可以获取用户联系人、关注的公众号、自己是群主的群、交易记录、绑定的手机号码等信息。不过需要用户微信上多次确认,需要用户强授权。

爬爬爬

除了爬简历、爬电商、爬通讯录、爬社交之外,还有爬公开政府数据、爬用户出行数据、爬舆情数据等等……似乎,所谓的大数据行业门槛变得很低,核心竞争力就是爬虫,看谁爬得好,数据清洗的好,就可以作为数据贩卖了……

3. 如何界定非法爬虫

首先,在爬取数据之前是否征得用户同意,并显示的告知客户爬取的数据内容包含哪些,并且告知用户数据的用途。

其次,如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、交易记录等个人信息。数据是否妥善保管,或者数据定期清理,并不得用户出售个人信息。

根据相关规定,对于违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,窃取或者以其他方法非法获取公民个人信息的,均可构成成“侵犯公民个人信息罪”,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

4. 整个行业影响

本次整顿行动,可以看得出来监管部门、公安部门是下决心了的。不管你是行业龙头还是小弟,一个都不放过,只要涉嫌违法使用数据就查处。对于整个大数据风控行业来说,将会是一个颠覆式的变革。

作为第三方的大数据风控平台,未来可能转型以数据清洗、风控策略为主。而主要的第三方数据来源,将由唯一的个人征信牌照持有者“百行征信”提供。一些本身拥有数据源的企业,例如芝麻信用等,将会站在百行征信背后提供相应的服务。

5. 小维洞见

早在2015年1月,央行曾通知这八家公司做好经营个人征信业务的准备。当时更有媒体喊出口 “一个新的万亿市场大门被打开” 。如今,被浮躁的资本市场,狠狠的又把这扇门给关上了。从执法力度来看,有关部门已经把锁都准备好了……

6. 结语

随着人类社会文明的更加发展,我们肯定会越来越注重个人隐私,注重知识产权。对于那些企图使用爬虫走捷径,并非法牟利的人来说,一定不会有好下场的。

各位亲们,请动动手指关注下哦,同名公众号《升维洞察》将有第一手信息。谢谢~



举报
评论 0