来看看12306泄露的用户数据

昨天来自乌云网的一条关于12306用户数据泄露的消息被到处转载,迅速传播。据说大量用户登录导致12306第一次并非因为抢票而瘫痪。跟很多人一样,我因为懒惰和记忆力差,所以喜欢在各各网站用同样的密码。这样做最大的危险是,一旦某一个网站因为安全漏洞泄露了密码,那么拿到密码的人可以用同样的密码去猜你在其它网站的密码,一猜一个准。所以像昨天这样的事件发生以后,登录12306改密码其实是无济于事的,你得把所有跟12306用了同样密码的地方全改掉—-要一下子想起所有注册过的网站,好难啊。

所幸后来又有消息说,昨天只泄露了很小一部分的密码,不到14W。12306网站声明称,密码并不是从12306内部数据库泄露出来的。从泄露密码的数量来推测,我是比较相信这一说法的,如果是12306数据库泄露出来,那么就远不止这个数目了。我们就姑且相信12306真的没有用明文存密码吧……如果泄露不是来自于12306,那最可能的途径就是大家抢票用的各种抢票软件了。用过的人都知道,抢票的时候要把各种信息都输入在抢票软件里边的。抢票软件花样繁多,来路繁多,万一用了恶意的或者愚蠢的抢票软件,那密码被偷去是易如反掌的事情了。

我每年抢票的时候也都用了一些猎豹,360之类的抢票软件。所以赶快去搞了一份泄露的用户数据来看看自己有没有中招–所幸没有。庆幸之余,也正好看看这份包含13w+用户数据的文件,分享一些有意思的东西。

首先说明一下,根据我看到的这份数据,我怀疑数据的来源是有一定倾向性的。换句话说,这份数据可能代表了某一类人群,放大到所有互联网用户上可能并不准确。

1. 密码的长度
大家都知道密码越长越安全,因为如果黑客用计算机破解密码的话,越长的密码需要花越多的时间。当然越长的密码也越容易忘记—-所以很多人像我一样,都喜欢偷懒不用太长的密码。
从这13w+个数据中可以看出,绝大多数人的密码在6到10个字符之间,用8个字符的是最多的。所以为了增加你密码的安全性,建议使用11个或12个字符的密码,这样你已经比绝大多数人的密码都复杂了,而且也不用花太多精力,只需要多记忆一两个字符。
PWD_Length

2. 密码的复杂程度
通常来说,混合了数字,字母和特殊字符的密码比较安全。大多数人喜欢用字母和数字作为组合,用特殊字符的人就很少了。这份数据里边只有1%的人在密码里使用了特殊字符,其他的都只包含数字和字母。
所以如果你想自己的密码比大多数人更安全一些,另一个选项就是使用特殊字符,随便在密码中间嵌入一个特殊字符就安全很多了。
PS:刚刚经人提醒,12306网站上居然只允许用字母,数字,下划线做密码,真是狗日的啊
SimplePWD

退一步来说,我们把大写字母也当做一种特殊字符,来看看多少人的密码里仅仅使用了数字和小写字母—-98%。如果你的字母里用了大写字母,恭喜你,你已经属于仅有的2%了。
SimplePWD2

除此之外,这些密码里边常见的模式还有:
姓名缩写和生日的各种组合
手机号码的某些位
qq+几位数字(这种一看就知道也是qq密码,我就不去试了)
123456abc
键盘上的一些位置比如123zxc

看完了密码,我们再来看看用户的情况。

3. 注册邮箱
关于注册邮箱使用的分布我觉得特别有意思:用qq和163邮箱注册的用户占了这13w+人的绝大多数。而我以为非常流行的Gamil, Hotmail和Yahoo邮箱分别都只有一千多。我个人作为gmail和Hotmail用户,在这里边属于绝对的少数派了。关于这一点我有两种猜测:

  1. qq和163邮箱用户确实占了中国互联网用户的绝大多数。首先qq用户群是无与伦比的主流,而每个qq用户只要知道自己的qq号(废话)就自然记住了邮箱,比起要去单独注册一个邮箱容易的多;而网易邮箱只少在当年Gmail出来之前也是非常有人气的。看来用Gmai和Hotmail的所谓互联网从业人员们,已经离主流太远,太不接地气了
  2. 还有一种可能是,密码被泄露的这些人大多时候qq和163用户。比如qq和163的用户更可能用到某公司的抢票软件?

EmailServer

4. 年龄分布
从用户的年龄来看,绝大多数是80后,90年代初和70年代末的人群次之。这个应该比较好理解,需要抢火车票的更多是正在社会上挣扎的80后们。年纪再大点的人已经有老有小,生活相对稳定,不再需要太多漂泊;而90后尤其是95后基本上还在家和学校。
Age

另一个有意思的是,还看到一些早到1920年,晚到2014年的身份证号。对1920年这样的身份证号,我猜测可能是某些人用家里老人的号码注册了买票,2014年的身份证号就不明白了,难道不是16岁才有身份证号吗?

5. 性别分布
泄露数据的用户93%是男性,女性只占7%。我不太相信中国抢购车票的男女比例是93:7 —- 如果这样的话说明有很多男性在帮女的抢车票:) 更可能的原因是男性用户占到了抢票软件使用者的绝大多数,因此中招的也更多。作为抢票软件的作者们,你们应该反思一下为什么自己做的软件那么复杂,女性用户都不能使用了:)
Gender

6. 星座分布
除此之外,还想看另外一些好玩的数据,比如他们的地域分布,星座分布。地域分布根据身份证号逐个确定省市有点麻烦懒得弄了;这里姑且看一个简单版的星座分布(只看月份,不看二十三四号切)。
我相信这接近于中国年轻人在各星座上数量的比例,而不太相信某个星座在抢火车票这件事情上会有某种特别的行为。
constellation

《来看看12306泄露的用户数据》有3个想法

回复 Sumhat 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注