寻找最污萌属性

几天前的一个下午,在刷萌娘百科的时候突然产生了一个想法,可以利用萌百的数据来找到最污的萌属性。

这么说你可能觉得我有点标题党的嫌疑,不急,我现在解释下我的想法:

关于萌百

萌百即萌娘百科,是一个类似于维基百科(实际上就是使用wiki引擎建设的)ACGN科普网站,在这里你可以学习到各种奇怪(污污)的次文化姿势,走入老司机的殿堂。

污污的,可爱的萌百

而萌百上给出了大量的、系统化分类的ACGN世界中常见的萌属性,于此同时萌百的一大被称之为污的特点就是其对某些敏感内容的隐藏方式,也就是黑幕。

萌百上的黑幕,当鼠标放在黑幕上时会出现“你知道的太多了”的提示

老司机们都知道解开黑幕的方法,就是用鼠标去划。

我好像看到了什么不该看的东西...

现在好解释了,我想做的就是统计出萌百上黑幕最多的萌属性!这样也就找出了最污的萌属性!是不是很有意思!?快说有意思!!!好吧确实挺标题党的(:3」∠)

问题分析与解决

不用多说这个思路很清晰,先用python写爬虫下载所有相关网页的html文档然后对其处理后进行统计即可,难度不大。经过一番分析随机开始了编码工作,由于之前写过爬虫,只需修改现有架构即可,从编写到调试整个过程还挺顺利的。编码细节不在这里细说了,已经托管到了github上了,可以来看,没写注释什么的不要吐槽了,我相信python的可读性。

结果

我分别计算了黑幕字数和黑幕/全文比的排序。部分结果如下:

黑幕字数前十

黑幕/全文 字数比前十

给出按字数排的前五链:

我纯洁的心灵受到了伤害

黑幕果然多!

噫~~~~~我纯洁的心灵受到了打击! fu_e 哈哈,还算姑且还算好玩吧~~同样的思路可以分析其他主题,比如2015最污的新番,某部动画最污的角色,最污流行语等等,而且只需要修改一行代码即可!甚至可以找一找整个萌百上最污的页面,只是我写的爬虫运行速度慢了点,需要修改为多线程爬虫,我是暂时不打算做了,可以交给有兴趣的绅士来做。