巴马| 湖州| 鄂温克族自治旗| 三江| 新野| 沈丘| 达日| 大渡口| 吉木乃| 水富| 房山| 岳池| 望奎| 马龙| 行唐| 德保| 临邑| 武当山| 福泉| 保靖| 二连浩特| 阿拉善左旗| 临湘| 巴东| 沁源| 晋州| 宝应| 共和| 华宁| 邻水| 疏附| 盐边| 四会| 碾子山| 勃利| 五莲| 六枝| 九龙坡| 鸡东| 兖州| 定南| 河池| 赣县| 岱岳| 高台| 怀安| 湖北| 桂东| 宝坻| 乌鲁木齐| 宣化县| 周宁| 云溪| 开远| 罗甸| 张家界| 栖霞| 耿马| 理塘| 横峰| 东台| 扬州| 宁安| 扶风| 吴起| 湖口| 什邡| 华蓥| 聂荣| 乌兰| 蔚县| 澳门| 远安| 禹城| 英山| 隰县| 上林| 宁县| 合阳| 夷陵| 蒲县| 大兴| 罗城| 枣强| 九龙| 平昌| 通化县| 泸州| 洛阳| 林芝镇| 兴宁| 钦州| 会同| 樟树| 望江| 惠东| 乡宁| 惠来| 遂平| 本溪市| 沙坪坝| 湛江| 伊川| 巴东| 德清| 资源| 东方| 广水| 保山| 乌兰浩特| 绥江| 本溪市| 台山| 长武| 三都| 吴中| 永泰| 垣曲| 云浮| 象州| 泗水| 九龙| 高碑店| 赤壁| 雄县| 陇南| 茶陵| 汨罗| 钟山| 肥城| 景洪| 临潭| 迁西| 松江| 绍兴市| 西平| 鹿邑| 丰都| 师宗| 馆陶| 牙克石| 遂平| 崇信| 崂山| 山东| 图们| 昭苏| 安仁| 岢岚| 宁安| 临安| 朗县| 滴道| 延长| 临洮| 大庆| 乾县| 抚顺市| 梧州| 长丰| 静宁| 玛沁| 五大连池| 汉寿| 红原| 李沧| 浮山| 波密| 益阳| 双阳| 墨江| 长岛| 让胡路| 灵璧| 安顺| 建水| 马关| 尉犁| 代县| 凤城| 蛟河| 抚宁| 定安| 伊宁县| 萧县| 雷州| 城固| 射洪| 冠县| 普陀| 献县| 岑巩| 洪泽| 惠水| 巨鹿| 凉城| 荔浦| 横山| 东平| 印江| 平度| 汉川| 婺源| 金口河| 布尔津| 台中县| 肥城| 鹿寨| 日土| 微山| 翁牛特旗| 当涂| 东西湖| 惠农| 大港| 玉门| 七台河| 乐昌| 潮阳| 聂拉木| 岚县| 五家渠| 江山| 舒兰| 阿鲁科尔沁旗| 新干| 扬中| 乌当| 三都| 桑植| 南丹| 通渭| 黔江| 红星| 武山| 沽源| 台北县| 和顺| 岢岚| 泗洪| 应城| 岳阳县| 繁昌| 涪陵| 噶尔| 高雄县| 长顺| 潼南| 剑川| 延津| 仁寿| 左贡| 公主岭| 咸丰| 金乡| 玛曲| 织金| 惠山| 姜堰| 建宁| 克拉玛依| 江永| 武乡| 湖州| 澳门威尼斯人官网
|
|
51CTO旗下网站
|
|
移动端

用Python分析“女神大会”,码农最想娶的女星竟然是......

笔者作为一位喜爱足球的球迷,“懂球帝”一定会是款必不可少的 App,即使是只有 16G 的空间,也从未将其卸载。

作者:徐麟来源:数据森麟|2018-12-20 09:43

笔者作为一位喜爱足球的球迷,“懂球帝”一定会是款必不可少的 App,即使是只有 16G 的空间,也从未将其卸载。

然而我们今天聊的与足球无关,而是去聊懂球帝上的“女神大会”专栏,作为一个大型“钢铁直男”聚集地,“懂球帝”上对各位女神的评分,对广大“钢铁直男”群体也具有一定代表性。

数据来源

目前女神大会更新至了第 90 期,总共出场了 90 位女神,界面如下:

我们通过 fiddler 获取该界面中女神的照片地址以及每一篇文章的 id 编号,用于之后的爬取和可视化,代码如下:

  1. import json 
  2. import requests 
  3. from bs4 import BeautifulSoup 
  4. import pandas as pd 
  5. import re 
  6. import os 
  7. os.chdir('D:/爬虫/女神'
  8.  
  9. id_list = [] 
  10. title_list = [] 
  11. pic_list = [] 
  12. date_list=[] 
  13.  
  14. for i in range(1,6): 
  15.    url= 'http://api.dongqiudi.com.souyuanlin.com/search?keywords=%E5%A5%B3%E7%A5%9E%E5%A4%A7%E4%BC%9A&type=all&page='+str(i)  
  16.    html = requests.get(url=url).content 
  17.    news = json.loads(html.decode('utf-8'))['news'
  18.    this_id = [k['id'for k in news] 
  19.    this_pic = [k['thumb'for k in news] 
  20.    this_title = [k['title'for k in news] 
  21.    this_date = [k['pubdate'for k in news] 
  22.    this_title=[BeautifulSoup(k,"html.parser").text for k in this_title] 
  23.    id_list = id_list+this_id 
  24.    title_list = title_list+this_title 
  25.    pic_list = pic_list+this_pic 
  26.    date_list = date_list+this_date 

另一方面,每位女神的评分都在下一期当中,我们需要爬取文章内容进行获取:

爬取代码如下:

  1. prev_title_list = [] 
  2. score_list=[] 
  3. count_list=[] 
  4. for id in id_list: 
  5.    url = 'http://www.dongqiudi.com.souyuanlin.com/archive/{k}.html'.format(k=id)     
  6.    header = {'User-Agent''Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0'
  7.    'Connection''keep-alive'
  8.    cookies ='v=3; iuuid=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webp=true; ci=1%2C%E5%8C%97%E4%BA%AC; __guid=26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid=1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count=1; _lxsdk_s=16472ee89ec-de2-f91-ed0%7C%7C5; __mta=189118996.1530879050545.1530936763555.1530937843742.18' 
  9.    cookie = {} 
  10.    for line in cookies.split(';'): 
  11.        name, value = cookies.strip().split('=', 1) 
  12.        cookie[name] = value     
  13.    html = requests.get(url,cookies=cookie, headers=header).content 
  14.    try: 
  15.        content = BeautifulSoup(html.decode('utf-8'),"html.parser"
  16.        score = content.find('span',attrs={'style':"color:#ff0000"}).text 
  17.        prev_title = content.find('a',attrs={"target""_self"}).text 
  18.        prev_title_list.append(prev_title) 
  19.        score_list.append(score) 
  20.        sentence = content.text.split(','
  21.        count=[k for k in sentence if re.search('截至目前',str(k))][0] 
  22.        count_list.append(count
  23.    except
  24.        continue 

整体对比

我们此次利用 R 语言中的 ggimage 包,将获取到的女神图片加入到最终的图表中,提高可视化效果。

首先看一下整体评分的 TOP15 名单:

朱茵、林志玲、高圆圆位居榜单前三位,不知道这份榜单是否符合你心目中的女神标准,而这三位也恰好成为了目前出场的 90 位女星当中香港、台湾、大陆的最高分。

值得一提的是,懂球帝小编对于活跃于 90 年代的香港女星情有独钟,从中选取了非常多的女神,而这些女神的评分也都名列前茅。

下面看一下目前出场的 90 位女神中,排名相对靠后的几位:

很多朋友会觉得这份榜单对于年轻女神有些苛刻,可能这也代表了广大网友对于各位年轻女神的美好期许,体现了她们未来的无限可能。

区域对比

我们分区域看一下目前各个区域排名前十的名单:

看完了各个区域 TOP 10 的名单之后,我们进行一下区域的对比:

我们将小提琴图与盒形图相结合,进行区域的对比,可以看到大陆女星的评分相对偏低。

一方面是由于部分女神的评分较低,拉低了整体的分值;另一方面也是由于目前出场的大陆女星年龄普遍偏小,而这一点也会在下一部分得到证实

年份对比

我们看一下各个年份出生的女星总体评分情况对比,其中“60 后”选项也包含了 60 前的女神,“90 后”选项也包含了 00 后的女神:

可以看到 60 后、70 后的女神们平均分数要高于 80 后,而 80 后显著高于 90 后。

一方面说明了大家对老牌女神们的认可;另一方面也是体现了大家对新生女神们的无限期许。

我们下面将区域与年份综合起来进行对比:

可以看到参与评分的大陆女神普遍比较年轻,这也一定程度解释了此前提到的大陆女神整体评分偏低的原因。

而港台女神普遍集中在 60、70 后,这些女神们活跃的 90 年代也是香港电影、电视的黄金时期,我们也期待着香港影视未来的复苏。

后记

懂球帝目前的女神大会做到了 90 期,并没有十分完整地囊括广大女神,比如“四旦双冰”就都没有出现,使得这次的数据并不能完全地表述广大“钢铁直男”心中的女神标准,未来随着期数的增加,相信会有更加完善的分析。

最后,小编突发奇想,想要看下在一周中不同时间出场的女神评分是否会有区别:

出乎小编意料的是,在小编一周中最开心的三天周四(即将放假),周五(迎接放假),周六(享受放假)的三天中出场的女神评分反而偏低,或许是由于数据量偏少,未来随着期数的增加,小编也会密切关注这点。

作者:徐麟

简介:目前就职于互联网公司数据部,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用 R&Python 玩一些不一样的数据。

【编辑推荐】

  1. 这十五本Python书籍!是每个程序员必备的!不然拿高薪?刚好我有
  2. Python轻松查看微信撤回消息,秘密无处可藏
  3. 起薪2万的爬虫工程师,Python需要学到什么程度才可以就业?
  4. Python之父退位后,会有新任终身仁慈独裁者吗?怎么产生?
  5. Python开源项目最新月榜TOP 10
【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

WebWork in Action中文版

本书是一本从头至尾都使用现实世界例子讲述有关编写Web应用程序的书籍。WebWork所强调的内容是:利用框架实现你的项目,而不是被框架所阻碍...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
临溪乡 大窊乡 马军营乡 小高舍村 大苏州
局机关 桃园新村 巴藏乡 黄家碾 什字乡
澳门银河场网址 澳门威尼斯人网站 澳门葡京赌场 澳门大富豪赌博官网 梭哈网址
澳门威尼斯人官网 威尼斯人平台 mg冰上曲棍球网站 威尼斯人官方网站 葡京娱乐官网
澳门皇家网站 mg电子网站 澳门牌九博彩 澳门大富豪赌博网站 博彩信誉网站
威尼斯人游戏注册 澳门百老汇官网平台 六合投注网 澳门百老汇网上官网 澳门葡京娱乐平台