您當前的位置:首頁 > 行業案例

騰訊云:|虎撲社區用戶行為分析

時間:2019-10-25 10:38:10  來源:藍鳥科技  作者:藍鳥科技 閱讀量:9342
 
沒想到你竟是這樣的虎撲!
正好我們也在做網站的數據分析案例,不如就用 Python 來分析下,虎撲你這個直男論壇到底是怎樣的?
數據來源
這個案例我們幾個月前就有計劃了,所以數據是之前采集的。
時間:2019.3.16-2019.6.22
(虎撲論壇只顯示近三個月的帖子)
數據:
板塊內容:共 101.4w 個帖子的概要數據
帖子內容:回復數大于 200,瀏覽數大于 5w 的 4.4w 個帖子
用戶頁面:29.9w(詳細帖子數據中發帖回帖用戶),其中 10w 有效數據(剩余 17.6w 未填寫,1.4w 填地球)
說明一下,我們這里不可能獲取到虎撲的全部數據,但作為一個抽樣統計已經足夠。其中帖子的詳細內容由于請求量很大,我們就選取了其中回復和瀏覽都比較高的那部分帖子作為分析樣本。
接下來就讓我們來看一看詳細的數據情況:
板塊
雖然虎撲名義上是個籃球論壇,但步行街(無主題閑聊區)的帖子占據了半壁江山。對比之下很悲涼的是中國足球論壇,基本沒啥話題。
雖然主題數不如步行街,但看平均回帖數,籃球論壇還是名副其實。
發帖
看每天日間發帖時間的分布,兩個高峰:上午10點(上班摸魚)和晚上21點(吃過飯躺床上)。上午高峰還有個原因,就是NBA比賽都是這個時間段轉播的。
這是3個月來每天發帖總數的變化趨勢,看得出在穩步上升。知道曲線上為啥會有定期的波峰嗎?通常都是精彩比賽場次的日子。圖上3個峰值的日子分別對應:火箭vs勇士、猛龍vs勇士、勇士vs猛龍 三場比賽。
熱門帖子的瀏覽與回帖數分布??梢钥闯鲆粋€現象:瀏覽量大的貼,回帖數通常也很高;但回帖多的帖就未必都會有高瀏覽量(高回帖低瀏覽的基本都是抽獎貼)。
用戶
盡管有一半以上的用戶沒有在資料里選擇性別,但從填寫的這部分用戶來看,直男論壇實錘沒跑了。
這是一張聲望>8000的用戶分布散點圖(在交互版本上會看得更直觀,文末有地址),比較突出的是 張佳瑋·信陵(聲望最高)、視頻綜合站(發帖最多)
而從這張注冊/在線時長的用戶分布圖上可以看到,“視頻綜合站”的在線時長卻是很少的,可見這應該不是一個真人號。
從用戶注冊時間上來看,每年的新增用戶都在上漲,20142017 年是虎撲增長較快的兩年。
另外我們統計了用戶聲望和等級的前50排行,聲望最高:張佳瑋·信陵,等級最高:登等瞪等凳。圖略,可詳見動態圖表演示頁面。
地區
東部和南部沿海省市 JRs 的數量比較多,另外就是北京四川。
全球范圍來看,美國要遠高于其他國外地區。(這里為了國外區域顯示效果而降低了顏色范圍,實際美國的用戶和國內差了2個數量級)
各地區用戶的平均在線時長,上海 JRs 最能肝。不過,平均數是可能被一些個別用戶把數據拉高的,所以我們還加了中位數的統計,可以看到湖南的233是最高。
等級中位數,又是湖南第一。
聲望中位數,還是湖南。
發帖中位數,依然是湖南……
回帖中位數,不用我說,你們猜到是哪里了吧?
詞云
最后,我們來看下虎撲 JRs 這三個月的帖子中頻率最高的詞匯是什么(可點擊查看大圖):
項目介紹
回到技術層面,關于這個項目的實現,簡單說下思路:
項目思路
  1. 分析虎撲論壇頁面,評價可獲取數據,確定分析目標;
  2. 使用了 requests 和 scrapy 抓取相應數據, 并使用 pymongo 保存;
  3. 使用可視化工具 pyecharts,對數據進行可視化處理。
  4. 整理分析。
運行環境
  • python 3.7
  • windows 10
  • jupyter notebook
運行依賴包
  • requests
  • pyecharts
  • pymongo
  • scrapy
  • jieba
  • wordcloud
上一篇: 騰訊企業郵箱:富滇銀行
下一篇: 騰訊云:東鴿電器電商小程序,營銷推廣30天助力銷售額突破30萬!
返回首頁
返回首頁
推薦資訊
欄目更新
欄目熱門
职业11选5高手买法 山西体育彩票十一选五 黑龙江11选五5开奖走势图 高奖金的时时彩平台 快乐12走势图基本走势 一分彩人工精准计划群 安徽11选5大小走势 贵州快3形态走势图一定 贵州快三万能码走势图 彩票计划网 二分彩彩票官方网站