Skype聊天数据分析

众所周知,Skype是hhs指定聊天工具。它界面简洁,功能多样贼tm卡
今天早上某人突发奇想想把过去的聊天记录全下下来,然后惊讶的发现有入口...
下载地址
申请下载,大概2h审批
出现
image.png
界面即可
里面是一个tar压缩包
解压后会出现一个叫"messages.json"的json文件
50M....
npp和notepad都打开失败
dev c++大法好!
略微分析了一下json结构
发现信息储存在conversations[]->messageList中(感谢@XGN)
每个message结构大概是

id - unknown
displayName - sender
originalarrivaltime - send time
messagetype - always RichText
version - unknown
content - the message
conversationid - unknown
from - user id
properties - unknown
amsreferences - unknown

e.g.

{
    "id":"1580549755037",
    "displayName":"HDD 292",
    "originalarrivaltime":"2020-02-01T09:35:55.012Z",
    "messagetype":"RichText",
    "version":1580549755037,
    "content":"maybe 2.17 :)",
    "conversationid":"19:[email protected]",
    "from":"8:live:3aac2dbd4f289213",
    "properties":null,
    "amsreferences":null
}

再度感谢@XGN

Python on!

for conv in js['conversations']:
        for msg in conv['MessageList']:
            usr=msg['displayName']
            if not (usr in users):
                users[usr]=[]
            users[usr].append((msg['content'],pt(msg['originalarrivaltime'])))

统计每人的话语,去除不必要的信息
再使用pandas+matplotlib绘图
结果如下
字数.png
消息.png
image.png
image.png
我就是Python 画图dd

版权声明:
作者:carott
链接:https://blog.hellholestudios.top/archives/374
来源:Hell Hole Studios Blog
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>