芬兰研究人员通过ins预测流感 利用社交媒体衡量人口健康趋势
12月1号消息,本周二,一篇名为“Predicting the flu from Instagram”(通过Instagram预测流感)的论文在康奈尔大学arXiv服务器上发布,作者是来自芬兰坦佩尔大学医学院的Oguzhan Gencoglu和软件服务公司Tieto,Ltd的Miikka Ermes。
芬兰的AI研究人员利用公共健康数据严格收集了这个国家的500万居民,在Instagram上比对“流感”标签,以及人们提出流感药物的图像,发帖与记录的流感爆发有显着的统计相关性,预测流感爆发的历史公共卫生数据。这是利用社交媒体衡量人口和健康趋势的一系列尝试中的最新举措。
作者提出他们的论点是“首项在社交媒体中使用图像来预测流感流行病的研究”,但他们也列出了关于社交媒体的其他研究,例如关于抑郁症指标的Instagram帖子研究和烟草使用。
对于很多人关注的隐私问题,他们称只使用公开发布过的,基于python的网络爬虫程序收集数据,并且爬虫只记录了发布日期和主题标签,以及单个图像URL,它没有记录用户名,也没有存储任何图像。
从2012年4月到2018年5月,调查人员在Instagram上收集了六年的帖子,超过22,000份,收集芬兰语中有关疾病的标签,例如芬兰语“flunssa”,意思是流感,或“lihaskipu”,意思是肌肉酸痛。对Gencoglu和Miikka这项研究来说,重要的是他们能够将搜索限制在“单一语言和国家”,以便能够将帖子与单个国家的健康数据进行比较。
Gencoglu和Miikka通过将帖子中的标签参考数量,与芬兰国家健康与福利研究所记录的官方流感发病率相关联,归类了9种不同的神经网络模型。他们对五年的数据进行了统计,然后用第六年的Instagram数据和健康数据来测试模型。
论文称,最好的临近预报模型的平均绝对误差为每周11.33次事故,测试数据的相关系数为0.963。用于预测1周和2周的预测模型显示出统计显着性,同时达到相关系数分别为0.903和0.862。这项研究表明社交媒体,特别是数字照片的公开分享,可以成为流行病学领域的宝贵信息来源。
这种社交媒体搜索的一个重要问题是,如何通过媒体本身来改变统计数据。作者指出谷歌2013年“谷歌流感”搜索趋势失败,因为“媒体对谷歌工作的高度关注”歪曲了搜索活动。因此,他们得出结论,在未来的工作中,将每周帖子数量“标准化”与人口中每周Instagram帖子的总数相比,通过考虑平台的受欢迎程度来提高预测性能。