陈千鹤
飞桨开发者技术专家(PPDE)
华中科技大学本科生在读。2022年4月,在CHIEA‘22(CCF-A)发表论文RumorLens: Interactive Analysis and Validation of Suspected Rumors on Social Media。完成开源项目《基于PaddlePaddle和PaddleHub的口罩检测系统的落地实现》《一文带你走进机器学习》《2022美赛F奖记录与分享》等。
数据可视化具有许多优点。首先,它能够迅速展示大量数据。其次,它使查看者能够立即识别数据中的核心属性,以形成新的见解。第三个优点是,它可用于质量控制,通过数据分析可以立刻发现问题。四是增强了对大尺度和小尺度数据的理解。在现代,数据可视化涉及四个方面,涉及实时交互、动态处理、视觉可扩展性以及用户协助和个性化。数据可视化可以分为两个主要子领域:信息可视化和科学可视化。信息可视化用于直观地表示抽象数据,例如业务数据。而科学可视化代表科学数据,这些数据通常基于物理(例如人体,环境或大气)。信息和科学可视化都侧重于如何将数据转换为可视化形式,成为可理解的信息,以使得数据更容易被理解和感知。
资料来源 https://rdcu.be/cUnYr
社交媒体在我们的日常生活中得到了广泛的应用,使得信息共享和交流变得非常方便。但是,它也提供了一种简单快捷的方法来产生和传播各种谣言。社交媒体服务提供商在过去几年中一直试图识别社交媒体平台上流传的谣言。
传统的谣言识别方法依赖于内容专家的个人经验,但处理海量信息却相当耗时费力。自动识别谣言的方法比手工方法更有效,对于社交媒体管理者而言,他们更需要从内容、用户、话题、传播等方面深入了解可疑谣言的特点,使谣言验证更加扎实、可信。其中,十分重要的需求是追踪社交媒体上可疑谣言的动态传播细节。
我们与社交媒体平台管理员紧密合作了四个月,总结了他们对谣言识别和分析的要求,并进一步提出了一个交互式可视化分析系统RumorLens,帮助他们高效应对谣言,深入了解谣言传播模式。RumorLens 将自然语言处理(NLP)和其他数据处理技术与可视化技术相结合,以促进对可疑谣言的交互式分析和验证。
Overview显示可疑谣言的空间分布和时间演化;
Projection View 利用基于隐喻的图示符来表示每个可疑谣言,并进一步使用户能够快速了解它们的总体特征和彼此之间的相似性;
上图所示,RumorLens,一个多层次的可视化分析系统,帮助用户以交互方式分析和验证社交媒体上的可疑谣言。
向下滑动查看所有代码
项目链接:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/text_classification
一开始,我们以为简单的根据"//@"进行分割就可以得到传播链。但是,当我们初步完成以后,对这一部分传播链进行深入分析的时候,发现由于节点用户数据的丢失使得传播链变短了;因此,我们选择了从子节点往根节点反推,再从根节点向子节点验证的方法,最大程度地恢复了完整的传播链,减少了数据的误差,最好的效果是使得传播链从五到六级恢复到十五六级。
Suspected Rumors Overview
Projection View
为了便于目视检查和比较可疑特征,我们将每个可疑谣言编码为一个圆形符号,该符号由两部分组成:内圈和外圈,如图2(A)所示。内圈的颜色代表可疑谣言的主题,大小则表示其影响力。外部四个弧线分别显示了粉丝、关注者、发帖和用户信息完整性的数量,图示符如图2(B)所示。由于不同用户的粉丝和粉丝数量差异很大,为了便于比较,采用对数法进行计算。与thermograph shape(图2(C))相比,我们的图示符设计可以提供更简洁、紧凑的方式来显示每个可疑谣言。
图2: Glyph designs for features of each suspected rumor. (a) round glyph design; (b) arc glyph design; (c) thermography shape glyph design.
Propagation View
Propagation View(图1(D)和(E))提供了对可疑谣言消息如何在社交媒体上传播的详细理解,从而使平台管理员能够做出最终决策(R3)。这一点非常重要,因为专家经验和以往研究所提到的丰富的传播信息可以被展示和探索,以验证可疑谣言。该视图包含两个部分,一个新颖的圆形设计用于在顶部可视化可疑谣言传播,另一个表格在底部显示相应的内容详细信息。
我们提出了RumorLens,这是一个交互式可视分析系统,可以帮助社交媒体平台的管理员有效地处理可疑的谣言。此外,本文还提出了一种新颖的圆形glyph设计,以显示可疑谣言的动态传播细节,从而简化谣言的交互分析和验证。但是,针对可疑谣言的互动分析和验证的谣言仍然需要进一步改进。首先,通过与领域专家合作,我们认识到用户信息对于谣言识别的重要性。例如,如果用户的帐户未定义,并且之前有几次已识别的谣言在媒体上发布,则消息具有成为传闻的高风险。因此,有必要提供与用户相关的历史投诉的更多信息。其次,谣言可以通过各种特征进行识别,因此如何选择和评价其对谣言验证的影响仍然是一个有待解决的问题。
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~