机器学习分析 47 万微信群,发现的 9 大规律

微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学、腾讯公司和香港科技大学的研究人员采用了机器学习算法分析了47万+的微信群、2亿+微信用户、6亿+的好友关系和200万+邀请记录,揭秘微信群背后的数字以及 9 大规律。

The Lifecycle and Cascade of WeChat Social Messaging Groups

作者:Jiezhong Qiu, Yixuan Li, Jie Tang, Zheng Lu, Hao Ye, Bo Chen, Qiang Yang, and John E. Hopcroft

论文首先分析了474,726个群样本的生命周期分布。由于数据收集日期处于2015年7月26到2015年8月28日,在观察期内一个群可以拥有的最长生命周期是34天。

微信群九大规律

1.每一天,约有 230 万的微信群新创建。

2.大约 25% 的微信信息,来自于群对话。

3.微信群的生命周期,很大程度取决于设立时候的社交目的:例如事件驱动的群组相对于经常聚会的朋友群,有更高消亡的可能性。

4.微信群可以分为长期群和临时群。其中 40% 的群在一周之内变得默默无言,30% 的群能够存活超过 30 天。

5.长期群往往拥有较大的规模,而临时群的规模往往在 100 人以内。

6.尽管临时群会在某个时刻停止信息互动,但是群成员仍然会发展友谊。在稍长的时间内,对潜在朋友网络结构产生影响。

7.长期群相比临时群,长期群10% 的邀请出现在至少第 3 层的关系;对于临时群而言,只有 1% 的邀请出现在第 3 层。

8.微信群的邀请对时间高度敏感。80% 的首次邀请发生在邀请人入群的 5 天之内,80% 的连续邀请发生在 2 天的时间间隔。

9.30% 长期群的节点,有超过 10 个子群的大小;而只有 10% 的临时群的节点有超过 10 个子群的大小。

论文全文:微信社交信息群的生命周期与级联情况

作者:Jiezhong Qiu, Yixuan Li, Jie Tang, Zheng Lu, Hao Ye, Bo Chen, Qiang Yang, and John E. Hopcroft

摘要

社交即时信息服务,作为人与人之间日常生活联系与交流的一种变革形式,它的出现作为社交群形成的催化剂,为人们带来更强的社交体验。然而,研究团体对社交信息背景下群的形成与发展情况知之甚少-群的生命周期,基础结构的不断变化,以及发展新会员的传播过程。

在本文中,我们对来自微信群信息平台-中国最大的独立信息交流服务平台-每日使用日志进行了分析,力求弄清楚社交信息群如何形成,发展新成员及不断发展的过程。具体来说,我们发现了群与群之间所存在的很明显的生命周期两分法,充分考虑群层面广泛的特征之后,开发了一个可分离模型,证明了长期群与临时群本质上的不同。我们也发现了信息群组的生命周期大大取决于它们在用户日常社交体验及特定目的上所起到的社会职责与功能。在长期群与临时群存在明显可分性的前提下,我们进一步解决了困扰我们对成功社区进行早期预测的问题。

除了从群层面来对群的成长与发展进行建模,我们也研究了群成员个人层面的属性,学习了群发展新成员的传播过程。通过充分考虑成员的历史履约行为及所处在的当地社交网络结构,我们开发了一个成员级联模型,展示了模型的有效性,实现了邀请人预测95.31%的AUC及受邀人预测98.66%的AUC。

引言

即时信息服务的出现与兴盛已经塑造并改变着人与人或一群朋友之间联系及沟通的方式,为用户带来了多样化、无处不在的体验,这是传统以文字为基础的短信服务(SMS)无法企及的。例如,WhatsApp是全球最流行的信息服务商,拥有每月超过9 亿的活跃用户(MAUs);微信是中国最大的信息服务商,拥有6 亿的活跃用户(MAUs))。透过图片、视频、位置信息、音频及文字信息,这些工具已经丰富了人们的沟通方式。更重要的是,它们也促进了社交群组的形成,较传统短讯信息而言,为人们带来了更强烈的社交感受。

虽然过去的研究已经对群组形成及发展的动态性进行了大规模的学习,但是大多数的研究受到所处的社交网站的在线社团体背景的限制,这与我们所看到的以社交信息为背景的团体有着本质上的不同。之前的研究[12]表明,就绝大多数社交工具使用者而言,在他们的生活中,即时群信息的发明与使用,相较其他群层面的社交形式更频繁,更习惯性的发生着。从生命周期角度来看,社交信息群有着较短的生命周期,从几个小时到几个月不等。这与Reddit[8] 及脸书(Facebook)[29] 等社交网站上所看到的存在数年的网上群组情况恰恰相反。此外,所有聊天群的默认设置是只对群内成员可见,并以只接受邀请入群的形式不断发展。例如,受邀入群的新成员一定是位于群网络边缘(现有群成员的直接邻居)用户,因此成员级联过程更加具有本地依赖性,现有群成员是单向性传播的主要力量。这非常不同于早前文献提及的在线团体传播与成长模型,虽然用户不是现有任何群成员的朋友,但是可以自主决定是否加入其中。

研究人员最近已经开始从社交科学的角度来解释群聊行为和过程,尽管不能从现有文献中得出行之有效的实证测量与说明。大部分挑战源自恰当数据集的匮乏,我们需要收集拥有足够时间变量的海量信息群,以便我们能够对信息群的出现、成长及消亡过程不断进行追踪。另外一项挑战是去制定一个有效的模型来对群不断发展的多样化复杂过程进行描述及量化。这导致了研究人员对诸如生命周期,基本结构的改变,以及发展新成员的级联过程等社交信息知之甚少。

为了解决这些问题,本文中,我们分析了来自微信群聊平台每日使用日志-由中国腾讯开发的最大独立聊天沟通服务-为了实现理解社交信息群的形成、发展新会员以及逐渐演变的过程。据我们所知,这是迄今为止对聊天群动态性进行的最大规模的分析。微信允许用户通过互联网时时发送及接受多媒体信息。微信最重要的特征是任何用户都能够创建一个新的群并邀请朋友加入,请注意,这样的群只接受邀请,这意味着如果没有收到来自群的邀请,其他用户(朋友)不能够申请入群。群组在微信中发挥着至关重要的作用。据数据显示,大约有25%的微信信息是群对话产生的。另一方面,群是非常动态性的。

每一天,约有2,300,000的新群被创建,有约40%的新创建的群在一周之内变的默默无言。我们会在第3部分阐述关于微信数据集及微信的机制的详细信息。

目前的工作:社交信息群中的生命周期两分法

在本文中,我们致力于透过观察及从生命周期角度对两类型群(长期群及临时群)进行概念上划分,来对社交信息平台的演化过程进行研究。我们的实证分析表明,有超过40%的群在一周之内停止互动。另一方面,我们也观察到30%的群能够在相当长的事件内存活下来(30天)。聊天群的强大生命周期两分轮为我们带来了自然生命周期模型与预测的问题-在考虑到结构与社交行为特征情况下,如何分离长期群与临时群?为了解决这个问题,通过研究数百万个群快照,我们建立了一个可分离模型,我们也展示了长期群与临时群之前很明显的区别-用很广泛的特征来测量,包括潜在的群网络结构,会员级联树特征(例如树的大小与深度)以及群成员的人口统计信息,例如性别,年龄以及区域等。

我们也从社交消息平台在用户日常社交体验所起到的职责与功能方面,对生命周期两分法现象进行了讨论。这为我们带来了一个问题,社交信息群的生命周期与成长模式如何与其提供的社交功能相关连?事实证明,信息群已经被普遍接纳为同时与小团体进行联系的最简便方式。信息群的生命周期很大程度上取决于设立时候社交目的-例如,我们通常可以做出这样的预测,事件驱动的群组较用于经常聚会的朋友群而言,有着更高消亡的可能性。另外,在长期与临时群之间存在明显分离性的前提下,与成功群设计相关的根本问题是:我们能否通过分析群在初期所展现的结构与行为模式来对社交群能否在长时间内成长并延续做出预测?我们把其称之为一个与群寿命早期预测相关的问题。通过群所展示的多种功能的透镜,我们验证了我们能获得明显的预测结果,即使只是根据一天的群记录也是如此。

目前的工作:群成员级联与预测

除了对来自群层面的增长与发展进行建模以外,我们更近一步的研究了群成员的个人层面特征,对群发展新成员的级联过程进行了研究。具体而言,在已知群历史行为与本地社交结构前提下,我们如何对莫群的那些用户更有可能是活跃用户进行预测?在邀请新用户进入聊天群后,他们又会把入群邀请发给哪些人?我们需要对用户历史履约行为以及该用户所属的本地社交网络结构进行细致的检查。为此,我们开发了一项会员级联过程模型,该模型考虑了邀请人与被邀请人的特征,邀请人是指群成员中发邀请给朋友的人,而被邀请人则为位于邀请人交际圈,收到入群邀请的个人。我们的邀请人预测模型使用了所有特征,通常有高达95.31%的AUC,而被邀请人预测模型实现了98.66%的AUC。

此外,我们也试图分析: 随着群的不断发展,新加入的成员如何能够导致基本社交网络结构的改变?为了解决这个问题,我们快照记录并选取了在设立时刻的抽样群集,与相同抽样群一个月之后的情况做了比较。有意思的是,我们观察到,尽管长期群与临时群都有相同的增量特征,例如闭合三角形,长期群所展现的闭合三角形增量更显著的。

结构

本文的其他部分配如下。第2部分描述了与分析群形成与发展的相关工作。在第3部分,我们介绍了微信社交聊天群数据库。第4部分展示了对群生活周期两分法的讨论以及早期预测模型。第5部分研究了成员级联过程。最后,我们在第6部分做出总结。

数据

准备

在对数据库进行详细描述之前,我们首先对我们本次研究的中心微信群聊功能进行简要概述。尽管微信有很多其他重要的功能,例如朋友圈,作为朋友雷达的寻找附近的人以及表情包等等,但是需要着重强调的是这些功能并不是本文研究所涉及的内容。在微信上面,每个用户都会拥有一个简要的个人介绍,其中包括了人口统计信息(例如:性别、年龄及地域等)以及用来存储用户朋友联系方式的通讯簿。我们使用多元组合(u,v,T)来表示朋友的关系记录,如果用户u与用户v在时间节点T成为好友。微信上的一个聊天群可以被比喻作一个社区,在这里一个人可以与几个朋友一起聊天。用户有两种方式能够加入到一个聊天群。图1举了一个例子说明了微信用户邀请好友加入群聊的界面。当用户v在时间截点T收到用户u邀请加入群C,那么(u,v,C,T)就被视为一个成功的邀请。

某位用户在成为聊天群成员之后可以向整个群组发送多种形式的信息(例如:问题、图片及声音)。我们使用多元组合(u,C,T)来代表用户u在标记时间T向群组C发送了一个群聊天记录。

数据收集及清理

本研究的所有数据来自收集于2015年7月26日到2015年8月28日之间完整的群信息活动匿名日志。我们首先收集了所有230万在2015年7月26日产生的群组作为我们感兴趣的群组集合。我们对数据进行了预处理:忽略少于5个聊天日志的群组,例如:我们只考虑那些并非一出生便死亡的群组;我们也过滤掉了一些拥有特定用户的群组,这些用户在每月垃圾用户(MSU)或每月不活跃用户列表上面榜上有名。微信会每月定时维护及更新该列表。所有被考虑的最初群组至少由三名群成员组成。

数据描述

经过对最初群组集合进行预处理之后,我们剩下了474,726个群组用于进一步分析。然后,我们收集了四个感兴趣的数据集,如下。表1总结了用于本次学习的数据集统计数据。

群组活动记录G: 包括了所有临时群组每一个抽样群组活动记录(u,C,T),T运作的时间区间是在2015年7月26日至2015年8月28日之间。

用户集合U: 包括于2015年8月28日所有归属于抽样群组及其单跳邻居的所有成员。需注意的是,我们也去除了所有MSU或MIU列表里的用户集合。

邀请记录 I: 包括了多元组合(u,v,C,T), 在数据收集期间,用户u成功邀请v在时间T加入群组C。

友谊记录F:包括所有多元组合(u,v,T), u与v(u,v 2 U)在T时间成为朋友。微信里朋友关系是非定向的,我们同时有(u,v,T)2F及(v,u,T) 2F。

群组生命周期两分法

我们之前提出过一个问题,社交信息群组如何随着时间的推移而成长及演变-他们的生命周期及结构的动态性。作为一个高级特征,社交信息群组可以有相对较短的生命周期-从几个小时到几个月不等,这与Reddit [8] 及脸书(Facebook)[29] 等社交网站上所看到的存在数年的网上群组情况恰恰相反。在本节,我们首先对生命周期两分法现象进行讨论,该现象是我们从群活动临时数据中观察到的。要做到这一点,我们对一个社交消息群的生命周期定义如下。定义1.群生命周期。我们将其定义为某群成立时间节点到该群没有群成员发送任何聊天信息的时间节点间的持续期间。

我们首先分析了474,726个群样本的生命周期分布。由于我们数据收集截止日是2015年8月28日,在我们的观察期内,一个群可以拥有的最长生命周期是34天。图2(a)及图2(b)分别示了群生命周期的的分布及累计分布函数(CDF)。从结果中总结出的一个显著的现象是群生命周期的直方图是有两个峰值所主导的:一个出现在左翼(临近几个小时),而另一个则出现在右翼(临近1个月)。

这意味着,就群的生命周期而言,群中存在着很明显的两分法。我们能够据此得出两个群组概念上的差别。

临时群:这类型的群出现及消亡速度非常之快,通常生命周期从几小时到几天不到。例如,图2(b)展示了大约有40%的群在一周之内停止了互动。

长期群:这类型的群较临时群而言,能够生存较长一段时间。图2(b)展示了约30%的群归属于这一类别,能够维持30天以上

生命周期两分法的现象也为我们带来了这样的问题,社交信息群的生命周期及成长方式如何与其服务的社交功能想关连?为了解决这个问题,我们人为的检查了100个随机挑选的群,其中长期群有60个,临时群有40个。我们根据手头上有的群的社交功能来对群进行分类并在表2中罗列了详细信息。有意思的是,我们发现大多数临时群是由事件驱动的(例如:旅游团,会议群及吃饭群),而长期群更多是由关系驱动的(例如:家庭群,同事群及好友群)。

4.1 群结构的动态性

在本节中,我们继续研究信息群潜在结构的不断变化。我们研究了几种具有代表性的结构特征(例如:开放三角形,封闭三角形及连边密度),以及计量分析这些功能如何在不同模式的长期组与临时组中发展。

三角形数量。社交网络[18]的传递性学说表明,社交网络的本地结构能由三角形数量来表示。在微信群中,我们尝试对长期与短期群能否展示不同的传递性模式。我们根据朋友网络的抽样结构,同时考虑了开放三角形与封闭三角形的数量。

微信群。为了说明这一点,图3(a)展示了一个小型微信群盆友网络的例子,其中节点A, B及C形成了一个封闭三角形。节点A, C及D则形成了一个开放三角形。

连边密度。我们也考虑到群的内部连边密度特征,该特征是指群组内有的边缘与当群完全连接在一起时候所有可能边缘的占比。

为了了解这些结构特征如何不断变化的,我们对群进行了两次快照:一个是在群刚建立的时候(在本研究中,我们选取了10分钟),另一个则是建立后的一个月。我们分别考虑了长期与临时群,为了研究两者之间结构模式的不同。我们也注意到,尽管临时群可能会在某个时刻停止信息互动,群成员在享有群会籍时候仍然有可能去发展友谊,因此有可能在稍长时间内,对潜在朋友网络结构产生影响。

图3(b), 图3(c)及图3(d)分别展示了开放三角形数量,封闭三角形数量及连边密度的特征动态性结果。需注意的是,如果群结构并没有发生变化,我们预测可以看到围绕着对角线y=x(标准化后)的散点图。从可视化结果中,首先观察临时组与长期组所展现的不同的发展模式是一件有意义的工作-长期群就潜在朋友结构特征而言展示了显著的动态性,而临时群不大可能去不断建立友谊。

我们推断这样结构动态性的两分法与设立社交群时的社交职责与功能想联系。例如,一个用于长期交流的同事群更有可能去开发群成员之间的社交联系,这与设立用于一些特定社交事件的群情况恰恰相反。

4.2 级联树模式

除了对友谊结构进行学习,我们还讨论了群行程的过程,即研究群成员邀请级联数结构。我们首先以定义如下群级联数为出发点。

定义2。群级联树。一个有向图,其中每一个群成员代表一个节点,如果u(邀请人)成功邀请v(受邀人)入群,那么一个从u到v的有向边界将会被创建。这棵数的起点是创建群的用户。由于邀请人总是比受邀人更早加入群,所以不可能出现循环的情况。

为了展示长期群与临时群在级联数结构上的不同,图4(a)与图4(b)以及表4(b)为我们举了两种类型的微信群级联数的两个例子。我们发现,长期群往往表现出更多分支的更深层次的树结构,而许多临时群级联树显示出的是大多数成员作为根节点的一种类似于星图结构。为了对这个差别进行量化,我们留意到与级联树结构相关的四种典型特征。

级联大小。首先,我们检查级联数上的总分支的数目(例如群大小)来分析对级联树进行分析。图5(a)展示了两种群的级联树标准化分布。我们发现,长期群往往会拥有较大的规模(默认数为至少500个),而临时群的规模则缩减为100个左右。这是理所应当的,因为长期群在扩展人员方面更具优势,也有更长时间跨度去发展。

邀请是级联深度的函数。测量长期群与临时群在级联数上不同的一个很自然的方法是检查邀请发生时候级联深度分布。我们对我们观察期内所发生的每一个邀请深度进行了测量,邀请深度定义为级联树上从根部到群成员的步数。表5(c)展示了我们数据集内所有邀请的级联深度标准分布。我们观察到,长期群较临时群而言,更多邀请出现在离根部较远的地方。例如,10%的长期群邀请出现在至少第3层深度;而对于临时群而言,只有不到1%的邀请出现在至少第3层深度。

邀请作为子树大小的函数。最后,我们通过测量级联数每一个分支的子树大小来对长期群与临时群在级联数结构的差异进行了测量。图5(b)中,我们合并所有抽样群后,展示了属于级联树的每个节点的子级联树分布。再次,我们观察到长期群与临时群显著的差异。例如,约30%的长期群上的节点有超过10个子群的大小,而只有10%的临时群上的节点有超过10个子群的大小。

结构性病毒。通过测量级联数结构性病毒,我们能够量化级联树。结构性病毒,有名Wiener指数,对于消除浅构造,类似散布的传播结构及深度分支结构很有帮助。

Wiener指数被定义为级联数上任何两个节点的平均距离。例如,图4(a)与图4(b)中的级联树Wiener指数值分别为3.99及1.83。图5(d)中,我们展示了长期群与临时群级联树Wiener指数的分布。我们观察到,超过99%的临时群的Wiener指数值小于2,这意味着大多数成员级联以散布方式发生,以根节点居多。

4.3 群生命周期的预测

群生命周期及结构相互作用方式的明显两份论为我们带来了一个自然的模型与预测问题-在考虑了结构,行为及人口特征后,长期群与临时群间有多分离?我们能否通过分析群在早期阶段所展现的结构与行为模式,来预测是否一个社交群组长远来看能够增长及存在?在本节中,我们通过结合广泛的特征来分析数以百万计的群快照,用以解决这两个问题。

4.3.1 可分离模型

我们尝试通过使用包括潜在群网络结构,成员级联数性质及群成员的统计信息无序程度等特征来对一个群属于长期群或临时群进行预测。特征的全部清单已总结在表4中,需注意的是,我们只使用了群层面的特征。

为了训练可分离模型,我们把生命周期少于5日的群标注为反面例子,把生命周期多于25日的群标注为正面例子,藉此来创建训练数据集。我们用一个特征向量来代表每一个群,该特征向量是建立后一个月的群中抽取的。紧接着,我们使用10倍交叉验证的支持向量机(SVM)来对数据集进行更进一步的训练。

表3对预测结果进行了总结。我们发现通过使用全套特征,我们能够得到最高级别准确性(66.62%AUC)。通过每次只考虑一组特征,我们进一步研究了每一组特征(例如:结构,级联及人口统计信息)如何影响训练的表现。我们发现结构特征组自身可以产生高精度的预测,这一结果再次验证了临时群与长期群结构中所存在的显著区别。

4.3.2 对群生命周期的早期预测

介于长期群与临时群之间所存在的明显分离性,我们就此提出了一个基本问题,我们如何能够根据早期所展现的特征来更好的对群的成长与维持进行预测?

我们应用早期预测模型的方式,除了在较早时间节点提取的一些特征的细微差别以外(参阅表5群层面特征),与之前的分离模型相类似。具体来说,对于我们训练集合里的每一个群,我们会对1小时,1日,5日,10日,20日以及1个月时期的群进行快照并相应对特征向量进行计算。对于不同时间节点提取的特征,我们重复类似的过程来训练数据集。表4展示了在不同阶段预测表现的结果。我们发现,群设立后一天的特征可以获得高达65.08%AUC准确性,这几乎与采用1个月时间节点提取的特征来做预测的66.62%准确性相若。

早期预测模型的结果再一次确保了社交信息群在未来的成长的可能行可以在非常早期时候(例如1天)就能够很好的做出推断。这样的预测性与早前对在线社交社区的研究不同,后者需要几个月的特征来做出短期预测,数年的特征来做出长期预测,部分原因是由社交信息群与网上社区不同的生命周期特质决定的。

会员级联过程

我们已经从团体层面对社交信息群的成长与发展进行了建模。在本节中,我们将接触集中于个人层面的问题,并对群发展新成员的成员级联过程进行研究。

首先,我们引入了一个群成员级联模型,如图6所述。该模型捕捉了两个重要的职责:邀请人-向朋友发送邀请的群成员,受邀人-在邀请人个关系网中,收到入群聊邀请的个人。例如,图6中大虚线包围了一个群内所有现有成员。每个发出的邀请有两个重要过程:1)某个群内的某个成员是活跃成员(如图6中蓝色所示)以及2)活跃成员选择朋友(如图6红色所示)进入聊天群。

5.1 成员级联模式

5.1.1 行为模式

为了更好的了解成员级联模式,首先最重要的是要去研究群成员的行为模式。例如,一个令人感兴趣的问题将会是,当某人成为群成员之后邀请朋友入群的频率为何?换一个表述,成员级联在社交信息群发生的频率为何?在本节中,就用邀请间隔及首次邀请延迟来测量成员邀请行为的模式,我们提供了一些实证研究结果。

定义3.邀请间隔的是指来自同一群成员任意两个连续邀请的时间间隔。此外,首次邀请延迟是指末用户加入某群的时间点与该用户首次邀请其他朋友进入相同群(经某些现有成员邀请)的时间点间的间隔。

直观来说,对某群成员的首次邀请行为研究是十分有用的,它标志着该成员对现有群有多好的适应力,以及对现有群的有多大相关意识。

为了解决上述问题,在整合了每个群的每一位成员之后,我们得到了邀请间隔及首次邀请延迟的分布。图7(a)与图7(b)展示了首次邀请延迟及邀请间隔的累积正太分布函数。我们观察到,微信群的邀请是对时间高度敏感的。一方面,当某人受邀进入某个群,该用户倾向于不久就邀请其他人入群。例如,约80%的首次邀请发生在邀请人入群后的5天之内。另一方面,我们发现成员会遭遇到这样的通常情况,他们发出期首次邀请所延迟的时间比邀请间隔要长。例如,超过80%的连续邀请发生在2天的时间间隔之内。

总结

本文中,我们研究了在社交信息背景下微信群的成立与发展,包括:微信群的生命周期,潜在结构的不断变化,以及发展新会员的扩散过程。我们使用了大量收集自微信群聊天平台的匿名数据,通过持续追踪不同时刻群的出现,成长与消亡,提供了对数以百万计的群进行的多样化分析。

我们发现了就群生命周期而言所存在的很明显的两分法,据此定义了两类型群,即长期群与临时群。首先,我们充分考虑了很广泛的群层面特征,从而开发了一个有效的分离模型,证明了长期群与临时群本质上的不同;其次,我们发现了聊天群的生命周期取决于为成员提供日常社交体验与特定目的的群职能与功能。具体来说,事件驱动的群通常拥有较短的使用周期,这与其他以联系为目的的友谊群情况恰恰相反。在长期群与临时群之间存在的明显分离性的前提下,我们进一步解决了早期对群寿命预测问题,证明了我们可以得到很明显的预测结果,甚至对只有一天历史的群同样适用。

除了从群层面对成长与发展进行建模,我们也探索了群成员个人层面上的特征,研究了群发展新成员的传播过程。在认真思考过用户的历史履约行为及用户所嵌入的当地社交网络结构,我们开发了一个成员级联过程模型。我们实现邀请人预测模型95.31%的AUC及受邀人预测模型98.66%的AUC,充分展示了模型的有效性。

未来研究。我们的研究结果为未来的研究提出了许多不但意义深刻,也很重要的未决问题。首先,我们设计的成员级联模型能被用作群成员推荐,也有被整合到现在微信平台的潜在可能性。这能够激发起人们对进行线上实验,探索用户是否有采用群成员建议的可能性,以及在什么情况下有可能的研究。这些研究也将会为我们带来更好的群聊设计及更有效的吸引用户。

【新智元编译,译者:米粒,来源:arXiv.org】

·氧分子网(http://www.yangfenzi.com)延伸阅读:

您可能还喜欢…

1 Response

  1. 【Nature 特稿】机器学习算法重构威尼斯千年历史,成为“谷歌和 Facebook”说道:

    来源:Nature 作者: Alison Abbott 编译:文强

    【新智元导读】瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 利用机器学习算法,将威尼斯多年的历史以动态的数字化形式传承下来,再现这座古城辉煌的共和国时代风貌。Kaplan 将他着手从事的项目称之为“威尼斯时间机器”(Venice Time Machine),不仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献。

    今天我们要介绍的科研项目——威尼斯时间机器,将让历史学家拥有从现今(上图右)穿越到 18 世纪(上图左)威尼斯的能力。

    计算机科学家、瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 想要将威尼斯多年的历史以动态的数字化形式传承下来,再现这座古城辉煌的共和国时代风貌。Kaplan 将他着手从事的项目称之为“威尼斯时间机器”(Venice Time Machine),预计扫描地图、专著、手稿和乐谱等大量文件。Kaplan 希望“威尼斯时间机器”不仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献。

    如果这个项目成功,将为整个欧洲历史文化和商业研究做出巨大的贡献,或能以前所未有的细节揭示整个欧洲大陆当时的社会网络、贸易和知识发展的历史。Kaplan 表示,“威尼斯时间机器”将成为供几个世纪以后的人使用的谷歌和 Facebook。

    圣方济会荣耀圣母圣殿里存储的各种手稿和史册资料。它们将全部被输入“威尼斯时间机器”,用于构建一个供几个世纪以后的人使用的谷歌和 Facebook。圣方济会荣耀圣母圣殿是威尼斯最大的教堂之一,具有次级宗座圣殿的地位。这座天主教堂位于圣波罗区的核心,敬奉圣母升天为主保圣人。图片来源:Nature

    威尼斯时间机器的诞生,得益于机器学习技术的进步。这个项目成功的关键,也在于机器学习技术。

    单纯扫描手稿、文献将其数字化的科研项目已有很多,令威尼斯时间机器脱颖而出的,是其规模和这个项目预计使用的新技术。据 Kaplan 介绍,他计划使用最先进的扫描仪,有些甚至可以在不打开书籍的情况下,读取书中纸页上的内容。此外,还有先进的机器学习算法,将手写文档转换成可被搜索和引用的数字文档。

    威尼斯有着深厚悠久的历史,这些历史被一代代人整理和记录了下来。最重要的是,虽然几经动荡,这些记录都比较完好地保存了下来,最早从公元前 5 世纪开始。1797 年,拿破仑结束了威尼斯的共和国时代,1815 年,圣方济会荣耀圣母圣殿变为威尼斯国家档案馆(State Archives of Venice)。在接下来的几十年中,所有国家的行政文件,包括死亡登记册,医疗记录,公证记录,地图和建筑图案,专利注册和其他文件都陆续转移到这里。这些档案大多以拉丁文或威尼斯方言写就,有些从来没有被现代历史学家阅读过。

    现在,根据 Kaplan 的计划,这些海量的文献将被系统化地送入威尼斯时间机器,和其他更多非常规数据来源一起,以更形象的形式,比如绘画和旅行者日志的形式呈现出来。

    威尼斯时代机器这个项目始于 2012 年,实际上,在此之前,威尼斯国家档案馆就有相关的数字化项目,由意大利文化遗产部资助。威尼斯时代机器大幅推进了相关的过程,引进了专门设计的先进的高速扫描仪,包括一个负责翻页的机械臂,以及一个 2 米宽转盘的旋转扫描仪,能够同时扫描多个 A3 尺寸的文档。这些扫描仪现在每小时生成 TB 级的数千幅用于长期存储的高清图像。这些数据还会被传到洛桑,那里有高性能计算机,专门将图像转换为数字文本,以便进行注释。

    自动识别手稿是一个重大的技术挑战。因为手写的字符,比如个人信件上的文字形状可能有很大差异,并且随着时间的推移可以演变。欧盟专门有一个项目,叫做 READ(Recognition and Enrichment of Archival Documents),在制定各种解决方法。

    Kaplan 也是 READ 的成员之一,他在威尼斯时代机器这个项目里采用的首选方式,就是利用机器学习来识别整个单词的形状。

    机器学习依靠算法,能修改规则和行为,根据从数据集中获取的示例,不断更新提高性能。威尼斯时间机器的算法旨在分析书面文本的结构,并提取看起来类似的图形形状,并将形状与结构联系起来。这让用户能在一份文档中找到一个名称,然后让系统显示数据库中所有其他手稿中出现相同名称的位置。

    Nature 的一篇特稿详细介绍了威尼斯时间机器项目,包括 Kaplan 致力于将人工智能用于人文研究的经历。

    我们可以看 Nature 特稿中给出的这幅图,形象地展示了机器学习算法重构可搜索数据库的过程。

    首先,机械臂负责翻书,扫描仪将图像扫描下来。同时,还有断层扫描技术,能够在不翻开书本的情况下,将书页上的内容扫描下来。这一概念基于医学中使用的计算机断层扫描技术(CT),CT 以不同角度拍摄的 X 射线图像,逐层地建立人体内部的 3D 图像。EPFL 的科学家正在研究古代墨水的组成成分,从而找出可以用作 X 射线造影剂的分子。断层扫描仪扫描书籍的速度更快,质量更高,扫描时对文物造成的损害也较小。

    然后,算法将扫描的图像转换为数字文本。同一个词(比如人物、地方、商标)会被标记出来,还有这个词在其他不同地方出现的情况。

    相关数据综合在一起,构成一个覆盖时间和空间的社交网络。

    Nature 特稿原文链接:www.nature.com/news/the-time-machine-reconstructing-ancient-venice-s-social-networks-1.22147

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>