跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

失业的迹象出现在“帖子”中 — 社交媒体比官方统计更早反映经济状况的日子

失业的迹象出现在“帖子”中 — 社交媒体比官方统计更早反映经济状况的日子

2026年01月01日 11:01

“比统计更快的现实”在哪里

失业率和失业保险申请等就业统计数据是经济的体温计。然而,从测量、记录、汇总到发布,体温计需要时间。在危机初期,这种“延迟”尤其令人痛苦。


那么,有没有办法在官方数据之前捕捉到“失业的迹象”呢——研究人员将目光投向了社交媒体上流露出的真实言辞。“失去了工作”“面试失败”“找工作很辛苦”。这些不仅仅是抱怨,还可能成为经济的“快报”。Phys.org


研究要点:JoblessBERT的成就

此次研究(PNAS Nexus)提出了一种框架,通过AI从社交媒体帖子中识别“失业的自我披露”,并预测美国失业保险申请(UI claims)最多提前两周。模型名为JoblessBERT。这是一个基于BERT的Transformer分类器,专门调整用于检测与失业相关的自我申报。Phys.org


有两个关键点。
(1) 不遗漏多样化的帖子:捕捉俚语、拼写错误、随意的表达(例如“needa job”这样的说法)。与传统的“包含75个特定短语”方法(基于规则)相比,JoblessBERT在保持相同精度的同时,能够发现更多的“失业相关自我披露”。OUP Academic


(2) 校正SNS的偏差并转化为“指数”:SNS并不代表总体。因此,研究使用估算的用户属性和人口普查数据进行校正(后分层),创建“Twitter失业指数”,并将其纳入统计模型。OUP Academic


使用了什么数据进行训练

研究团队使用了2020年1月至2022年12月收集的美国基于31.5百万的公开帖子。主要针对用户资料所在地与美国对应的用户,并通过提及关系等方式扩展样本,进行“雪球式”收集。OUP Academic


此外,JoblessBERT本身是在8,838条标记帖子上进行训练,并通过主动学习(优先为不确定的帖子添加标签)提高性能。OUP Academic


“仅仅擅长检测”是不够的:代表性的问题

如果要将SNS数据用于政策,最大的敌人是“偏差”。发帖的人与不发帖的人,特定年龄层或地区的使用偏差。失业的人并不一定会在SNS上表达。


研究正面处理了这一点,从个人资料信息中推测年龄、性别、所在地,并进行人口统计校正。年龄和性别的推测使用了深度学习模型,利用个人资料图片和元数据(如果无法推测,则进行缺失补全)。OUP Academic


这在SNS上容易引发争议。稍后会提到,“为了提高精度从图片推测属性令人恐惧”的反应很常见,同时也有“如果是匿名化和汇总,公共利益更大”的支持声音。


精度提高了多少

论文首先比较了自我披露检测的性能。基于规则的方法精度(precision)高但召回率(recall)低。而JoblessBERT在保持同等高精度的同时,大幅改善了召回率,报告称“发现了约三倍于传统方法的相关帖子”。此外,表达范围的扩大增加了“可捕捉的用户”,使失业者样本更具代表性。OUP Academic


在预测方面,评估了在失业保险申请公开前(最多提前两周)能预测到什么程度,相较于行业共识预测,RMSE改善了54.3%。OUP Academic


在疫情初期“急剧增加”的先行察觉意味着什么

这项研究象征性地展示了2020年3月的剧变。在疫情宣布后的那一周,UI claims从约25万件急剧增加到290万件,共识预测几乎误判了这一急剧增加,而包含SNS指数的模型“感知”到了急变,大幅提高了预测值。JoblessBERT模型在周末前两天预测为266万件,在发布前一天预测为280万件,非常接近实际的290万件。OUP Academic


这里重要的是,并不是“SNS是万能的”,而是**“危机初期的快速反应”**被证明有效。比起经济平稳运行的时期,在断层出现的瞬间更具价值。政策措施(额外补助、地方政府支持、窗口增强等)如果能“提前一周”生效,来自SNS的信号就更具吸引力。


不仅仅是“全国”:州和城市级别的雄心

全国平均难以看出就业的痛苦。产业结构、房租、移民比例都不同。论文评估了州和城市级别的模型,展示了次国家级监测的可能性。Phys.org


如果这能够实施,“哪个城市的哪个行业受到冲击”可能会比官方统计更早被掌握。


但最大的问题是是否会成为“监视”

SNS反应中最容易出现的疑问是:

  • 收集失业的“自我披露”是否会成为追踪弱势群体的行为?

  • 从图片推测属性(年龄、性别)是否会导致个人身份被识别?

  • 政府或企业是否会“方便地”使用这些数据,而不是用于支持,而是用于筛选?


论文方面也考虑到了这些担忧,讨论了**对匿名化信号的“负责任访问”**、与平台的合作、以及监管的方式。简而言之,并不是“什么都能获取”的状态,而是需要一种在保护隐私的同时用于公共目的的研究和监测机制。OUP Academic


平台依赖的现实:Twitter(X)的弱点

另一个SNS的质疑点是,“这不是以Twitter(X)为前提吗?”用户群体在变化,API的规格和可获取性也在波动。论文强调这是“特定时期、特定平台的实证”,并作为“可适应的框架”而非万能工具进行展示。OUP Academic


也就是说,未来需要移植到其他SNS(Reddit、Threads、地区SNS等)或其他语言区域。这既是“研究的有趣之处”,也是“政策实施的难点”。


SNS上的反应(按常见论点分类整理)

实际上,这项研究通过Phys.org的官方账号进行了介绍,成为SNS上分享的话题。LinkedIn


从中可以看出(或容易出现的)反应,按论点整理如下。


1)称赞:“提高统计的快速性是公共利益”

  • “在灾害和疫情等非常时期,提前两周是巨大的”

  • “如果能在州或城市级别更早发现,支援就能及时到位”
    (研究与“危机时更强”的特点一致)OUP Academic


2)担忧:“不要将弱者的声音变成‘监控数据’”

  • “失业的帖子几乎是SOS。如果收集,设计应先连接到支援”

  • “从个人资料图片推测属性让人感到抵触”
    (论文中明确说明了属性推测的实施)OUP Academic


3)疑问:“那些根本不发帖的人怎么办?”

  • “无法在SNS上发帖的群体(老年人、低收入者、地方、语言少数群体)会被忽视吗?”
    (研究的关键在于此处进行校正)OUP Academic


4)现实论:“对Twitter的依赖耐久性较弱”

  • “X的规格变更可能导致无法再现”

  • “平台变化则需重新构建模型”
    (论文强调为“灵活的框架”)##HTML_TAG_423

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.