探索社交媒体新风向:PoPreRo数据集助力罗马尼亚Reddit帖子流行度预测
摘要
本文介绍了一个名为PoPreRo的新数据集,专门用于预测罗马尼亚Reddit帖子的流行度。该数据集包含了从五个不同的罗马尼亚Reddit子版块收集的28,107个帖子样本,总计超过100万个词汇。文章不仅介绍了这一新颖数据集,还提出了一系列竞争性模型作为未来研究的基线。其中,表现最佳的模型在测试集上的准确率达到61.35%,宏观F1分数为60.60%,显示出这一预测任务的挑战性。此外,通过少样本提示Falcon-7B大型语言模型的进一步研究也指向了相同的方向。因此,作者认为PoPreRo是一个有价值的资源,可用于评估模型在预测罗马尼亚社交媒体帖子流行度方面的能力。
Read more...








