开源与专有大型语言模型在编程反馈生成与评估中的较量
摘要
本文探讨了大型语言模型(LLMs)在计算教育研究(CER)领域中的应用,特别是在生成和评估编程反馈方面的效率。研究团队评估了开源LLMs(如Meta的Llama3)与专有模型(如GPT-4o)在生成高质量编程反馈及评估反馈质量方面的表现。通过对比分析学生提交的Python编程练习数据集,研究发现开源LLMs在生成和评估编程反馈方面几乎与专有模型持平。此外,研究还展示了较小规模的LLMs在执行这些任务时的效率,强调了多种LLMs对教育者和从业者的可访问性,甚至包括免费使用的选项。
Read more...








