"AI在公共政策中的应用:理性化与控制的界限"

Artificial intelligence, rationalization, and the limits of control in the public sector: the case of tax policy optimization

摘要

本文探讨了人工智能(AI)系统在公共部门中的应用,特别是其在税收政策优化中的作用。文章首先将AI的使用视为长期理性化和官僚化过程的延续和强化。通过引用韦伯的理论,文章指出这些过程的核心是将传统观念替换为工具理性,即通过最可计算和高效的方式实现任何给定的政策目标。文章进一步通过一个思想实验,展示了AI系统如何被用于优化税收政策以减少经济不平等,并分析了这种做法可能带来的社会和伦理紧张关系。文章最后指出,尽管AI驱动的政策优化存在一些伦理和法律风险,但它也要求明确和形式化规范性目标,从而使其接受公众审查、审议和辩论。

Read more...

"AI驱动社会理论:创新与挑战"

AI and Social Theory

摘要

本文探讨了人工智能(AI)在推动社会理论发展中的作用。作者提出了一种基于AI的社会理论研究计划,利用日益增长的数字数据来测试和生成新的社会理论。文章通过Randall Collins的状态崩溃模型展示了AI如何帮助综合来自多种来源的知识,推理世界,并以系统的方式应用已知知识。然而,作者也指出了AI驱动社会理论面临的实际、技术和认识论限制,特别是现有AI系统缺乏语义化、可转移性和生成性等关键能力。文章最后讨论了如果这些差距得到解决,未来最先进的社会理论计划可能会由AI驱动的累积进步所主导。

Read more...

"Gemma-2b-it与Phi2模型:革新NLP中的提示恢复技术"

Advancing Prompt Recovery in NLP: A Deep Dive into the Integration of Gemma-2b-it and Phi2 Models

摘要

本文深入探讨了自然语言处理(NLP)中的关键任务——提示恢复(Prompt Recovery),即重建语言模型用于将输入文本转换为特定输出的提示或指令。文章通过比较分析多种预训练语言模型在基准数据集上的效果,重点展示了Gemma-2b-it与Phi2模型结合的卓越性能。该研究不仅揭示了提示设计的复杂性,还为文本重写和更广泛的NLP领域提供了新的视角和创新方法。

Read more...

"iSign:开启印度手语处理技术的新纪元"

iSign: A Benchmark for Indian Sign Language Processing

摘要

本文介绍了一项名为iSign的基准测试,旨在推动印度手语(ISL)处理技术的发展。由于ISL资源有限,现有的机器学习和数据驱动方法在自动化语言处理方面进展缓慢。iSign项目通过发布一个包含超过118,000个视频-句子/短语对的大型ISL-英语数据集,提出了多个NLP特定任务,并提供了详细的ISL语言学见解,以促进研究社区对ISL处理技术的开发和评估。此外,iSign还计划通过增加更多样本和任务来扩展数据集,并计划将语言学先验知识融入模型中。

Read more...

"SmurfCat团队在PAN 2024多语言文本去毒化任务中的创新解决方案"

SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification

摘要

本文由SmurfCat团队在PAN 2024文本去毒化任务中提出,旨在解决多语言文本去毒化的挑战。文章介绍了通过机器翻译进行数据增强和特殊过滤程序,构建了一个额外的多语言平行数据集。利用这些数据,团队对多个多语言序列到序列模型(如mT0和Aya)进行了微调,并应用了ORPO对齐技术。最终模型仅包含37亿参数,实现了乌克兰语的最新技术成果和其他语言的接近最新技术成果。在竞赛中,团队在自动评估中以0.52分获得第一名,在最终的人工评估中以0.74分获得第二名。

Read more...

"利用大型语言模型优化计算机编程教育:提示工程的新策略"

Enhancing Computer Programming Education with LLMs: A Study on Effective Prompt Engineering for Python Code Generation

摘要

本文探讨了大型语言模型(LLMs)和提示工程在计算机编程教育中的应用潜力,特别是通过个性化教学来提升学习效果。研究主要关注三个关键问题:如何系统地分类提示工程策略以满足不同的教育需求,如何增强LLMs解决超出其固有能力范围的复杂问题的能力,以及如何建立一个强大的框架来评估和实施这些策略。通过在LeetCode和USACO等数据集上对GPT-4、GPT-4o、Llama3-8b和Mixtral-8x7b等模型进行实验,研究发现GPT-4o在“多步骤”提示策略下表现最佳,强调了定制提示策略对提升LLM性能的重要性。研究结果表明,通过系统分类和测试这些策略,可以为教育者和学生提供一个全面的框架,以优化基于LLM的学习体验,进一步推动AI技术在教育实践中的应用。

Read more...

"挑战与机遇:探索预测伦理模型的前沿问题与未来方向"

Some Issues in Predictive Ethics Modeling: An Annotated Contrast Set of “Moral Stories”

摘要

本文由Ben Fitzgerald撰写,探讨了预测伦理模型中的问题,特别是如何将道德困境转化为基于文本的输入时的问题。文章通过对比集(contrast sets)展示了这些问题的实际影响,特别是在Moral Stories数据集上的应用。研究发现,即使是微小的文本调整(如3-5个单词的变化)也能显著降低分类器的准确性,从最初的99.8%降至51%。此外,文章还提出了改进这些模型的建议,强调了数据表示错误对分类器准确性的具体影响。

Read more...

"突破性进展:基于合成数据生成的大型语言模型幻觉检测新方法"

Enhancing Hallucination Detection through Perturbation-Based Synthetic Data Generation in System Responses

摘要

本文介绍了一种基于扰动合成数据生成的方法,用于增强大型语言模型(LLM)输出中的幻觉检测。传统的幻觉检测分类任务由于昂贵且迅速过时的标注过程而受阻,尤其是在面对快速发展的LLM时。本文提出的方法通过重写系统响应来自动生成忠实和幻觉输出,实验结果表明,经过微调的T5-base模型在准确性和延迟方面均优于现有的零样本检测器和合成生成方法。

Read more...

"革新计算显微镜图像恢复:多尺度条件生成模型的高效性与质量"

Multi-scale Conditional Generative Modeling for Microscopic Image Restoration

摘要

本文介绍了一种基于多尺度条件生成建模的显微图像恢复方法,利用布朗桥过程和小波域的生成对抗网络(GAN)来加速训练和采样过程,同时保持高质量的图像生成。该方法通过在最低频率子带上启动布朗桥扩散过程,并在后续的高频子带上应用GAN,显著减少了采样步骤和时间,同时在计算显微镜和成像任务中展示了其鲁棒性能。这一创新技术为计算显微镜工作流程中的高效图像恢复提供了一个框架,标志着将尖端生成模型整合到计算显微镜领域的一大步。

Read more...

**标题**:研究 TensorFlow 和 PyTorch 绑定对机器学习软件质量的影响 **摘要**:本文研究了使用 TensorFlow 和 PyTorch 绑定在 C#、Rust、Python 和 JavaScript 中对机器学习软件质量的影响,包括正确性(训练和测试准确性)和时间成本(训练和推理时间)。实验结果表明,在某些任务中,使用非默认绑定可以帮助提高机器学习软件质量(从时间成本角度),同时仍然达到相同的正确性水平。 **工作原理**: 1. **正确性评估**:使用动态时间规整(DTW)分析训练准确性曲线,使用 Mann-Whitney U 检验比较最终训练模型的性能指标。 2. **时间成本评估**:使用 Bonferroni 校正的 Mann-Whitney U 检验比较默认 Python 绑定和非 Python 绑定的训练时间分布,使用 Cliff"s Delta 效应大小量化差异。 **工作流程**: 1. **训练模型**:使用研究的绑定在 GPU 上训练 LeNet-1、LeNet-5、VGG-16、LSTM、GRU 和 BERT 模型。 2. **记录训练正确性和保存模型**:记录每个训练实验的训练准确性,并在训练完成后计算测试准确性并保存模型。 3. **执行推理并记录推理正确性**:使用每个绑定加载预训练模型并在 CPU 和 GPU 上执行推理,记录交叉绑定测试准确性。 4. **测量和记录训练时间成本**:使用 Bonferroni 校正的 Mann-Whitney U 检验比较默认 Python 绑定和非 Python 绑定的训练时间分布,使用 Cliff"s Delta 效应大小量化差异。 5. **测量和记录推理时间成本**:使用 Bonferroni 校正的 Mann-Whitney U 检验比较默认 Python 绑定和非 Python 绑定的推理时间分布,使用 Cliff"s Delta 效应大小量化差异。 **应用前景**: 1. **开发人员**:可以使用非默认绑定来加速训练时间,或者根据任务和要求选择不同的绑定来进行训练和推理。 2. **绑定所有者**:应该包括绑定的性能基准,以帮助开发人员了解不同绑定的时间成本。 3. **研究人员**:应该研究如何提高预训练模型在不同绑定之间的互操作性和兼容性,以及如何解决绑定中的错误。

Studying the Impact of TensorFlow and PyTorch Bindings on Machine Learning Software Quality

摘要

本文研究了使用 TensorFlow 和 PyTorch 绑定在 C#、Rust、Python 和 JavaScript 中对机器学习软件质量的影响,包括正确性(训练和测试准确性)和时间成本(训练和推理时间)。实验结果表明,在某些任务中,使用非默认绑定可以帮助提高机器学习软件质量(从时间成本角度),同时仍然达到相同的正确性水平。

Read more...
Previous Page 55 of 156 Next Page