Трансформеры, как архитектура для обработки последовательных данных, были предложены в научной статье "Attention is All You Need", опубликованной в 2017 году. Эту статью написала группа исследователей из компании Google, состоящая из Ашиша Васвани, Ноя Шазера, Ники Пармар, Якоба Успеки, Люк Джонса, Айдана Гомеса, Льама Кайзера и Иллы Полоса.
Основная идея архитектуры трансформеров заключается в использовании механизма внимания (attention mechanism), который позволяет модели фокусироваться на определенных частях входной последовательности при генерации выходной. В отличие от предыдущих рекуррентных нейронных сетей (RNN) и их разновидностей, таких как LSTM и GRU, трансформеры не зависят от последовательной обработки данных. Это позволило значительно улучшить параллелизм вычислений и снизить время обучения моделей.
Трансформеры стали основой для многих современных моделей обработки естественного языка, таких как BERT, GPT, T5 и другие. Эти модели продемонстрировали выдающиеся результаты в различных задачах, включая машинный перевод, резюмирование текста и вопросно-ответные системы. Трансформеры также нашли применение за пределами обработки естественного языка, в таких областях, как компьютерное зрение и биоинформатика.