Как пользоваться R Studio
Обновлено: 21.11.2024
R – это язык статистических вычислений и графики. Использование R в науке о данных, эконометрике и маркетинге резко возросло в последние годы, и (как минимум) его следует рассматривать как замену Stata и SPSS с открытым исходным кодом.
Установка R
Посмотрите наше видео на YouTube, в котором мы проведем вас через настройку в Windows.
- Пользователи Windows: выберите подкаталог «base», затем перейдите к загрузке.
- Пользователи Mac: выберите выпуск из списка "последний выпуск" (выберите первый, если он не работает, попробуйте второй).
Мы настоятельно рекомендуем вам установить R в каталог C:\R\R-4.x.x\, а не в каталог по умолчанию, C:\Program Files\R\R-4.x.x\ .
Установка RStudio
RStudio предоставляет удобный интерфейс для R, а его формат должен быть знаком другим программным средам, таким как Stata или SPSS.
Загрузите и установите бесплатную версию RStudio для вашей операционной системы отсюда.
Проверка установки
Откройте RStudio из меню "Пуск". После запуска вы должны увидеть версию, соответствующую выбранной на сайте.
Установка дополнительных пакетов R
Вам могут понадобиться дополнительные библиотеки для работы с R (например, дополнительный код, который поможет вам выполнять статистический анализ).
Чтобы установить пакеты, откройте RStudio (если он еще не был открыт на предыдущем шаге). В консоли скопируйте и вставьте следующее:
- Если вас спросят, хотите ли вы установить пакеты, требующие компиляции, введите n, а затем Return . Компиляция пакета может привести к некоторым ошибкам, и вы можете работать с уже скомпилированными пакетами (как правило, это более ранние версии пакета).
- Подождите, пока все пакеты не будут установлены и все готово. Это может занять некоторое время, так что наберитесь терпения
Как сделать R доступным в командной строке
Вы только что установили R и RStudio и научились открывать RStudio из меню "Пуск". Однако для многих приложений, которые следуют ниже, требуется доступ к R непосредственно из командной строки. Например, это позволит запускать серию R-скриптов в пакетном режиме, что значительно упростит создание сложных рабочих процессов с данными.
Окна
Чтобы вы могли использовать R из командной строки, пользователям Windows необходимо выполнить следующие действия. В Mac и Linux R по умолчанию доступен из командной строки.
Предоставление доступа к R через параметры PATH в Windows.
Нам нужно обновить наши настройки PATH; эти параметры представляют собой набор каталогов, которые Windows использует для «поиска» программного обеспечения при запуске.
Открыть настройки переменных среды
- Щелкните правой кнопкой мыши Компьютер.
- Перейдите в «Свойства» и выберите вкладку «Дополнительные параметры системы».
- Выберите «Переменные среды».
Кроме того, введите «переменная среды» (голландский: omgevingsvariabelen) в меню поиска Windows 10 и нажмите Enter.
Выберите путь из списка пользовательских переменных. Выберите «Изменить» .
Компьютеры с Windows 7 и 8: если во время установки вы выбрали каталог установки C:\R\R-4.xx\ (т. е. вы не использовали каталог по умолчанию), скопируйте и вставьте следующую строку без пробелы в начале или конце:
Машины с Windows 10:
Нажмите «Создать» и вставьте следующую строку:
C:\R\R-4.x.x\bin (замените 4.x.x на фактический номер версии!)
Нажимайте OK столько раз, сколько необходимо.
Как сделать R доступным через настройки PATH на Mac/Linux
- Вставьте эту команду в свой терминал: nano ~/.bash_profile
- Добавьте к нему следующие две строки:
Имейте в виду, что после добавления нового каталога в переменную PATH вам необходимо запустить новый сеанс командной строки/терминала, чтобы проверить, работает ли он. Иногда может пройти несколько минут, прежде чем ваш PATH будет распознан терминалом.
Теперь давайте проверим, можем ли мы открыть R из командной строки
Откройте командную строку/терминал и введите:
после чего нажмите клавишу «Ввод» . Ожидаемый доход начинается с:
Отличная работа! Вы установили R и настроили его для использования в проектах, интенсивно использующих данные!
Заставить R найти пакеты в командной строке
Теперь вы можете получить доступ к R напрямую из командной строки. Тем не менее, код, который отлично работает в R Studio, может возвращать ошибку в библиотеке (x) в командной строке.
Почему? Иногда при запуске R из командной строки он не находит пакеты, которые были установлены в ваших путях к пользовательской библиотеке.
Решение. Сообщите R, где найти вашу пользовательскую библиотеку.
Заставить R найти вашу пользовательскую библиотеку через настройки PATH в Windows.
В RStudio введите .libPaths() и запишите путь к вашему пользовательскому каталогу (обычно тот, который содержит ваше имя пользователя).
Открыть настройки переменных среды
Щелкните правой кнопкой мыши Компьютер.
Перейдите в «Свойства» и выберите вкладку «Дополнительные параметры системы».
Выберите «Переменные среды»
Выберите «Создать» и назовите его R_LIBS_USER. Значение переменной — это путь (который вы указали ранее) к вашему пользовательскому каталогу.
Проверьте, указывает ли .libPaths() только выделенный вам каталог пользователя, введя .libPaths() в новом сеансе RStudio.
- В противном случае, скорее всего, у вас нет прав администратора на вашем компьютере, а R установлена в другом месте. Добавьте еще одну переменную среды и назовите ее R_LIBS_SITE. Значение переменной — это путь, указанный вторым в выходных данных .libPaths().
Хотите установить R_LIBS_USER на компьютере Mac или Linux? Подробнее читайте здесь.
Убедитесь, что у вас есть доступ к вашим пакетам
Закройте все командные строки/терминалы. Откройте еще раз, нажмите R, чтобы открыть R, а затем введите:
В этом руководстве мы будем использовать образец набора данных переписи ACS . Есть два способа импортировать эти данные в R. Один из способов — импортировать данные программно, выполнив следующую команду в окне консоли R Studio
После выполнения этой команды нажатием Enter набор данных будет загружен из Интернета, прочитан как файл csv и назначен переменной с именем acs . р>
Второй способ импортировать набор данных в R Studio — сначала загрузить его на локальный компьютер и использовать функцию импортировать набор данных в R Studio. Для этого выполните следующие действия
<р>1. Нажмите кнопку импортировать набор данных в правом верхнем углу на вкладке среды. Выберите файл, который хотите импортировать, и нажмите «Открыть». Появится диалоговое окно «Импорт набора данных», как показано ниже
<р>2. После настройки разделителя, имени и других параметров нажмите кнопку «Импорт». Набор данных будет импортирован в R Studio и ему будет присвоено имя переменной, заданное ранее.
Любой набор данных можно просмотреть, выполнив следующую строку:
View(acs)
где acs – переменная, которой назначен набор данных.
2. Преобразование данных
После завершения импорта данных в R Studio вы можете использовать различные функции преобразования R для управления данными. Давайте изучим несколько основных методов доступа к данным
Чтобы получить доступ к определенному столбцу, Ex. age_husband в нашем случае.
acs$age_husband
Чтобы выполнить некоторые запросы к данным, вы можете использовать функцию subset R. Допустим, мне нужны те строки из набора данных, в которых age_husband больше, чем age_wife. Для этого мы запустим в консоли следующую команду
Первый параметр функции подмножества — это фрейм данных, к которому вы хотите применить эту функцию, а второй параметр — это логическое условие, которое необходимо проверять для включения каждой строки. Таким образом, приведенный выше оператор вернет набор строк, в которых age_husband больше, чем age_wife, и назначит эти строки элементу
Получение статистических средних значений из данных
- Чтобы получить среднее значение любого столбца, запустите: mean(acs$age_husband)
- Медиана, запустить: median(acs$age_husband)
- Quantile , запустить : quantile(acs$age_wife)
- Дисперсия, запустите: var(acs$age_wife)
- Стандартное отклонение, запуск: sd(acs$age_wife)
Вы также можете получить статистическую сводку набора данных, просто запустив столбец или полный набор данных
summary(acs)
4. Отображение данных
Очень понравилась функция R studio — встроенный визуализатор данных для R. Любой набор данных, импортированный в R, можно визуализировать с помощью графика и некоторых других функций R. Например,
Чтобы создать точечную диаграмму набора данных, вы можете запустить следующую команду в консоли
plot(x = s$age_husband , y = s$age_wife, type = 'p')
Где s — это подмножество исходного набора данных, а тип «p» задает тип графика как точку. Вы также можете выбрать строку и другую переменную типа изменения на «L» и т. д.
Для графиков распределения данных в R доступно несколько инструментов и пакетов функций, которые можно использовать для построения любого вида распределения. Например
Чтобы нарисовать гистограмму набора данных, вы можете запустить команду
hist(acs$number_children)
Аналогично столбчатым графикам выполните следующий набор команд:
counts
barplot(counts, main="Распределение спален", xlab="Количество спален")
Я надеюсь, что это дало вам общее представление о том, как делать простую статистику в R.
Чтобы получить документацию или использовать функцию в R Studio, просто введите имя функции, а затем нажмите cntrl+space, чтобы открыть окно автодополнения.
Вы можете использовать < em>? перед любым именем функции для просмотра официальной документации
Целью этого руководства является выполнение задачи 1; изучить интерфейс RStudio и понять основы работы R. Те, кто понимает следующее, могут пропустить это руководство:
«Разница» между R и RStudio
Как установить и открыть R и Rstudio
Интерфейс RStudio и почему после установки обоих нужно открыть и работать только в RStudio
Что такое пакеты, что такое рабочий каталог и как RStudio обрабатывает расположение файлов/ссылки на расположение
Если вы не полностью понимаете эти пункты, я настоятельно рекомендую пройти это руководство или просто прочитать определенные необходимые разделы.
2.2 Зачем использовать R для анализа данных?
Хотя R необходим многим статистикам и специалистам по данным из-за его вычислительной мощности и большой гибкости, может быть неясно, чем R полезен для ученых, которые хотят выполнять обработку данных и простой анализ. Однако у R есть много преимуществ по сравнению с другими популярными программными пакетами для анализа данных, такими как SAS или SPSS, даже для исследователей, которым не требуются расширенные возможности R.
- R можно загрузить и использовать бесплатно
- SAS и SPSS очень дороги в использовании и/или требуют доступа через лицензию работодателя.
- R легко загрузить и установить в Windows, Mac и Linux.
- R занимает меньше места для установки, чем другое подобное программное обеспечение.
- R имеет открытый исходный код.
- Пользователи могут расширять функциональные возможности R с помощью надстроек, называемых пакетами.
- Возможности R постоянно расширяются, поскольку для расширения функциональности не требуются масштабные выпуски.
- Обработка данных в R очень проста.
- Можно импортировать наборы данных из большинства других программ, включая Excel, SAS и SPSS.
- Создавать подмножества ваших данных, создавать новые переменные, выбирать конкретные наблюдения и переменные очень просто.
- Большая гибкость этих инструментов
- Инструменты визуализации данных в R очень обширны
- Очень гибкие инструменты для создания пользовательских графиков и таблиц.
- Расширенные функции, часто используемые учеными на практике, доступны в R.
- Очень надежное смешанное моделирование, основные компоненты, факторный анализ, моделирование структурными уравнениями и т. д.
- Улучшит понимание статистики.
- Ключевая часть понимания статистики заключается в анализе реальных данных.
- Благодаря широкому набору инструментов анализа данных и способу работы с R понимание R будет способствовать лучшему пониманию статистики.
- Поделиться выходными данными, полученными с помощью R, очень просто.
- Можно легко выбрать отображение только интересующего вас вывода
- Легко сохранять и загружать рисунки, наборы данных и т. д., созданные в R.
- Благодаря тому, что R использует программирование с помощью скриптов (будет обсуждаться позже), ваши анализы полностью и легко воспроизводятся и ими можно делиться
- Можно сохранять результаты и код в форме отчета с примечаниями, используя R Markdown (будет обсуждаться позже)
- R обеспечивает воспроизводимость результатов анализа.
- Использование скриптов означает, что каждый шаг вашего анализа задокументирован и может быть легко опубликован.
2.3 R и RStudio: в чем разница?
Новые пользователи R часто не понимают разницы между R и RStudio. RStudio на самом деле является дополнением к R: он берет программное обеспечение R и добавляет к нему очень удобный графический интерфейс. Таким образом, когда кто-то использует RStudio, он по-прежнему использует полную версию R, а также получает преимущество большей функциональности и удобства использования благодаря улучшенному пользовательскому интерфейсу.В результате при использовании R всегда следует использовать RStudio; работа с самим R очень громоздка. В этих руководствах textbf R будет использоваться для ссылки на R и RStudio с предположением, что читатель работает в RStudio.
Поскольку RStudio является надстройкой для R, необходимо сначала загрузить и установить R, а также RStudio, два шага, которые выполняются отдельно. На вашем компьютере вы увидите R и RStudio как отдельные установленные программы. При использовании R для анализа данных вы всегда будете открывать и работать в RStudio; вы должны оставить R установленным на компьютере, чтобы RStudio работал, даже если вы, скорее всего, никогда не откроете сам R.
2.4 Установка R и RStudio
Как упоминалось выше, вы должны загрузить и установить как R, так и RStudio. Во-первых, установщик для R можно найти, открыв следующую ссылку:
а затем выберите ближайшую к вашему местоположению ссылку на зеркало. Открыв эту зеркальную ссылку, вы увидите «Загрузить и установить R» со ссылками для установщиков Windows, Mac и Linux. Всегда выбирайте самую новую опубликованную версию. Затем запустите программу установки и следуйте инструкциям.
Во-вторых, установщик RStudio можно найти по следующей ссылке:
для Windows, Mac и Linux (Ubuntu). Пролистайте до «Установщики для поддерживаемых платформ», откройте ссылку на выбранную платформу, запустите установщик после загрузки и следуйте инструкциям. Инструкции для установщика в конечном итоге спросят вас, где был установлен сам R. Как правило, по умолчанию используется правильный путь для R в вашей системе, хотя вам, возможно, придется найти, где вы установили R, и вручную ввести путь в установщик RStudio.
2.5 Интерфейс RStudio
При первом открытии R Studio вы должны увидеть следующий интерфейс:
2.5.1 Консоль
Большое окно слева – это консоль. Вы можете думать об этом как о «калькуляторе» для R Studio. Это были все входные данные, расчеты и выходные данные. На самом деле, если бы вы запускали R, а не R Studio, эта консоль была бы единственным окном, которое вы бы увидели; R Studio добавляет все остальные компоненты интерфейса, которые вы видите. Одна простая команда состоит в том, чтобы добавить два числа. Давайте посчитаем 2+2 в R. Символ > указывает на текущую строку в Консоли, а указатель на эту строку обозначается мигающей вертикальной чертой. Чтобы ввести команду (например, 2+2) в R, вы просто вводите эту команду в текущей строке и нажимаете ввод. R напечатает вывод команды ниже ввода. R также распечатает сообщения, соответствующие вводу в консоли. В R каждая команда считается отдельной строкой; вы не можете иметь несколько команд в одной строке, если вы не разделяете команды в одной строке с помощью ;. Попробуйте ввести 2+2;3+3 в консоли и просмотреть вывод. R автоматически разделит команды, используя ; и вывести вывод каждой команды в отдельной строке. Теперь попробуйте 2+2 3+3 в консоли. Вы видите, что R возвращает ошибку, указывающую на то, что что-то не так, когда R пытается выполнить команду.
Обратите внимание, что R не чувствителен к пробелам, то есть вы можете размещать столько пробелов, сколько хотите, между компонентами ваших команд. Например, попробуйте ввести в консоли команды 2 + 2 или 2 + 2. Вы увидите, что R выполняет команды, как и ожидалось, без каких-либо ошибок. Это относится ко всем командам в R и может использоваться для аккуратного форматирования вашего кода (особенно при создании скриптов, что обсуждается ниже).
2.5.2 Скрипты
Хотя консоль является рабочей лошадкой R, работать исключительно в ней очень неудобно. Вместо того, чтобы вводить команды в консоли каждый раз при запуске R, мы создадим скрипт. Сценарий — это список команд R, который сохраняется в виде текстового файла, а затем построчно отправляется в R. Скрипты — это то, что делает R таким полезным, поскольку они позволяют легко воспроизвести ваш анализ, поскольку у вас есть типизированный список того, что вы сделали, а также упрощают обмен вашим анализом с другими, поскольку типизированный список представляет собой текстовый файл. Скрипты сохраняются как расширение .R, которое может быть прочитано большинством текстовых редакторов (например, Блокнотом в Windows). Чтобы создать новый скрипт, вы можете выбрать
Файл > Новый файл > R-скрипт
в верхней части R Studio. Вы должны увидеть, как окно консоли опускается вниз, а над консолью появляется новое пустое окно.
В этом новом окне будут отображаться ваши открытые скрипты; каждый загруженный вами скрипт отмечен вкладкой в верхней части окна (обратите внимание, что теперь для вашего нового скрипта есть одна вкладка с именем по умолчанию «Без названия1»).Каждый раз, когда вы меняете сценарий, текст становится красным и появляется значок *, указывающий на то, что он был отредактирован с момента последнего сохранения. Чтобы сохранить сценарий, выберите значок под вкладками, который выглядит как синяя дискета. Скрипты сохраняются в виде файлов .R, которые по сути являются текстовыми файлами (это означает, что их также можно редактировать и открывать в текстовом редакторе, таком как Блокнот в Windows).
Каждая «строка» в вашем скрипте соответствует строке, которую необходимо ввести в консоль R. Вы можете расширить команду на несколько строк в вашем скрипте; R Studio достаточно умен, чтобы интерпретировать эти строки как единую команду/«строку» для консоли. После того, как вы напишете эти команды в своем скрипте, R прочитает их одну за другой в консоль. Это делается путем выделения интересующих строк и нажатия кнопки «Выполнить» в правом верхнем углу; вы также можете использовать сочетание клавиш CTRL+Enter в Windows. Чтобы быстро запустить весь скрипт, вы можете быстро выделить весь текст скрипта, используя CTRL+A в Windows, а затем выбрать «Выполнить» (или CTRL+Enter). При запуске сценария вы увидите, что каждая строка передается в консоль ниже с соответствующими выводами и возвращаемыми сообщениями.
2.5.3 Файлы RMD
К этим руководствам прилагается набор сценариев, которые использовались для создания всего содержащегося в них контента. Обычно сценарии сохраняются в виде файлов .R. Однако вы заметите, что все они сохраняются в виде файлов .RMD. Они называются файлами R Markdown, которые подробно объясняются в следующей главе этих руководств. Тем не менее, при изучении этих руководств будет очень полезно самостоятельно запустить включенные сценарии, чтобы четко увидеть код, а также получить практическую практику выполнения кода внутри R. Когда вы откроете файл .RMD, вы заметите оба текст боли, используемый в руководстве по этому файлу, а также некоторый код R внутри серых прямоугольников, называемых фрагментами. Вы можете пока игнорировать строки, которые начинаются и заканчиваются на th.
Каждый фрагмент представляет собой набор кода R, то есть «фрагмент сценария», при этом весь «сценарий» состоит из комбинации этих фрагментов. Каждый раз, когда вы запускаете код в чанке, вывод этого кода будет напечатан под чанком.
Это очень упрощает изучение каждой части кода в интерактивном режиме, поскольку вы можете редактировать код каждой части так же, как редактируете часть своего скрипта. Чтобы запустить код в чанке, просто нажмите значок зеленого треугольника в правом верхнем углу чанка. Чтобы запустить весь код фрагментами над интересующим фрагментом, нажмите значок серого треугольника непосредственно слева. Это необходимо, когда интересующий блок зависит от результатов блоков над ним в файле .RMD. Таким образом, эти файлы .RMD подобны «расширенным» версиям скриптов, т. е. скриптам с дополнительными функциями (вывод распечатывается под блоком, а не в консоли, и вы можете легко сопровождать свой R-код текстом с подробным описанием кода, используя белый пространство вне чанков). Таким образом, лучший способ использовать эти учебные пособия заключается в следующем. Когда вы читаете файлы HTML, у вас также должен быть открыт соответствующий файл .RMD. Запускайте каждый фрагмент кода в файле .RMD по мере его появления в файле HTML. Таким образом, вы можете сочетать чтение с практической практикой, одновременно повторяя прочитанное. Эти файлы R Markdown особенно полезны для создания подробных отчетов для документирования вашего статистического анализа. Дополнительную информацию см. в главе R Markdown в этих руководствах.
2.5.4 Окружающая среда
Верхнее правое окно интерфейса R Studio содержит файл Environment. Дополнительную информацию об этом окне и среде в целом см. в главе 3.
2.5.5 Графики, пакеты и справка
Наконец, нижнее правое окно интерфейса R Studio содержит различные компоненты, каждый из которых разделен вкладкой. Вкладка «Файлы» — это графический способ открытия файлов в R. Как правило, проще использовать команды R через ваш скрипт, поэтому мы переходим к следующей вкладке. На вкладке «Графики» отображаются все графики, которые вы создаете в R; см. главу 5 для более подробной информации. На вкладке «Пакеты» вы можете установить новые пакеты и просмотреть уже установленные. Пакеты — это надстройки для R, которые расширяют его возможности. Чтобы установить новый пакет, на вкладке «Пакеты» нажмите кнопку «Установить» и введите имена интересующего вас пакета. Это работает как поисковая система, где при вводе вам будут отображаться пакеты, в имени которых есть совпадающие символы. выбирать. Всякий раз, когда вы загружаете R, вы всегда должны «включать» любые пакеты, необходимые для вашего анализа. Это проще всего сделать с помощью функции library().Мы подробно обсудим функции позже; на данный момент, чтобы включить пакет с именем ex, используйте библиотеку команд (ex). Включите эту команду в свой скрипт в начале, чтобы вы загружали нужные вам пакеты каждый раз, когда запускаете свой скрипт. Наконец, у нас есть вкладка «Помощь». Здесь вы можете получить доступ к документации R, чтобы помочь с любыми проблемами, с которыми вы столкнетесь в R, или использовать в качестве источника информации о R.
После загрузки и установки R и RStudio вы готовы приступить к работе с этой мощной средой статистических вычислений.
Важно отметить, что R — это программа, работающая в текстовой среде, которая называется консолью R. Поначалу работа в такой среде может быть непривычной, поскольку графические программы встречаются гораздо чаще. R по своей сути является языком программирования. В частности, R является интерпретируемым языком, что означает, что вы вводите инструкции о том, что R должен делать в этой консоли, а затем R интерпретирует и выполняет ваши инструкции, а затем возвращает любые результаты.
При программировании часто бывает удобно иметь быстрый и одновременный доступ ко множеству различных вещей: текстовому редактору, консоли, информации о созданных переменных, последних графиках, установленных пакетах и т. д. Обычно это достигается с помощью встроенного среда разработки (или IDE). IDE — это вторая часть программного обеспечения, которая служит интерфейсом для языка. RStudio — одна из таких IDE для R. По сути, вы можете запускать RStudio и выполнять там всю свою работу, а RStudio позаботится о вызове R в фоновом режиме для выполнения ваших распоряжений.
Когда вы запустите RStudio, вам будет представлено окно с некоторым количеством панелей внутри — R Console будет одной из них. Вы можете, если хотите, сделать все из командной строки консоли на этой панели (показано ниже):
Однако вам, скорее всего, будет удобнее работать внутри R-скрипта, если вам нужно ввести больше одной или двух строк. Выберите в меню «Файл → Новый файл → R-скрипт». Это должно создать новое окно скрипта, в котором вы можете печатать.
В этом новом окне скрипта давайте введем команду, чтобы найти среднее (т. е. среднее) небольшого набора значений. Введите следующее: Затем выделите все, что вы только что набрали, и нажмите кнопку «Выполнить» в верхней части окна скрипта. Это отправляет весь код, который вы только что набрали, в RConsole, выполняет его и отображает все полученные результаты в окне консоли R.
Вы должны увидеть примерно следующее:
Обратите внимание, как команда, которую вы только что выполнили, снова печатается в нижней части окна, в области консоли, вместе с соответствующим выходным значением (например, 3,5) прямо под ней. (Не обращайте внимания на «[1]» перед ним — мы поговорим об этом позже.)
Вы также можете просто ввести "mean(c(1,2,3,4,5,6))" сразу после приглашения "$\gt$" в консоли R, а затем нажать клавишу "Ввод" в том же конце. .
Читайте также: