Как определить пол по фамилии в Excel
Обновлено: 20.11.2024
Нужно ли вам узнать пол имен в наборе данных, с которым вы сейчас работаете? Или у вас есть другая задача, которая включает в себя сопоставление полов с именами? С нашим веб-инструментом гендерной классификации у вас есть возможность сделать именно это.
Примечание. Убедитесь, что если в вашем наборе данных более 1000 имен, вам необходимо покупать запросы на классификацию по цене 1 доллар США за 1000 имен. Но ваши первые 1000 имен бесплатны.
Итак, давайте углубимся, не так ли?
1. Подготовьте свои данные
Сначала вам нужно открыть набор данных в Excel или другой программе для работы с электронными таблицами по вашему выбору. Выделите столбец, содержащий имена, которые вы хотите разрешить нам определить. Скопируйте выделенные имена или конкретный выбор, который вы хотите обработать.
Убедитесь, что вы копируете имена через новую строку.
2. Получить пол
Теперь вы можете вставить имена в текстовое поле слева. Между двумя полями ввода вы можете выбрать режим. По умолчанию используется режим gender, поэтому в этом случае вам не нужно его менять.
Все готово? Нажмите синюю кнопку между двумя полями и подождите, пока мы определим пол для всех ваших имен. В зависимости от количества имен это может занять от нескольких секунд до нескольких минут. Не закрывайте классификатор, пока не будут обработаны все имена.
Если вы видите "--> фамилия" в своем результате, это означает, что соответствующее имя является фамилией, поэтому пол не найден.
3. Заполните свой набор данных
Теперь выберите данные пола в правом текстовом поле и скопируйте их. Не беспокойтесь, вы не можете изменить значения в этом поле.
Вернитесь в Excel или программу для работы с электронными таблицами и вставьте данные о поле в пустой столбец электронной таблицы. Теперь ваши имена и соответствующий пол должны совпадать.
4. Очистить
Если вы превысили количество запросов во время определения пола, в некоторых строках нет значений.
Если вам нужно обработать больше данных, рассмотрите возможность покупки запросов.
Некоторые предостережения
Точность данных о поле, которые вы получите, составляет примерно 95 %, в зависимости от имен. Я уверен, что вы найдете одну или две ошибки.
Эта фиксация не принадлежит ни к одной из веток в этом репозитории и может принадлежать ответвлению за пределами репозитория.
- Открыть с рабочего стола
- Просмотреть в необработанном виде
- Копировать исходное содержимое Копировать необработанное содержимое
Копировать необработанное содержимое
Копировать необработанное содержимое
Автоматическое определение пола по столбцу имен
Что делать, если вы хотите выполнить гендерный анализ своего набора данных, но "пол" не является категорией в ваших данных? Вы можете использовать вычислительные методы, чтобы сделать обоснованное предположение на основе имени человека.
Это безупречно? Ни за что. Имена часто могут быть двусмысленными, и женщина может легко носить «мужское» имя или наоборот. Но часто имя — это все, что у нас есть, и иногда преимущества проведения гендерного анализа перевешивают проблемы компьютерного угадывания пола.
В этом руководстве мы будем использовать инструмент под названием гендеризация.io. Genderize использует базу данных тысяч имен и полов, чтобы дать вам вероятный пол для имени. Это также дает вам вероятность для каждого предположения о поле. Подробнее об этом можно прочитать здесь.
Важное предостережение: Genderize даст вам только 1000 предположений о поле в день, поэтому вам, возможно, придется разделить свои имена между членами команды или использовать Genderize в рассрочку.
Убедитесь, что у вас есть столбец, содержащий только имена.
Если ваш столбец содержит имена и фамилии, вам придется использовать функцию разделения ячеек OpenRefines, чтобы изолировать имена в отдельном столбце.
Загрузите таблицу на Google Диск
Откройте файл CSV в Google Таблицах.
Вставить пять пустых столбцов справа от столбца с именами
Вам понадобятся эти столбцы для хранения информации из Genderize.
Введите формулу для запроса Genderize
В столбце справа от столбца имен введите следующую формулу:
за исключением того, что вместо B2 укажите ссылку на ячейку в собственной электронной таблице, которая ссылается на формулу, добавленную на последнем шаге.
Теперь перетащите эту формулу в конец столбца точно так же, как на предыдущем шаге.
По мере перетаскивания содержимое ячейки будет читаться как «Загрузка». Это означает, что Genderize запрашивает свою базу данных.
У вас есть пол!
В пустых столбцах, которые вы добавили ранее, Genderize заполнит следующую информацию: пол, степень достоверности этого пола (от 0 до 1) и количество записей данных, которые он проверил, чтобы получить ответ.< /p>
Возможно, вам не понадобится информация о вероятности и подсчете, но это полезно знать.
Скопируйте столбец пола и вставьте его как значение (1)
Возможно, вы захотите изменить ячейки, обозначающие пол:", чтобы они просто читались как "мужской", "женский" и "нулевой". Но сейчас, если вы попытаетесь их изменить, Google Таблицы запутаются, потому что чтобы отобразить результаты запроса к Genderize.
Чтобы избежать этого, сначала вставьте новый столбец после столбца, содержащего информацию о подсчете.
Скопируйте столбец пола и вставьте его как значение (2)
Теперь скопируйте весь столбец, содержащий информацию о поле.
Скопируйте столбец пола и вставьте его как значение (3)
Наконец, поместите курсор в первую ячейку нового пустого столбца. В меню «Правка» выберите «Специальная вставка», а затем выберите «Только значения».
При этом будет вставлено только содержимое ваших гендерных ячеек без каких-либо формул, используемых для расчета этих значений.
Избавьтесь от лишних символов
Проще всего использовать функцию "Найти и заменить", чтобы сначала заменить пол: ничем, а затем заменить **" **ничем.
В столбце указан только пол!
Не слишком сложно! Вы можете избавиться от дополнительных столбцов (столбцы с B по F в таблице ниже), если хотите.
Вы можете загружать файлы Excel, содержащие до 300 000 строк. Для больших наборов данных используйте нашу загрузку CSV-файла. Мы поддерживаем файлы .xlsx с одним листом. Если вы загружаете файл с более чем одним листом, будет обработан только первый. Первая строка в вашем листе должна содержать имена столбцов. Файл должен содержать хотя бы один столбец с именами, столбец страны необязателен. Загрузите образец файла здесь. Пример:
Если мы не можем найти имя в определенной стране, мы выполняем глобальный поиск.
Если мы не можем найти имя в глобальном поиске, мы выполняем несколько нормализации имени, чтобы исправить опечатки и охватить все варианты написания.
Мы внедрили многоуровневую технологию, чтобы обеспечить наилучшие возможные результаты.
Загрузить файл в свой аккаунт
В своем аккаунте вы можете загрузить файл Excel или CSV. Независимо от того, что вы выберете, помощник и все дальнейшие шаги будут одинаковыми.
Загрузить расширенный файл
После обработки файла вы можете скачать его расширенную версию. Мы добавили столбцы ga_firstname, ga_gender, ga_accuracy и ga_samples.
Столбец ga_firstname содержит имя, которое мы использовали для поиска.Иногда это значение может отличаться от предоставленного имени. Например, если данное имя является именем пользователя с цифрами, мы пытаемся извлечь из него имя.
ga_gender содержит определенный пол, а ga_accuracy показывает вероятность того, насколько мы уверены в правильности этого результата.
С помощью ga_samples мы даем вам представление о том, сколько записей мы проанализировали для определения вероятности.
Декларация о файлах cookie последний раз обновлялась 01 мая 2019 г.
Обязательные файлы cookie
Cookie | Описание | Продолжительность |
---|---|---|
PHPSESSID | Информация о пользователе | 1 неделя |
euCookie | Принятые файлы cookie | постоянно | tr>
euCookieConfig | Настройки политики использования файлов cookie | постоянно |
darkMode | Темный уведомление о режиме | постоянно |
sid | идентификатор сеанса | постоянно |
Cookie | Описание | Продолжительность |
---|---|---|
PHPSESSID | Информация о пользователе | 1 неделя |
euCookie | Принятые файлы cookie | постоянно | tr>
euCookieConfig | Настройки политики использования файлов cookie | постоянно |
darkMode | Темный уведомление о режиме | постоянно |
sid | идентификатор сеанса | постоянно |