Как определить кодировку файла dbf

Обновлено: 03.07.2026

[РЕШЕНО] DBF и редкие символы

БруноК:

--- Цитата из: eljo 19 апреля 2020 г., 14:35:38 ----.. но держу пари, кодировка символов utf8 16 или что-то в этом роде. Вам нужно преобразовать его в кодовую страницу, которая поддерживает ваши символы во время преобразования из xml.

--- Конец цитаты ---
libreoffice calc предлагает CP 850 : 'DOS Latin 1 Western Europe' для 11codmun.xls

wp:
Raul_ES, поскольку вы новичок в Pascal, я подумал, что, возможно, вам будет поучительнее, если у вас есть рабочий пример для начала. В вики fpspreadsheet есть пример преобразования xls в dbf, но он может оказаться слишком сложным для новичка.

Поэтому я написал приложенную демонстрацию. Он читает ваш файл excel (если он заархивирован, он все равно укладывается в ограничение на загрузку форума), извлекает из него поля и записывает ячейки в файл dbf. Затем файл dbf отображается в DBGrid. FPSpreadsheet преобразует строки в utf8, и в этом примере я увидел, что ваши испанские символы правильно отображаются в DBGrid. Поэтому я предполагаю, что DBF-компонент по умолчанию работает и с UTF8. Я проверял это с Лаз транком и Лаз 2.0.8/fpc 3.0.4 в Windows и Linux Мин. Удивительно, но никаких дополнительных преобразований кодовых страниц не требуется.

Обратите внимание, что для компиляции этой демонстрации вам необходим пакет laz_fpspreadsheet. Перейдите в Online-Package-Manager (в меню «Пакет»), прокрутите вниз до FPSpreadsheet, откройте узел и проверьте строку «laz_fpspreadsheet.lpk», нажмите «Установить». (Конечно, вместо этого вы можете проверить родительский узел "FPSpreadsheet", но для этой демонстрации вам не нужны другие пакеты).

Тэдди:
Сама dBASE (проверенная версия dBASE 4 для DOS, на которую у меня есть лицензия) не поддерживает это, за исключением кодовой страницы, как объяснялось выше.
Сомнительно, поддерживает ли такое наследие платформа очень нужна. Это просто неправильный выбор ядра базы данных, если только вы не работаете с устаревшими данными.

БруноК:

--- Цитата из: wp, 19 апреля 2020 г., 16:09:23 --- Удивительно, но никаких дополнительных преобразований кодовых страниц не требуется.

--- Конечная кавычка ---
Кодовая страница на самом деле CP 1252 (как сообщает notepad++), и это значение по умолчанию для TDBF.

wp:
Я не знаю, что вы хотите сказать.

Когда я загружаю файл dbf, созданный моей демонстрацией выше, в LibreOffice Calc, я получаю правильные испанские символы, когда выбираю UTF8 в диалоговом окне импорта. Когда я загружаю файл dbf в Notepad ++ и переключаюсь на кодировку UTF8, обнаруживаемые текстовые патчи имеют правильные испанские символы. Когда я загружаю файл dbf в свой шестнадцатеричный редактор, я вижу два байта в местах, где ожидается испанский символ -> созданный файл dbf имеет кодировку UTF-8.

Однако, когда я импортирую файл dbf в LibreOffice Base как файл dBase, испанские символы отображаются как два байта. Таким образом, этот файл сбивает с толку «настоящую» программу базы данных. Моя программа передает строки в файл dbf побайтно, а для отображения файл снова считывается без преобразований, поэтому в инфраструктуре Lazarus все выглядит правильно.

Esri реализовала функцию «ПРЕОБРАЗОВАНИЕ КОДОВОЙ СТРАНИЦЫ» в приложениях ArcGIS Desktop (ArcMap, ArcCatalog и ArcGIS Pro), которая позволяет приложениям Desktop считывать и записывать шейп-файлы и файлы dBASE, закодированные в различных кодовых страницах. Функция преобразования кодовой страницы для файлов dBASE (называемая 'dbfDefault') активируется путем указания значения кодовой страницы в системном реестре. Ссылка на кодовую страницу включена в заголовок файла DBF. Кодовой страницей по умолчанию в шейп-файле (.DBF) является UTF-8 (UNICODE). Это значение по умолчанию для текущих методов интернационализации.

Что делает параметр dbfDefault?
Установив значение кодовой страницы в системном реестре, пользователи могут читать и записывать шейп-файлы и файлы dBASE, закодированные в этой кодовой странице. Например, пользователи могут экспортировать шейп-файл, закодированный в OEM, установив значение реестра кодовой страницы в OEM. Пользователи также могут читать шейп-файлы и файлы dBASE, в которых не хранится информация о кодовой странице, если они знают, в какой кодовой странице закодирован файл.

Зачем устанавливать dbfDefault?
При открытии шейп-файла и файла dBASE в ArcMap, ArcCatalog и ArcGIS Pro приложения смотрят на идентификатор языкового драйвера (LDID) в заголовке файла dBASE или связанный *.CPG, которые используются для определения кодовой страницы и помогают определить кодовую страницу читаемого файла. На основе полученной информации о кодовой странице ArcGIS Desktop отображает строки соответствующим образом, выполняя преобразование кодовой страницы, если это необходимо. Если в файле dBASE отсутствует LDID или файл .CPG, предполагается, что файл закодирован в кодовой странице Windows (ANSI/многобайтовая).

Большинство шейп-файлов и файлов dBASE должны содержать информацию о кодовой странице, хранящуюся в файле.Некоторые программы, такие как Microsoft Access и Excel, кодируют файлы dBASE в OEM, но не включают информацию о кодовой странице в LDID, поэтому ArcGIS не считывает файлы правильно. Чтобы избежать этой проблемы, пользователи могут установить для dbfDefault соответствующую кодовую страницу, прежде чем открывать файл, в котором отсутствует информация о кодовой странице.

Как работает dbfDefault?

Настройка dbfDefault в системном реестре определяет кодовую страницу, в которую экспортируется шейп-файл и файл dBASE. Кодовая страница шейп-файла и файла dBASE, созданные в ArcGIS Desktop, кодируются в соответствии с кодовой страницей, заданной значением 'dbfDefault' в системном реестре. Например, если для 'dbfDefault' установлено значение OEM, шейп-файлы и файлы dBASE, созданные в ArcMap, ArcCatalog и ArcGIS Pro, будут закодированы в OEM. В качестве альтернативы, если для dbfDefault установлено значение ANSI, шейп-файлы и файлы dBASE кодируются в ANSI.

С какими программами можно использовать dbfDefault?
Приложения ArcGIS Desktop — это единственные программы, на которые влияет настройка dbfDefault.

На какие форматы данных влияет dbfDefault?
Shapefile и файлы dBASE — единственные форматы данных, которые может использовать параметр dbfDefault для указания кодовой страницы.

Процедура

Предоставленные инструкции описывают, как установить значение dbfDefault в системном реестре. Ниже перечислены два варианта.

Добавьте два ключа Common и CodePage в системный реестр.
Чтобы добавить ключ:
1. Откройте редактор реестра. Нажмите «Пуск» > «Выполнить», введите regedit и нажмите «ОК».
2. В дереве реестра (в левой части окна реестра) перейдите к
  - Computer\HKEY_CURRENT_USER\Software\ESRI и щелкните раздел реестра Desktop 10.x (где x — текущая установленная версия).
  - Для ArcGIS Pro щелкните раздел реестра ArcGISPro.
3. В меню "Правка" выберите "Создать" > "Ключ".
4. Добавьте новый ключ с именем Common: введите имя Common и нажмите Enter.
5. Нажмите новый общий ключ и добавьте еще один новый ключ с именем CodePage.

Как определить кодировку файла dbf

Процедура

Открытие файла DBF¶

Потоковая передача или загрузка записей¶

Кодировки символов¶

Файлы заметок¶

Фабрики звукозаписи¶

Пользовательские типы полей¶

Методы¶

Атрибуты¶