Виды форматов электронных документов. Форматы электронных документов, применяемых в управленческой деятельности

Екатерина Колесникова, советник государственной гражданской службы РФ 3 класса.

Специально для компании «Такском».

Электронные форматы счетов-фактур, журнала учёта полученных и выставленных счетов-фактур, книг покупок и книг продаж, дополнительных листов к ним известны нам с того момента, как вышел Приказ ФНС России от 05.03.2012 № ММВ-7-6/138@, который применялся с 23.05.2012 и утратил силу 13.04.2015 в связи с изданием Приказа ФНС России от 04.03.2015 № ММВ-7-6/93@.

Форматы первичных документов представлены нам с 21.03.2012 , в соответствии с Приказом ФНС России от 21.03.2012 № ММВ-7-6/172@ (изменён в редакции от 02.02.2015). Этим приказом были утверждены форматы электронных товарной накладной (ТОРГ-12) и акта приёмки-сдачи работ (услуг). Однако, небезызвестно, что с 2013 года Федеральным законом от 06.12.2011 № 402-ФЗ определение названия и состава показателей первичных учётных документов, а также форм их представления возложено на руководителя экономического субъекта. В связи с изменениями законодательства утверждение ФНС России форматов и форм первичных учётных документов из альбомов унифицированных форм, утративших обязательность применения, стало не актуальным.

На законодательном уровне уже давно велась работа по приведению форматов электронных документов в соответствие с современными требованиями. «Модернизированные» форматы накладных ТОРГ-12 и актов приёмки-сдачи работ представлены нам в конце 2015 года в соответствии с Приказами ФНС России от 30.11.2015 № ММВ-7-10/551@ и от 30.11.2015 № ММВ-7-10/552@.

Как заявили в ФНС России старые форматы накладных ТОРГ-12 и актов приёмки-сдачи работ будут действительны на протяжении всего 2016 года. Таким образом, у участников электронного документооборота хватит времени на освоение новых форматов и перенастройку информационных систем компаний для работы с ними.

Новые форматы представления документов о передаче товаров, работ, услуг, действующие с 01.01.2016

Приказы ФНС России от 30.11.2015 № ММВ-7-10/551@ и от 30.11.2015 № ММВ-7-10/552@, утвердившие новые форматы документов (далее - новые форматы), призваны расширить сферу применения электронного документооборота. Теперь перечень документов, которые налогоплательщики в соответствии с п. 7 ст. 80 и п. 2 ст. 93 НК РФ могут представлять в налоговые органы по ТКС в рамках процедур истребования или вместе с налоговой декларацией, значительно увеличен.

Формат, утверждённый Приказом ФНС России от 30.11.2015 № ММВ-7-10/551@, описывает требования к xml-файлам передачи по ТКС первичного учётного документа, оформляющего приемку-передачу товаров при исполнении договоров в рамках отношений, регулируемых главой 30 ГК РФ «Купля-продажа». Такой электронной «накладной» можно оформлять передачу любых видов ценностей одного хозяйствующего субъекта другому. Документ о передаче товара представляет собой два файла. Один содержит сведения продавца о сделке и электронную подпись уполномоченного лица. Второй - идентификационные сведения о первом файле, информацию о сделке со стороны покупателя, а также электронную подпись уполномоченного лица.

В свою очередь, формат, утвержденный Приказом ФНС России от 30.11.2015 № ММВ-7-10/552@, описывает требования к хml-файлам передачи по ТКС первичного документа в электронной форме, оформляющего приёмку-передачу результатов выполненных работ (оказанных услуг). Он тоже состоит из двух файлов. В одном содержится информация исполнителя: сведения передающей стороны о сделке и электронная подпись. В другом - идентификационные сведения о файле исполнителя, данные о сделке со стороны заказчика и его электронная подпись. При этом новым форматом предусмотрена ситуация, в которой возникает необходимость исходя из условий сделки, либо по причине разбирательств с контрагентом в формировании одностороннего акта. В этом случае в электронном документе будет только один файл с квалифицированной электронной подписью отправляющей стороны.

Новые форматы содержат реквизиты, которые были и в ранее рекомендованных форматах, и отвечают требованиям, установленным Федеральным законом от 06.12.2011 № 402-ФЗ к первичным документам. При этом новые форматы отличаются гибкостью в своём использовании за счёт наличия в них свободных информационных полей, которые организация может заполнять по собственному усмотрению.

Так называемые свободные поля могут заполняться организациями любыми дополнительными реквизитами (50 символов), позволяющими учитывать специфику оформляемой операции, а также значениями этих реквизитов (2000 символов). Кроме того, налогоплательщикам предоставляется возможность включения в первичный учетный документ отдельного файла любой структуры и вида, позволяющего отразить в документе более полную информацию о факте хозяйственной жизни.

Кроме того, в новых форматах можно формировать различные версии документа с учетом сделанных исправлений. И ещё один плюс новых форм - это возможность изменять наименование типа электронного документа. Например, вместо «Акта выполненных работ» можно написать тип документа «Акт приёма-передачи результата работ», форма которого разработана в организации.

Как и прежние форматы, установленные для первичных документов (накладных ТОРГ-12 и актов приёмки-сдачи работ), новые форматы лишь рекомендованы нам к применению в работе, а их утверждение не требует их обязательного использования. Иначе говоря, организации могут обмениваться документами в любых форматах, в том числе и разработанных самостоятельно. Но, ещё раз хочу отметить, что будет целесообразнее использовать рекомендованные ФНС России форматы, поскольку такие электронные документы можно будет передавать в налоговую инспекцию по требованию о представлении документов без лишних трудозатрат.

Новый формат первичного документа, включающего в себя счёт-фактуру

Приказом ФНС России от 24.03.2016 № ММВ-7-15/155@ утверждён формат счёта-фактуры и формат представления документа об отгрузке товаров (выполнении работ), передаче имущественных прав (документ об оказании услуг), включающего в себя счёт-фактуру, в электронной форме.

При этом, утверждённый формат имеет различные варианты документального оформления факта финансово-хозяйственной жизни организации:

Вариант № 1.
Счёт-фактура с дополнительной информацией с функцией счёта-фактуры, используемого при расчётах по налогу на добавленную стоимость, представляет собой файл обмена от продавца и содержит сведения, предусмотренные для счетов-фактур соответствующими нормативно-правовыми документами. Файл подписывается усиленной квалифицированной электронной подписью лица, уполномоченного на подписание счетов-фактур.

Вариант № 2.
Счёт-фактура с дополнительной информацией с функцией счёта-фактуры, используемого при расчётах по налогу на добавленную стоимость, и документа об отгрузке товаров (выполнении работ), передаче имущественных прав (документ об оказании услуг), результатом которых является изменение финансового состояния передающей и принимающей сторон. Документ включает:

  • файл обмена для представления информации продавца, включающий в себя счёт-фактуру, применяемый при расчётах по налогу на добавленную стоимость, а также дополнительные сведения передающей стороны об участвующих в сделке экономических субъектах, предмете сделки и иных существенных обстоятельствах оформляемой сделки. Файл подписывается усиленной квалифицированной электронной подписью лица, уполномоченного на подписание счетов-фактур, а также электронной подписью лица, ответственного за оформление факта хозяйственной деятельности со стороны передающего субъекта;
  • файл обмена для представления дополнительной к счёту-фактуре информации покупателя в виде сведений принимающей стороны по оформляемой сделке. Файл подписывается электронной подписью лица, ответственного за оформление факта хозяйственной деятельности со стороны принимающего субъекта.

Вариант № 3.
Счёт-фактура с дополнительной информацией с функцией документа об отгрузке товаров (выполнении работ), передаче имущественных прав (документ об оказании услуг), результатом которых является изменение финансового состояния передающей и принимающей сторон. Документ включает:

  • файл обмена для представления информации продавца, включающий в себя сведения передающей стороны об участвующих в сделке экономических субъектах, предмете сделки и иных существенных обстоятельствах оформляемой сделки в структуре файла обмена счёта-фактуры (информации продавца). Файл подписывается электронной подписью лица, ответственного за оформление факта хозяйственной жизни со стороны передающего субъекта;
  • файл обмена для представления дополнительной к информации продавца информации покупателя в виде сведений принимающей стороны по оформляемой сделке. Файл подписывается электронной подписью лица, ответственного за оформление факта хозяйственной жизни со стороны принимающего субъекта. Данный файл может отсутствовать, если в соответствии с гражданским законодательством составление двустороннего документа не требуется.

Следовательно, в зависимости от своего назначения набор обязательных реквизитов xml-файла документа о передаче товаров (работ, услуг, имущественных прав) будет разным.

Для составления счёта-фактуры это будет файл обмена со сведениями, предусмотренными Постановлением Правительства от 26.12.2011 № 1137 и ст. 169 НК РФ, подписанный уполномоченным лицом. При этом ощутимых отличий с действующим в соответствии с Приказом ФНС России от 04.03.2015г. № ММВ-7-6/93@ форматом счёта-фактуры в электронном виде нет.

Для составления первичного документа файл будет содержать реквизиты, заданные требованиями Федерального закона от 06.12.2011 № 402-ФЗ, и состоять из двух файлов обмена с информацией об экономических субъектах, участвующих в ней, и о предмете сделки. Один титул будет подписываться ответственным лицом за оформление факта хозяйственной деятельности с отправляющей стороны, другой - ответственным с принимающей.

Для составления подобного универсального документа, который объединяет в себе функции счёта-фактуры и первичного документа, файл должен состоять из двух файлов обмена и содержать обязательные реквизиты обоих документов.

Таким образом, к настоящему моменту у организации имеется полный набор форматов документов для оформления в электронном виде любой ситуации её финансово-хозяйственной деятельности, связанной с передачей товаров, работ, услуг, имущественных прав от одного хозяйствующего субъекта другому. Форматы разработаны для всех документов, которые наиболее часто запрашиваются налоговыми органами у налогоплательщиков, что в конечном итоге приводит к оптимизации процесса работы между ними.

Обмениваться электронными документами с контрагентами намного быстрее, чем бумажными. Их удобно хранить, искать и представлять по требованию ФНС. Узнайте о преимуществах использования электронного документооборота для вашей компании.

Дата публикации: 24.05.2016

То есть форматы для хранения текстовых файлов. Сейчас основным средством, практически монополистом в подготовке стандартных текстовых документов является программа MicrosoftWord, поэтому далее основное внимание будет уделено форматам, предназначенным для этой программы.

а) DOC . Форматы, имеющие расширение. doc это обычный способ представления текста вMicrosoftWord. Текст с расширением.docсодержит данные о том, где и какая осуществляется разбивка на строки и абзацы, способы выравнивания текста, отбивка между строками и абзацами, вид и начертания шрифтов и так далее. Все это называетсяформатированием текста . Форматирование текста и формат файла – это совершенно разные понятия, хотя выражены они близкими словами.

Не всегда старая версия MicrosoftWordне может прочитать то, что создано на более современной версии. Или при переходе на более старую версию либо другую программу теряется что-то из форматирования документа. Но более новые версии всегда полностью могут читать то, что создано в более ранних версиях.

Формат DOC позволяет создать самое качественное форматирование текста, но созданный текст не всегда воспроизводим на другом компьютере.

б) RTF . Расширение.rtfрасшифровывается какright text format , что значитправильный текстовый формат . Форматы семействаrtfобладает очень широкой совместимостью, их понимают все текстовые процессоры, старые и новые. Но не все текстовые редакторы, так как редакторы – более примитивные средства работы с текстом. Многие нетекстовые (например, графические) программы значительно лучше работают сrtf, чем сdoc. Совместимость реализуется потому, что вrtfформатирование преобразуется в программные инструкции, которые позволяют открывать и просматривать документ в различными средствами.

Если нужно переписать с помощью дискеты текст на другой компьютер, при этом неизвестно какая на нем стоит программа работы с текстом, то надежнее всего сохранить его в формате rtf. Файл форматаrtfимеет несколько больший объем, чемdoc, но появляется гарантия, что другой компьютер этот текст поймет.

Формат RTF позволяет воспроизвести созданный текст на любой версии Microsoft Word и во многих нетекстовых программах.

в) TXT . Это примитивный текстовый формат, не содержащий сложного форматирования. Из форматирования здесь сохраняется только деление на абзацы, и каждая строка превращается в абзац. Форматtxt, применяется программистами для написания программного кода, т.к. компьютер не нуждается в «красивом» по человеческим понятиям оформлении текста. Еще форматtxtиспользуют тогда, когда текст должны понять пользователи с разным программным обеспечением, когда конечная программа не распознает другие форматы файлов.

В Windowsимеется программное средство для работы с текстами в формате.txt–Notepad (Блокнот) , с его помощью удобно просматривать различные программы и электронные документы, не предназначенные для распечатки.

Сообщения электронной почты также не имеют развитого форматирования. Поэтому, если вы отправите документ в виде почтового сообщения, то он потеряет свой внешний вид. Если же требуется передать по почте не только содержание, но и внешний вид текста, то его надо отправлять в виде файла формата doc, прикрепленного к почтовому сообщению.

Существует много других текстовых форматов . 10 и более лет назад кромеWordбыли популярны несколько других текстовых программ, например, отечественная программа «Лексикон». Для программ, вытесненныхMicrosoftWord, были разработаны свои, оригинальные текстовые форматы, которые могут понадобиться при прочтении текстов того времени.

Наконец, текст можно хранить и в той или иной степени редактировать в десятках других форматах, предназначенных не для создания текстовых документов, а для других целей. В качестве примеров можно привести формат . html для созданияWeb-сайтов, . xlx для табличного редактораExcel, популярныйPostScriptформат. pdf и множество других.

Текстовые файлы -- наиболее распространенный тип данных в компьютерном мире. Существуют несколько проблем, связанных с текстовыми файлами. Первая -- чрезвычайно большое количество символов, требующихся для поддержки различных языков. Американские программисты для работы со 128 символами используют набор символов US ASCII (американский стандартный код для обмена информацией). Для поддержки других языков зачастую не хватает и 256 символов, поэтому сейчас осуществляется постепенный переход к кодировке Unicode, в которой для хранения одного символа отводится уже два байта (т. е. имеется возможность закодировать 65 536 различных символов).

Вторая проблема заключается в том, что люди хотят, чтобы распечатываемые документы содержали графики, диаграммы, примечания, заголовки и чтобы при этом использовались различные шрифты. Документы, распространяемые в Интернет (онлайновые документы), могут содержать мультипликацию, ссылки на различные сетевые ресурсы и звуковое сопровождение.

Многие текстовые файлы передаются в виде простого текста (plain text). Простой текст сложно сделать привлекательным и легко читаемым, так как в нем нет шрифтов различных начертаний, графики, заголовков, подзаголовков и т. д. Эти дополнительные особенности носят название разметки текста (markup).

Говоря о разметке текста, выделяют понятия физической и логической разметки. При использовании физической разметки текста указывается точный вид каждого фрагмента. Например, "центрированный текст, 14-м кеглем, жирный, гарнитура Times". При логической разметке указывается логическое значение данного фрагмента, например, "это заголовок главы". Эти два способа разметки предназначаются, как правило, для использования в разных ситуациях. Для того чтобы распечатать текст на принтере, необходимо использовать физическую разметку. Должны быть приняты решения о размере полей и абзацных отступах. Ранние версии текстовых процессоров использовали только физический тип разметки. При этом для каждого фрагмента указывался шрифт, размер и стиль.

При обмене информацией с другими людьми физическое оформление текста накладывает ряд ограничений, особенно для онлайновых документов. Размер экрана, разрешение, шрифты различны для различных систем. По этим причинам все чаще используется логическое оформление текста. В некоторых случаях логическое оформление практически необходимо: при создании электронных документов типа страниц WWW или при создании и публикации объемных трудов, таких как книги.

Для сохранения разметки документов при передаче текстовой информации от машины к машине применяют разные способы. Текстовые процессоры и издательские системы используют специально разработанные форматы файлов, содержащие не только текст, но и информацию о том, как он должен быть оформлен. Основная проблема здесь в несовместимости таких форматов, хотя наиболее сложные программы обычно могут читать файлы в форматах программ-конкурентов. Примерами такого подхода являются текстовые процессоры Word и StarWriter.

При другом подходе непосредственно в текст документа вставляются специальные команды разметки. Даже если у вас нет программного обеспечения, поддерживающего такой формат, вы все же сумеете в нем разобраться. Существует немало способов подобного представления разметки текста, в том числе:

  • HyperText Markup Language (HTML), использующийся в World Wide Web;
  • TeX и LaTeX, пользующиеся популярностью у многих академических изданий, а также у математиков, физиков, химиков и даже музыкантов.

Примерами программ, которые позволяют разметить текст подобным образом, служат Netscape Composer и LyX (KLyX).

Файлы, созданные разными редакторами, зачастую имеют уникальные расширения, позволяющие, не заглядывая внутрь документа, догадаться о способах разметки текста. Так файлы, созданные редакторами подготовки plain-текста, часто имеют расширение.txt, а подготовленные в редакторе Lyx -- .lyx. Текстовый процессор Word по умолчанию создает файлы в формате MS Word (расширение.doc), но поддерживает и другие форматы, например RTF (расширение.rtf). Документы, содержащие команды разметки языка HTML, имеют расширение.html или.htm.

Очевидно, что невозможно перечислить все текстовые редакторы. Многие из них "заточены" под ту или иную специфическую деятельность. В списке, рассмотренном ниже, представлена лишь небольшая часть текстовых редакторов.

Редакторы неформатированных текстов

NotePad встроен в операционную систему Windows, понятен и прост и использовании; McEdit имеет сходство с редактором Edit из MS DOS, компонента файлового менеджера mc (Midnight Commander) ОС Linux; KEdit простейший текстовый редактор, входит в состав KDE Linux; KWrite текстовый редактор, имеющий ряд дополнительных настроек по сравнению с другими простейшими текстовыми редакторами; Emacs совмещает в себе функции файлового менеджера и текстового редактора; одной из отличительных черт является возможность создание макрокоманд (макросов); имеется во всех клонах Unix, в том числе и Linux; Emacs можно использовать и в MS Windows.

Редакторы, создающие текст с элементами разметки

Word служит для создания разнообразных печатных документов, является компонентом офисных приложений в MS Windows; StarWriter входит в состав программы StarOffice, внешним видом и функциональностью он похож на Word, одинаково хорошо работает как в MS Windows, так и в ОС Linux; LyX (KLyX в KDE) современный текстовый редактор, предназначенный для людей, которые хотят получить документ, выглядящий профессионально, но затратить на его создание минимум времени; редактор вставляет в текст команды разметки TeX и LaTeX; Netscape Composer вставляет в текст команды разметки языка HTML, существуют версии как для ОС Linux, так и для MS Windows.

Электронные документы стали такой же важной частью архивов, как и принтер на столе секретаря. Тексты, фотографии, чертежи, базы данных, аудио- и видеофайлы стремительно уходят в «цифру», вызывая к жизни дискуссии о том, какие форматы наиболее пригодны для постоянного хранения электронных документов. К счастью, российским архивистам есть к кому обратиться за помощью.

Об электронных документах говорят все чаще и громче. В США архивисты посвятили этому направлению работы полноценный профессиональный праздник - День электронного документа (Electronic Records Day), который отмечается 10 октября. В этот день ученые и практики собираются вместе для обсуждения актуальных вопросов сохранности электронных документов.

Российское научное сообщество также не остается в стороне от решения практических задач, пусть и не приуроченных к красным дням календаря. В прошлом году ученые из Российского государственного гуманитарного университета (РГГУ) провели масштабное исследование разных форматов файлов электронных документов с детальным описанием нюансов каждого из них.

Выводы, основные тенденции представлены в научном докладе РГГУ «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения».1 Это одна из первых подобного рода научно-исследовательских работ в России, позволяющая архивистам федеральных органов исполнительной власти, государственных и негосударственных организаций, а также государственных и муниципальных архивов объективно подойти к вопросу выбора наиболее оптимального формата постоянного (долговременного) хранения электронных документов.

Некоторые требования к хранению электронных документов

Уже на этапе проектирования СЭД система выстраивается таким образом, чтобы в течение всего срока хранения обеспечивать аутентичность, надежность и пригодность документа независимо от изменений в системе2 . Такие изменения в числе прочих могут быть вызваны конвертированием форматов, миграцией3 между техническим оборудованием, операционными системами или программными приложениями. При этом следует отметить, что при конверсии форматов сведения о совершенном конвертировании должны быть сохранены в составе контрольной информации4 . Важно также знать, что, помимо оригинала электронного документа, на протяжении всего срока хранения необходимо сохранять документ метаданных (описание документа)5 , который содержит все метаданные об электронном документе. Если срок хранения электронного документа превышает ожидаемый срок существования систем хранения данных, необходимо задокументировать планы миграции в новые системы6 .

Читабельность – неотъемлемая характеристика электронного документа. Она обеспечивается соответствием технических характеристик документа и программного обеспечения, доступного работникам архива. Формат файла, определенный для постоянного (долговременного) хранения, должен соответствовать техническим возможностям органов государственного власти, государственных и муниципальных архивов, негосударственных организаций и др. по воспроизведению информации в долговременной перспективе7 . Более того, законодательно закреплено, что электронные документы принимаются на хранение в сопровождении программных средств, позволяющих их воспроизвести, и комплекта сопроводительной документации8 .

В отношении форматов файлов, отображение которых должно поддерживаться системами электронного документооборота, нет точного единообразия. Имеющиеся на сегодняшний день нормативно-правовые акты несколько разнятся в своем видении финального списка. Например, согласно Рекомендациям по подготовке федеральными органами власти перечней документов, создание, хранение и использование которых должно осуществляться в форме электронных документов при организации внутренней деятельности (утв. приказом Росархива от 29.04.2011 года № 32), присутствие в СЭД ФОИВ электронных документов рекомендательно осуществляется в форматах PDF, DOC, RTF, TXT, XML.

В соответствии с Требованиями к информационным системам электронного документооборота федеральных органов исполнительной власти, учитывающих в том числе необходимость обработки посредством данных систем служебной информации ограниченного распространения (утв. Приказом Минкомсвязи РФ от 02.09.2011 года № 221), обязательными являются следующие четыре формата: PDF, RTF, DOC, TIFF. Другие нормативные документы допускают возможность присутствия в электронных системах органов государственной власти иных форматов файлов электронных документов.

В сентябре 2014 года экспертный совет при Минкомсвязи использовать PDF/A в качестве формата межведомственного взаимодействия в СЭД и долговременного хранения электронных документов. Наряду с PDF/A предлагается передавать XML-файл с реквизитами электронного документа. Известно, что совместно с ФСО будет подготовлен соответствующий приказ с требованиями к документообороту.

Рекомендации по выбору хранения формата электронных документов

Выбор оптимального формата хранения определяется видом информации, характеристиками технических средств хранения (магнитных, оптических, твердотельных носителей электронных данных), особенностями доступа пользователей к данным и программным средствам. В связи с удешевлением носителей информации и повышением их емкости, доступность ПО и считываемость формата файла в долговременной перспективе признаются главными факторами при выборе способа кодирования. В сравнительном анализе форматов электронных документов (текстовых, графических, аудио- и видеофайлов, баз данных, презентаций), проведенном сотрудниками РГГГУ, учитывались следующие критерии:

  • разработчик и права собственности;
  • год разработки формата файлов;
  • год его последней модернизации;
  • частота обновлений программного кода;
  • наличие версий;
  • открытый или закрытый программный код;
  • описание и сравнение математических алгоритмов сжатия;
  • предназначение формата файлов;
  • наличие и доступность конвертеров;
  • устойчивость при множественных репликациях 9 .

Текстовые форматы

Текст – основной массив хранимой в архивах информации. К нему относятся как тексты на языках человеческого общения (за исключением иероглифической письменности, близкой к графической форме), так и языках программирования. Нередко текстовые файлы включают фрагменты графической информации. В отличие от иллюстраций, аудио- и видеозаписей текстовые данные поддаются значительному сжатию при помощи специальных архиваторных программ.

Согласно рекомендациям РГГУ, архивирование файлов лучше производить в незашифрованном виде с помощью ZIP (*.zip), а текстовую информацию целесообразнее записывать в следующих форматах: XML (includes XSD/XSL/ XHTML), PDF/A-1 (ISO 19005-1) (*.pdf), PDF/A-2 (ISO 19005-2:2011) (*.pdf). С некоторыми условиями могут быть использованы текстовые форматы: Plain text (ISO 8859-1encoding), PDF (*.pdf) (embedded fonts), Rich Text Format 1.x (*.rtf), HTML (include a DOCTYPE declaration), SGML (*.sgml), Open Office (*.sxw/*.odt), OOXML (ISO/IEC DIS 29500) (*.docx), EPUB (unencrypted) (*.epub). Наибольшую стабильность при миграции из одного формата в выбранном программном обеспечении в другой ведут себя форматы *.doc и *.xml. В таблице 1 представлены результаты изменений объемов информации при миграции.

Таблица 1. Матрица изменения объемов информации при миграции (во сколько раз)

Форматы файлов исходные/
Форматы файлов миграции
*.doc
Microsoft Word 97-2003
*.odt *.xml *.rtf *.pdf *.pdf (PDF/A)
*.doc
Microsoft Word 97-2003
исходный <3,3 >2,2 >2,7 >3,2 >3,7
*.odt >3,4 исходный >8,4 >7,7 >10 >18,4
*.xml <2,2 <8,2 исходный >1,04 >1,4 >2,6

Отметим, что офисный пакет OpenOffice, получивший распространение благодаря свободной лицензии, имеет ряд ограничений, например, по сравнению с Microsoft Word 2007. Так, для создания файла в формате XML в OpenOffice 4 (Writer) потребуются дополнительные технические настройки системы (наличие установленного окружения Java (JRE). Родной же формат XML OpenOffice 4 *.stw пока еще не получил значимой поддержки и описания. Microsoft Word 2007 не отображает информацию в таком формате, открывая его как пустой документ.

Графические форматы

Графическая информация с высоким разрешением, особенно полихромные и полутоновые изображения, практически не поддается архивному сжатию. Как правило, для ее хранения применяются растровые форматы, которые обеспечивают хранение реалистичных сцен с большой глубиной цвета. По итогам сравнительного анализа только три формата оказались наиболее пригодными для долговременного хранения растровых изображений: TIFF (uncompressed), JPEG2000 (lossless) (*.jp2), PNG (*.png).

Для векторных изображений рекомендуемым форматом является SVG (no Java script binding) (*.svg). Чертежи, структурные схемы, графически представленные алгоритмы, состоящие из графических примитивов (отрезков и ломаных линий, многоугольников, окружностей и эллипсов), наиболее эффективно реализуются в таких векторных форматах, как SWG, WMF, CGM и им подобных. Однако нельзя забывать о том, что векторные форматы обычно приводят к искажению цветовой схемы сложного изображения.

Для кодирования 3D-изображений (виртуальных форматов данных) приемлемо использование формата X3D (*.x3d).

Аудио- и видеоформаты

Как и графическая информация, аудио- и видеоинформация почти не поддается эффективному архивированию: в среднем их сжатие не превышает 5%. Выбор различных видов кодирования таких данных существенно влияет на объем хранимого файла, поэтому от требуемого качества воспроизведения и, как следствие, доступного объема архивного хранилища зависит предпочтение того или иного формата. Рекомендованные форматы хранения аудиоинформации: AIFF (PCM) (*.aif, *.aiff), WAV (PCM) (*.wav), AES3 (LPCM) (*.aes). Лучшие результаты по итогам сравнения для сохранности видеоданных показали форматы: Motion JPEG 2000 (ISO/IEC 15444-4)(*.mj2), AVI (uncompressed, motion JPEG) (*.avi), QuickTime Movie (uncompressed, motion JPEG) (*.mov).

Базы и банки данных

Выбор формата хранения базы зависит в основном от ее структуры. Если база представляет собой один файл, то целесообразно хранить ее в кодировке, соответствующей этому типу файла. При хранении базы, записи которой состоят из полей разной структуры, наиболее часто применяются кодировки RTF и PDF, но в том лишь случае, если в базе нет аудио- и видеофрагментов. Наиболее универсальными форматами для долговременного хранения баз данных являются Comma Separated Values (*.csv), Delimited Text (*.txt), SQL DDL. В редких случаях могут быть использованы форматы: DBF (*.dbf), OpenOffice (*.sxc/*.ods), OOXML (ISO/IEC 29500)(*.xlsx).

Презентации

Ни один из существующих форматов не обеспечивает высокую степень надежности сохранности презентации. С некоторыми оговорками можно рекомендовать форматы OpenOffice (*.sxi/*.odp) и OOXML (ISO/IEC DIS 29500) (*.pptx). Формат PowerPoint (*.ppt) и другие форматы презентационных файлов не отвечают требованиям долговременного хранения.

Гибридная информация

Для хранения комплексных документов, в структуру которых входят фрагменты различной природы (текст, фотография, чертеж и т.д.), наиболее пригодны современные текстовые форматы типа MS WORD, RTF. Они позволяют включать графические изображения в растровых кодировках. Если иллюстраций много, то такой документ рекомендуется хранить в виде единого изображения – в этом случае предпочтительными являются графические форматы.

Примечания:

  1. Научно-исследовательская работа проводилась в рамках государственного контракта № 016-3 от 31 мая 2013 года «Исследование современных процессов документационного обеспечения управления и развития электронного документооборота. «Научный доклад «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения» (в рамках реализации мероприятий федеральной целевой программы «Культура России» (2012-2018 годы).
  2. ГОСТ Р ИСО 15489-1-2007 «Национальный стандарт Российской Федерации. Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования» (утв. Приказом Ростехрегулирования от 12.03.2007 года № 28-ст).
  3. Миграция электронных документов – действие по перемещению записей из одной системы в другую систему при сохранении их аутентичности, целостности, надежности и удобства в использовании.
  4. Структура описания документа состоит из описания его физической или технической структуры и его логической структуры, то есть отношений между элементами данных, составляющих документ. Подробнее о создании, управлении и использовании метаданных см. ГОСТ Р ИСО 23081-1-2008. Система стандартов по информации, библиотечному и издательскому делу. Процессы управления документами. Метаданные для документов. Часть 1. Принципы (утв. Приказом Ростехрегулирования от 13.11.2008 года № 310-ст).
  5. ГОСТ Р 54471-2011 «Системы электронного документооборота. Управление документацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности».
  6. Правила организации хранения, комплектования, учета и использования документов Архивного фонда РФ и других архивных документов в государственных и муниципальных архивах, музеях и библиотеках, организациях Российской Академии наук (утв. приказом Министерства культуры и массовых коммуникаций РФ от 18 января 2007 года № 19).
  7. См. там же п 4.4.3.
  8. Репликация – это метод сохранения цифровой информации путем создания одной или нескольких полных копий (клонов) цифровых материалов. Репликация требует специальных мероприятий по поддержке всех копий в актуальном состоянии.