На вопросы "Полит.ру" о том, как работает проект, как включаются в базу данных научные журналы, о взаимодействии РИНЦ с ВАКом, о проблемах в описании библиографических ссылок в российских научных изданиях рассказывают Геннадий Еременко (руководитель проекта) и Павел Арефьев, отвечающий за маркетинг электронных версий российских журналов.
Первую часть вы можете прочесть здесь.
Какими силами делается РИНЦ? Сколько у вас сотрудников? Какими ресурсами вы пользуетесь?
Геннадий Еременко: В самой компании немного сотрудников. Сейчас у нас работает около 30 человек, и понятно, что мы сами никогда бы не смогли проделать такой объем работы. Над этим проектом трудится довольно много людей по всей стране в режиме распределенных виртуальных рабочих мест. В самой Научной электронной библиотеке мы не делаем таких операций, как сканирование, распознавание текстов, редактирование, не осуществляем проверку введенной информации, ее привязку к конкретным ученым и изданиям. Массу операций, особенно технического плана, делают команды по всей стране.
Сколько команд, сколько людей?
ГЕ: Как минимум, это пять точек в разных городах: две - в Москве, по одной - в Новосибирске, Санкт-Петербурге и Пущино.
Вы заключаете с ними договора и платите им деньги за эту работу?
ГЕ: Да, в рамках нашего госконтракта они выполняют определенную работу и получают за это оплату.
Та сумма, которую вам выделило государство на разработку РИНЦ, вам кажется большой или недостаточной?
ГЕ: Этой суммы хватает на то, чтобы обрабатывать текущий годовой массив для 1500 журналов, но, по-хорошему, было бы неплохо обработать и архивы хотя бы за несколько лет. Кроме того, требуется проведение еще большей работы по выверке этой информации. Здесь проблема может быть не только в людях и деньгах, а в том, что часто у нас не хватает информации для того, чтобы принять однозначное решение.
Опять же это касается уровня оформления журналов. Если в описании статьи указана фамилия автора и не указано место его работы, например, написано Кузнецов А.Ю., а таких Кузнецовых А.Ю. в базе данных может быть несколько... Для того чтобы различить всех Кузнецовых, Ивановых или Сидоровых, информации из самой статьи уже недостаточно.
Здесь, конечно, не хватает обратной связи, механизма для того, чтобы сами авторы могли корректировать информацию в базе РИНЦ. Такую систему мы пытаемся разработать, но пока трудно сказать, насколько она будет эффективной и действительно ли поможет устранять неточности и ошибки. Пока есть нерешенная проблема, когда ни автоматически, ни вручную мы не можем принять однозначного решения, точно идентифицировать авторов или места их работы.
Вам надо будет связаться с редакцией, уточнить, какой Кузнецов имеется в виду?
ГЕ: Это несколько проблематично, учитывая, что этих редакций не одна, не две и не десять, а более 700, и с каждым издателем контактировать просто нереально. Да и не факт, что в самой редакции располагают такими данными.
Бывает, что человек не работает в академической структуре и поэтому не пишет место своей работы, т.к. считает, что она не имеет отношения к теме его исследования.
ГЕ: Тем не менее, мы пытаемся точно идентифицировать автора и место его работы - в отличие от Web of Science и Scopus. Западным индексам вообще нереально проверять по всему свету информацию. Мы пытаемся, по крайней мере, большинство организаций, указанных в самых различных формах как место работы авторов, привязать к нормативным названиям. Эта работа, конечно, требует больших затрат времени и сил.
Может быть, вам стоит обратиться ко всем издателям с каким-то рекомендательным письмом по составлению библиографических списков, оформлению журналов, от имени Министерства образования и науки: "Уважаемые редактора, пожалуйста, делайте так то и так то..." и по пунктам, про ISSN и пр.?
ГЕ: Первый шаг в этом направлении предпринял ВАК. Дело в том, что в тех требованиях, которые ВАК выставил к журналам, чтобы они могли попасть в перечень журналов ВАК, некоторые вещи уже прописаны - как в плане оформления, так и соответствия ГОСТам. Может быть, это поможет, но пока трудно сказать, как это будет реально использовано в жизни. Одно дело - Постановление ВАК, а другое - его практическое воплощение.
Идет ли у вас сейчас какое-то взаимодействие с ВАКом?
ГЕ: Мы планируем начать взаимодействовать, чтобы прояснить все вопросы, потому что в опубликованном Постановлении ВАК не всё понятно. Требуются какое-то более подробное разъяснение для издательств, что-то вроде регламента, где четко прописаны конкретные шаги, которые они должны предпринять, чтобы попасть в перечень изданий ВАК. Есть масса вопросов, которые должны быть четко оговорены в этом регламенте: что конкретно нужно для попадания в перечень, в какие сроки принимаются решения и т.д. Нам необходимо обсудить с ВАКом все эти вопросы, потому что в этом Постановлении упомянут РИНЦ - в качестве обязательного условия для попадания журнала в перечень ВАК.
Некоторые мои коллеги высказали опасение, что РИНЦ через требования ВАК стремится облегчить себе усилия и какую-то часть требований по форматированию библиографических данных переложить на ученых.
ГЕ: На самом деле, в этом Постановлении есть определенные требования к оформлению, в том числе к пристатейным ссылкам, и там идет отсылка на РИНЦ. Хотя у нас пока нет документов, где мы бы предъявляли требования по стандартам оформления. Для нас, в первую очередь, важно, чтобы соблюдались уже существующие стандарты. Выдумывать ничего не надо, есть ГОСТы, есть международные стандарты оформления пристатейных списков литературы. Другое дело, что наши издатели смотрят на это сквозь пальцы. Мы это видим, поскольку обрабатываем миллионы ссылок.
Павел Арефьев: Наши издатели почти ничего не знают о международных стандартах оформления библиографических ссылок. Например, подавляющее большинство из них ничего не знает про стандарт ISO-692. Другое дело, что он не так распространен. Нам, по большому счету, не так важно, каким будет формат, потому что, обрабатывая журналы, мы учитываем всё, что есть в мире стандартов.
Другое дело, важно, чтобы хотя бы какой-то стандарт соблюдался в рамках одного журнала, потому что если в статьях ссылки оформлены без соблюдения стандартов, то наша система дает сбои, она не может полностью распознать какие-то составляющие библиографической записи. И здесь, конечно, начинаются сложности, обработку журнала приходится делать вручную и в базе данных появляются ошибки. Это нехорошо. Очень важно, чтобы информация была точной.
Сейчас, наконец, появился ГОСТ 7.0.5 - 2008 на оформление библиографических ссылок. И мы надеемся, что большинство издателей перейдут на него и будут его соблюдать.
Хотелось бы понять, как выглядит идеальный стандарт для вас?
ПА: Невозможно сделать единый стандарт. В американской издательской практике существуют около 30 стандартов, так называемых citation styles. У Американского психологического общества своя стандартизация, у Американского общества современных языков (Modern literature association) - своя. У Американского экономического общества - своя, у математического - своя, у медицинского - своя. Поэтому все американские медики, когда пишут статьи, делают это по стандартам Американского медицинского общества, разработанных совместно с Национальной медицинской библиотекой. Американские социологи, например, ориентируются на стандарты ASA (Американской социологической ассоциации). На 30 стандартов можно разработать 30 шаблонов описаний - считанное количество, которое можно использовать для четкого анализа библиографических ссылок.
ГЕ: Хотя система идентификации ссылок в РИНЦ уже настолько разработана, что она пытается разбирать и нестандартные случаи. И наши сотрудники корректируют вручную только совсем уж безнадежные случаи, которые программа не может обработать.
Как происходит ввод информации из журналов? Вы берете журнал и сканируете первые и последние страницы всех статей? И содержание?
ГЕ: Сканируются те материалы, откуда нужно извлекать информацию. Потом, естественно, идет распознавание текстов и начинается их обработка. Фактически идет некоторая xml-разметка текста, когда оператор отмечает, что вот это - название статьи, это - её автор и т.д. Программу такую мы сделали давно и использовали ее для электронной публикации журналов.
Что касается пристатейных ссылок - они не разбиваются на стадии разметки на отдельные поля. Иначе мы никогда не справились бы с этим огромным объемом. Ссылки загружаются в базу данных, и уже там идет их автоматический разбор. Они разбиваются на отдельные поля. Выделяются авторы, журналы, год и т.д. Благодаря нашим "ноу-хау" в этой области нам удается справляться с огромным потоком данных значительно меньшими силами, нежели в Web of Science или Scopus.
А если ссылки распознаны неправильно или не полностью описаны?
ГЕ: Именно в этом и есть проблема. То, что удается распознать автоматически, затем так же автоматически может быть привязано к конкретным журналам, статьям, и т.д. То, что не удается распознать автоматически, приходится разбирать или исправлять вручную. Довольно много журналов приходится обрабатывать в печатном виде, путем сканирования и распознавания. С учетом того, что пристатейные ссылки обычно идут мелким шрифтом, остается много ошибок. Всё это в какой-то степени правится на стадии редактирования, но естественно, какие-то ошибки остаются, какие-то слова сливаются, одни символы заменяются по ошибке на другие символы. Это естественно и неизбежно, но это плохо. Конечно, в идеале, если бы все издатели предоставляли нам информацию в электронном виде, то это было бы уже большим шагом вперед.
Что касается стандартов, то мы ничего особенного и специального не требуем. Мы требуем не столько от авторов, сколько от издателей, чтобы они контролировали тот формат и то оформление статей, которые они выбрали для своего журнала. Пусть они выберут международный стандарт или российский ГОСТ - и его поддерживают. Мы потом сами определим, какой стандарт используется.
ПА: Зачастую получается так, что в одном и том же номере журнала в одной статье пристатейные списки оформлены одним способом, а в другой - другим.
ГЕ: Это означает, что как автор написал, так и опубликовали. Это тоже показатель нехватки издательской и научной культуры.
Проблема еще и в том, что никто не знает точно, как оформлять ссылки на интернет-ресурсы. Одни пишут URL, другие <...>, третьи Оnline, некоторые датируют дату обращения к интернет-ресурсам, другие нет. Если бы кто-то точно сказал, что надо делать так и так.
ПА: В новом ГОСТе это уже четко прописано.
ГЕ: Если говорить честно, то все существующие стандарты, ГОСты разных лет, совершенно не рассчитаны на машинную обработку библиографической информации. Несмотря на то, что на дворе XXI-ий век и есть элементарные вещи, которые достаточно понятны человеку, которые хоть раз этим занимался. Скажем, если в 2008 г. выходит стандарт, и там между названием статьи и первым автором нет никакого разделителя, а просто пробел, то, допустим, если статья называется "Жизнь и творчество А.С. Пушкина", то для машины не очень понятно, где заканчивается название и начинается автор. Машина в таких случаях будет очевидно сбиваться, потому что и так может быть, и эдак. В этом случае нет понятного компьютеру разделителя, пробел - это же разделитель между словами, а не между отдельными элементами записи. И таких вещей, которые не позволяют на 100% точно структурировать и различить эту информацию, много.
Тем не менее, и с этим можно бороться, хотя и сложнее. Главное, чтобы соблюдались хотя бы какие-то стандарты. В любом случае мы стараемся максимально переложить работу на плечи компьютеров. В этом плане мы сильно отличаемся от РФФИ, где от авторов требуют предоставлять списки литературы уже в размеченном виде.
Для чего это требуют в РФФИ?
ГЕ: При отчетности по грантам РФФИ у ученых требуют подавать список публикаций, и если вначале все ограничивалось только этим списком, то потом постепенно в РФФИ начали создавать систему, которая включала бы и пристатейные ссылки. Разработчики стали просить предоставлять информацию в специальном виде, чтобы люди сами вставляли специальные тэги. Фактически эти требования являются аналогом той разметки, которую мы сейчас делаем сами, обрабатывая журналы, и которую у нас делает компьютер.
РФФИ фактически пытается ввести свой стандарт библиографического описания?
ГЕ: Человеку вместо того, чтобы просто скопировать в файл отчета библиографический список, приходится работать над каждой цитируемой ссылкой. Это, на наш взгляд, очень большая и не очень оправданная нагрузка на ученых. И я согласен с мнением, что поскольку это сложно делать, то люди стали приводить не все ссылки, а только часть из них. В итоге РФФИ получает неполную информацию, которая в какой-то степени обесценивает всю систему.
А у вас нет планов ввести свою систему библиографического описания?
ГЕ: Мы не имеем полномочий вводить свои стандарты.
Возможно, что РИНЦ станет частью государственной системы аккредитации... Минобрнауки примет вашу систему в обращение, и вы сможете задавать требования к ВАК и научным журналам.
ГЕ: Даже если ВАК будет вводить какие-то требования, есть немало журналов, которые, может быть, и не очень стремятся попасть в Перечень научных изданий. Есть журналы достаточно высокого уровня, которые прекрасно существуют и вне перечня ВАК.
Однако не быть в списке ВАК - это не comme il faut. Ваши требования могут быть хорошим инструментом для повышения культуры научных издателей.
ГЕ: Конечно, повышение уровня научных журналов полезно само по себе, и если ВАК будет требовать английские аннотации, что в этом плохого? Да, для авторов и издателей это будет дополнительной нагрузкой, но, с другой стороны, если они публикуют статью, они должны думать, что статья должна быть доступна зарубежным поисковым системам, зарубежным системам индексирования, зарубежным читателям - как способ интегрирования в мировую науку.
Мы вообще считаем, что идеальная модель распространения для российского журнала - это когда существует и российская, и переводная версия (естественно, в электронном виде), и когда в платном доступе находятся только текущие выпуски журнала (за последние 1-3 года), а остальные размещаются в открытом доступе в Интернет. Это позволяет добиться максимального охвата читательской аудитории, и, как следствие, и максимального цитирования и, соответственно, импакт-фактора журнала.
Кстати, попадание в РИНЦ в перспективе еще не означает, что журнал будет включен в Перечень ВАК. Журналу важно не просто быть представленным в индексе цитирования, но и занять в нем хорошие позиции, иметь высокий импакт-фактор. По этому принципу в скором времени, как мы полагаем, и будут включаться журналы в Перечень ВАК. Взять хотя бы недавний нашумевший случай с опубликованной в ВАКовском журнале статьей, написанной компьютером. Если бы при включении журнала в перечень ВАК учитывался импакт-фактор, то этот журнал никогда бы туда не попал, потому что, по данным РИНЦ, число ссылок на статьи этого журнала равно нулю.
Скорее всего, через некоторое время и в РИНЦ мы будем включать далеко не все журналы, а только те, которые хорошо цитируются.
Как складывается отношения у РИНЦ и журналами "Науки"?
ГЕ: С "Наукой" хорошо уже то, что их журналы появились в электронном виде, потому что еще пару лет назад не было возможности получить электронные версии многих ведущих академических журналов. Мы долго работали с руководством "Науки", вели переговоры - и в результате вышли на предоставление подписки на электронные версии. Сейчас в Научной электронной библиотеке мы размещаем 107 журналов "Науки" в электронном виде.
Подписка очень дорогая.
ГЕ: В принципе, конечно, хотелось бы, чтобы цены были ниже, и журналы были доступнее для российских ученых.
ПА: Политика ценообразования в "Науке" должна быть разумной и соответствующей реальным возможностям потенциальных подписчиков, а пока она не такая.
Вашему проекту это мешает?
ПА: Проекту РИНЦ не мешает, конечно. Но это сильно затрудняет распространение изданий. Не все могут себе позволить выписать полный пакет журналов "Науки". И хотя "Наука" предоставляет существенные скидки на подписку пакетов своих журналов, все равно это слишком дорого для подавляющего большинства подписчиков.
ГЕ: Подписываются по большей части организации, а не частные лица. Частные лица если и покупают, то отдельные статьи.
Многие ученые жалуются на дороговизну журналов "Науки". В чем вы видите причину этого, почему нельзя сделать журналы более доступными для ученых?
ГЕ: Проблема чисто финансовая. Издательство научных журналов - дело достаточно затратное, сам процесс производства требует немало средств. Мы считаем, что перевод многих журналов на электронную версию позволил бы оптимизировать расходы, по крайней мере, не надо было бы печатать журналы на бумаге. По опыту зарубежных издательств видно, что доля печатных журналов по подписке все время падает, а электронных растет. Электронная подписка занимает все большую нишу, позволяя издателям развиваться. Это прекрасно видно и по переводным журналам "Науки", которые распространяет издательство "Шпрингер". По статистике этого издательства (а они продают как печатные, так и электронные версии журналов), на электронные журналы сейчас уже на порядок больше запросов, чем на печатные.
У нас эта тенденция также развивается, но наши издатели иногда побаиваются, что электронная подписка подорвет распространение их бумажных изданий. И "Наука" этого тоже боится.
ПА: А то, что "Шпрингер" почти 90% своих журналов перевел в электронный формат и не собирается поддерживать печатные версии, наши издатели в расчет не принимают. И эта тенденция ухода от бумажных версий - не только тенденция одного лишь "Шпрингера". Все мировые издательства переходят на электронный формат. И не только по журналам, но и по научным монографиям тоже.
ГЕ: На наш взгляд, есть и другие способы оптимизации издательских затрат на журналы и снижения стоимости подписки. Сама модель организации издательского дела как была 50-100 лет назад, так, по сути, сильно не поменялась. Но времена уже другие. При нынешних технологиях создание электронного научного журнала требует гораздо меньших затрат. Все технические вопросы по созданию и распространению журнала можно и нужно автоматизировать, а основной функцией издателя должна быть интеллектуальная работа по отбору и рецензированию статей.
Уже существуют электронные системы издания журналов, с помощью которых авторы через Интернет отправляют статьи в журнал, редакция в онлайн режиме проводит рецензирование, перевод статей, формирует выпуски и непосредственно распространяет журнал в электронном виде, завершая этим полный цикл издания журнала. И мы тоже делаем такую систему и будем эту технологию внедрять. Однако это не избавляет издательства и редакции от ответственности за научный уровень самих статей.
ПА: Научное рецензирование остается за редакциями.
ГЕ: Рецензирование - главное в научном журнале, но это не такое уж затратное дело. Не секрет, что многие издатели ничего не платят рецензентам. Потому что многие рецензенты занимаются этим и из соображений статусности и научного интереса.
Кстати, проблема уровня рецензирования в научных журналах будет в числе других наболевших вопросов обсуждаться на специальной конференции для российских издателей "Научный журнал в России: актуальные проблемы и перспективы развития в современных условиях", которую мы планируем провести 26-27 февраля 2009 г. в Политехническом музее. На этом мероприятии выступят с докладами и сообщениями представители ВАК, специалисты по издательскому делу, наукометрии, информационным технологиям, экономике, праву, разработчики РИНЦ. Пользуясь случаем, хотелось бы пригласить всех, кого волнуют проблемы развития российской научной периодики
Большое спасибо за интервью.