Бертрам Николай: «То, чем мы занимаемся, можно назвать искусственным интеллектом». Клочки секретных документов госбезопасности ГДР восстановят при помощи компьютеров

Рукописи, может быть, не горят, зато хорошо рвутся. Накануне распада ГДР, осенью 1989 года, сотрудники министерства госбезопасности лихорадочно уничтожали секретные документы, несколько месяцев подряд разрезая их шредерами и разрывая вручную.

Чтобы сложить пазл из более чем 600 млн обрывков разной величины, команда из 30 человек затратит от 700 до 800 лет. Компьютерная сеть может собрать их за 10 лет.

Прецедент ручного восстановления большого массива уничтоженных документов в новейшей истории уже есть. В 1979 году во время исламской революции в Иране дипломаты посольства США уничтожили шредерами важные документы, разрезав их на тонкие полоски. После захвата посольства иранские власти использовали ручной труд сотен ткачих, чтобы воссоздать документы так, как собирают головоломки-пазлы. Документов, оставшихся от восточногерманского МГБ, которое обычно называют «Штази», на несколько порядков больше. Помочь в их восстановлении взялись германские учёные. «Частный корреспондент» встретился с ведущим специалистом Института Фраунгофера в Берлине доктором Бертрамом Николаем, разработавшим уникальную технологию реконструкции. Он обещает собрать «Штази-пазл» всего за 10 лет. Если ему не помешают.

— Первый вопрос не по теме. Правда ли, что здесь у вас изобрели формат MP3?
— Да, это, пожалуй, самое знаменитое изобретение Общества Фраунгофера, правда, сделано оно не в нашем берлинском институте. Девиз общества — прикладные исследования. Это означает, что наши институты не только заняты разработкой интересных технологий, но и нацелены на их рыночное внедрение. Можно сказать, что Общество Фраунгофера — одно из крупнейших в Европе. По всей Германии у нас около 60 институтов, примерно 15 тыс. сотрудников. Своё имя институт получил в честь Йозефа фон Фраунгофера — гениального изобретателя, умевшего неплохо продавать свои изобретения и ставшего мультимиллионером.

— Проект, которым вы руководите, в прессе окрестили «Штази-пазлом». Насколько я знаю, первая демонстрация опыта по сборке разорванных документов при помощи специальной программы состоялась ещё в 2003 году?
— Правильно. Но сначала пару слов об истоках. Когда рухнула Берлинская стена, ГДР ещё формально существовала. «Штази» принялась лихорадочно уничтожать секретные документы. Измельчители-шредеры не выдержали и сломались. Бумаги рвали вручную. Сохранилось больше 16 тыс. мешков с обрывками. Первый объединённый парламент Германии постановил: документы сохранить и по возможности восстановить. В 1995 году началась работа по ручной реконструкции, ею занимались сотрудники федерального ведомства по архивам бывшего МГБ ГДР. Однако вручную можно собрать только те документы, которые были разорваны достаточно грубо, на большие куски. Но сохранились и мельчайшие клочки. В середине 1990-х я увидел по телевизору сообщение об этом, и мне пришло в голову: всё надо сделать при помощи умных компьютерных алгоритмов и сканеров!

— Вы уже тогда занимались чем-то подобным?
— Моя профессиональная специализация — машинное зрение. Если вкратце: берём видеокамеру, компьютер и пытаемся автоматизировать определённые зрительные процессы. Эта технология используется в медицине, где компьютер распознаёт рентгеновские снимки, или при видеонаблюдении для обеспечения безопасности, или в робототехнике, где машины способны овладеть примитивными формами распознавания образов. Мой научный отдел объединяет специалистов в области электронной обработки изображения. Я проявил активность, пробивая свою идею, связался с архивным ведомством. Прошло несколько лет, прежде чем там всерьёз озаботились нашим предложением. Но мы поставили первые опыты, ещё не имея никакого финансирования, из чистого интереса. В 2003 году был объявлен конкурс на лучший проект по электронному восстановлению уничтоженных документов. Мы оказались в состоянии провести публичную демонстрацию работающего прототипа программы. В конкурсе участвовали крупные фирмы, ведь это должен был быть настоящий мегапроект с миллионным финансированием.

 

Когда Берлинская стена рухнула, противостояние капитализма и социализма в Европе прекратилось за исчезновением последнего, а война за свободу народов бывшего соцлагеря была выиграна без единого выстрела, многие впали в простительную эйфорию. Казалось, что мир вступает в новую блистательную эру братской любви и соревнования лучшего с хорошим. Как водится, в действительности всё оказалось гораздо менее розовым, чем представлялось 9 ноября 1989 года, но и не совсем уж чёрным.

Забегая вперёд, скажу, что ещё тогда предположил — кто справится с таким крупным проектом, будет в состоянии параллельно решить и множество других задач, помельче. Сегодня к нам обращаются со всего мира с просьбой помочь в восстановлении тех или иных документов по совершенно другим темам. А тогда мы выиграли конкурс, поскольку единственные смогли реконструировать разорванный пробный документ при помощи нашей компьютерной технологии. Предполагалось, что проект вскоре перейдёт в рабочую фазу. Но лишь в 2007 году началась пилотная фаза с поставленной задачей от первых опытов перейти к реальной реконструкции в больших объёмах. Количество обрывков таково, что у нас тут развернулось почти фабричное производство. В рамках пилотной фазы мы обрабатываем 400 мешков. Если докажем, что наша система эффективна, тогда парламент поставит задачу собрать содержимое остальных мешков. Пилотная фаза завершится осенью 2011 года.

— Разве вы не должны были закончить её раньше?
— Изначально планировалось завершить её раньше, но случилась примерно годовая задержка, но не из-за слабости нашей технологии, а по причине недостаточного качества устройств для сканирования. Поначалу предполагалось использовать стандартные высокоточные сканеры, но выяснилось, что клочки документов порою так малы, а форма их столь разнообразна, что для оптимальной организации нашего вычислительно-аналитического процесса требуется сканировать с более высокой точностью, чем это позволяет существующая аппаратура. В рамках пилотной фазы мы были вынуждены разработать совершенно новые сканеры. Пришлось сотрудничать с производителями сканерной техники, чтобы внедрить в производство наше ноу-хау. Вот теперь есть новые сканеры, соответствующие нашим требованиям. Я всегда переживал за наш компьютерный пазл, математически весьма сложный, но никогда не думал, что самой серьёзной проблемой станут сканеры.

— Речь идёт примерно о 45 млн разорванных страниц, уничтоженных частично измельчителем, частично вручную…
— Нет, наш проект посвящён только бумагам, которые разрывали вручную. Под измельчитель угодило лишь небольшое количество документов «Штази», к тому же многие из них были всё-таки уничтожены, так как предполагалось, что восстановлению они не подлежат. Тем временем мы разработали здесь технологию, позволяющую восстанавливать мельчайшие фрагменты уничтоженных шредером документов. К нам стали обращаться криминалисты и налоговики буквально со всего мира с просьбами восстановить те или иные важные документы. Впрочем, эти параллельные проекты не имеют прямого отношения к основному.

— Не могли бы вы привести какой-нибудь пример сотрудничества?
— К сожалению, я не вправе разглашать детали большинства из них. Но могу рассказать, что однажды к нам обратились полицейские одной европейской страны с просьбой помочь в расследовании серии убийств. Эти убийства продолжались на протяжении нескольких лет, никаких следов преступников найти не удавалось. Следователи предполагали, что необходимые улики могут содержаться среди измельчённых документов, найденных при одном из обысков. Следователи уже не надеялись на восстановление документов, когда узнали о нашей работе. Институту Фраунгофера удалась успешная реконструкция — так была раскрыта серия загадочных убийств.

К нам обращались и в связи с расследованиями преступлений ряда авторитарных режимов в Латинской Америке. Но есть ещё одна сфера применения нашей технологии — восстановление погибших памятников культуры, старых нотных записей, рукописных текстов. Вы знаете, какая трагедия случилась в 2009 году в Кёльне, когда рухнуло здание исторического архива. Среди прочего погибли бесценные средневековые документы. Сейчас мы исследуем вопрос, можно ли там что-то восстановить. Есть совместный проект с украинским городом Львовом по восстановлению некоторых старинных манускриптов и икон. Кроме того, мы разрабатываем адаптацию нашей технологии для реконструкции трёхмерных объектов, но это дело будущего.

— Потребовал ли ваш пазл-проект специальных математических изысканий, или это была в первую очередь задача для программистов?
— И то и другое. Во многих отношениях проект потребовал напряжения на пределе возможного. Помимо проблем со сканерами, мы столкнулись с повышенными требованиями к точности компьютерного процесса. Создание необходимого софта было связано с математическими вычислениями особой сложности. Это весьма необычный проект, вот почему никто в мире до нас не смог предложить подходящего решения.

— Вы используете при расчётах суперкомпьютер?
— Мы применяем так называемую систему GRID. Это компьютерная сеть, организованная у нас в институте, равная по силе примерно 500 высокомощных ПК. Практически, пока один компьютер решает какой-то фрагмент задачи, остальные фрагменты распределяются по другим компьютерам. Этот процесс идёт по сложной схеме, промежуточные решения распределяются по всем компьютерам, что даёт возможность проводить весьма серьёзные математические вычисления.

— Вы сейчас реконструируете содержимое 400 мешков, а всего их более 16 тысяч. Но откуда вы знаете, что фрагменты нужных документов не оказались в каких-то других мешках, помимо выбранных вами для пилотной фазы?
— Благодаря предпринятым опытам по ручной реконструкции содержимого нескольких сотен мешков был получен практический опыт. На его основе можно предполагать, что до 90% содержимого отдельно взятого мешка составляют обрывки одних и тех же документов. Остатки — обрывки документов из других мешков. Но есть мешки, содержимое которых совершенно хаотично, а примерно четверть из них содержит обрывки настолько маленькие, что у человека нет шансов собрать их вручную. Историки и политологи предполагают, что именно эти, наиболее тщательно уничтожавшиеся, документы хранят какие-то наиболее важные данные.

Теперь представьте: вам предложили собрать лист формата А4, разорванный на четыре части. Дело нетрудное! А если перед вами 50 обрывков? Уже сложнее. Ну а машине это всё равно. Ещё один интересный аспект. Знаете, в прессе чаще всего пишут, что благодаря нашей технологии процесс сборки значительно ускоряется, но забывают другое важнейшее преимущество: один раз отсканированный обрывок навсегда сохраняется в базе данных. Допустим, человек вытащил один клочок, вроде бы никуда не подходящий. Он его вряд ли запомнит с такой точностью, чтобы позже, при работе с мешком № 13555, определить, что тот забытый клочок может быть связан с обрывками из этого мешка. А компьютеры работают и ночью и днём, они способны вновь и вновь сравнивать каждый кусочек со всеми остальными — и старыми, и новыми. Бывали случаи, когда страница почти собрана, не хватало пары фрагментов, например, в середине листа, а там могут быть важные имена, и они обнаруживались позже в другом мешке.

— Как производится анализ обрывков, если описывать это не математическим, а обычным языком?
— Всё происходит, в общем, совершенно так же, как обычный человек собирает обычный пазл. Сначала сканируем обрывки с двух сторон, при этом обсчитываем весьма много различных критериев для будущего поиска. Каков тип бумаги? Какая разметка — в клеточку, в линейку? Важный фактор — цвет. От старости многие акты пожелтели, и по точному тону можно подобрать правильные фрагменты. Какова форма обрывка? Сохранились остатки машинописи или надписи от руки? Следы штемпеля или печати? Учитывается множество деталей. В дальнейшем компьютеры собирают пазл почти как человек. Ребёнок, скорее всего, будет наобум складывать подобную головоломку, но взрослый проанализирует разные кусочки. Допустим, перед вами пазл пейзажа. Вы сначала отложите в сторону голубые фрагменты, ведь они, скорее всего, относятся к небу. В другую сторону пойдут зелёные фрагменты — это, по-видимому, трава и листва. Вот и наша программа сортирует обрывки, подыскивая те, что могут по каким-то признакам принадлежать друг другу. Этот процесс связан с интенсивнейшими математическими вычислениями. Мы стараемся как можно больше рассортировать, прежде чем начать складывать.

— Никто не знает, какие тайны скрывают остатки архива. А ведь это документы секретной службы, и ещё живы люди, кто составлял их или в них упомянут. Могут оказаться люди, вовсе не желающие, чтобы «Штази-пазл» был однажды собран. Вы не сталкивались с давлением или противодействием вашей работе?
— Институт Фраунгофера не вправе заниматься оценкой содержания восстановленных документов, это задача ведомства по архивам МГБ ГДР. Но вы затронули весьма интересный и щекотливый вопрос. Если призадуматься, то кажется немного странным, что я предложил наши услуги фактически в 1997 году, а пилотная фаза стартовала лишь 10 лет спустя. И это не только моё мнение. Иногда создаётся впечатление, что в стране есть те, кто не хочет этого проекта. Это не обязательно бывшие граждане ГДР: и на Западе были люди, не только сочувствовавшие восточному режиму, но и тайно сотрудничавшие с ним.

 

По оценкам «Лаборатории Касперского», в настоящее время подавляющее большинство почтовых систем защищены фильтрами, блокирующими 95—98% спама. Соответственно, в почтовые ящики попадает в среднем порядка 3% спамерских писем. Впрочем, совершенствуются и спамеры. Основное и самое эффективное их оружие — рассылка текста в формате изображения. С ней фильтрам бороться труднее всего, потому что автоматизированное распознавание образов требует гораздо больших ресурсов. В то же время спамерами используется и замена символов на схожие так, чтобы это не мешало читателю, но затрудняло фильтрацию электронных писем по принципу анализа контекста.

Между ГДР и ФРГ были очень противоречивые отношения. Вспомнить случай с RAF. После падения Cтены наши органы безопасности неожиданно обнаружили разыскиваемых по всему миру террористов в ГДР! Если бы кто-то раньше сказал, что, мол, поищите RAF в ГДР, ему бы ответили: да вы с ума сошли! А могли быть какие-то незаконные экономические сделки? Да. Такие документы могут быть весьма интересными. Люди, занимающие ныне высокие посты, в прошлом симпатизировавшие RAF или идеологии ГДР, могут стремиться скрыть компрометирующую информацию. Конечно, никто никогда не скажет этого открыто. Могу вам сказать, что я планирую написать книгу, посвящённую тому интуитивному ощущению, что проект был сознательно кем-то застопорен. Цель ясна: по истечении срока давности по многим делам не может быть начато расследование.

— Сколько стоит проект?
— Это не секрет. Мы открытая и прозрачная независимая исследовательская организация. На пилотную фазу парламент выделил нам 6 млн евро. Основная фаза проекта, которая пока не начиналась, конечно, потребует новых затрат.

— Когда может начаться основная фаза?
— Сначала должно последовать политическое решение парламента по этому поводу. Мы постоянно информируем ответственных парламентариев о наших успехах и трудностях. И мы совершенно убеждены, что благодаря нашей системе успешно сможем автоматически воссоединить все разорванные фрагменты. Скорее всего, мы не будем работать со всеми 16 тыс. мешков. Есть основания предполагать, что наиболее важные документы находятся в 3—4 тыс. мешков. Наша программа работает, и я уверен, что по окончании пилотного проекта мы получим следующее задание исследовать и воссоздать именно их содержимое.

— А вы уже смогли представить парламенту реконструированные документы?
— Да. Опыты пока успешны, мы полны оптимизма.

— В качестве постскриптума я хотел бы задать вопрос на совершенно иную, научно-фантастическую тему. Вы специалист по машинному зрению. Можно ли предположить, что однажды все видеокамеры на планете окажутся связаны компьютерной паутиной и на основе того, что мы сегодня знаем в качестве интернета, образуется некий исполинский коллективный искусственный интеллект, способный отслеживать и контролировать действия людей?
— Нет, я не верю в это. (Смеётся.) Хотя то, чем мы здесь занимаемся, вполне можно назвать нейроинформатикой или искусственном интеллектом. Я исследую машинное зрение уже 30 лет и точно знаю, где проходит граница. Компьютеры и камеры следует применять везде, где в этом есть смысл, где они помогают людям выполнять тяжёлую работу, но они никогда не заменят человека. Люди способны к творчеству. Ни один компьютер, ни одна глобальная компьютерная сеть не смогут этого никогда.

Беседовал Александр Дельфинов (Берлин)

Подготовлено по материалам Бертрам Николай: «То, чем мы занимаемся, можно назвать искусственным интеллектом». Клочки секретных документов госбезопасности ГДР восстановят при помощи компьютеров.


   Почти всегда целью создания сайта является получение прибыли, которая в свою очередь, зависит от его внешнего вида. Статистика говорит, что около 94% людей, при выборе товара, сначала обращают внимание на упаковку, а потом уже на её содержимое. И если эта упаковка не привлекательная и безвкусная, мало кто обратит на нее внимание, и, соответственно, товар не будет пользоваться спросом.
   В случае с интернет, “упаковкой” выступает ваш сайт, а “товаром” - его контент. Если сайт выглядит непривлекательно, то каким бы ценным и нужным не было его содержимое, люди будут обходить его стороной. Наша задача - сделать ваш сайт привлекательным и удобным, чтобы люди чувствовали себя уютно и комфортно, чтоб они возвращались к вам еще и еще. Соответствие между ценой и качеством вас, несомненно, порадуют.
.
   Мы делаем сайты для бизнеса, а не красочную картинку, которая увешена тяжеловесными флэшами и огромными фотографиями.
   Пользователя, когда он попадает на абсолютно любой сайт, прежде всего интересует информация, затем, как реализовать на этом сайте полученную информацию, чтобы было удобно и просто (юзабилити), подбор цветовой гаммы, расположение блоков на странице и многое другое.

   Перед тем, как заказывать создание сайта, рекомендуем прочесть статью А зачем мне (нам) сайт? или Что нужно знать заказчику сайта
Да и вообще, обратите внимание на раздел Статьи о продвижении сайта и бизнеса там вы найдёте ответы на многие вопросы.