PRICEWATERHOUSECOOPERS (Технологический прогноз выпуск 3)
Между стандартами управления и информационной стихией
Рубанов В.А.
Данный номер «Технологического прогноза» посвящен проблеме «больших данных» и поискам путей ее решения. В существенной мере публикуемые в нем статьи и интервью связаны с темами предыдущих выпусков. Объединяющим началом всех трех номеров является неявным образом обостряющаяся проблема определения роли, места, субъектов и средств аналитического обеспечения корпоративного управления в условиях глубоких трансформаций информационно-коммуникационного пространства и развития информационных технологий.

На пути совершенствования моделирования управления бизнес-процессами и превращения потоков информации в «умные» цифровые ресурсы встает масштабная проблема «больших данных».
В первом номере «Технологического прогноза» основное внимание было сосредоточено на качестве моделирования бизнес-процессов и необходимости учета особенностей компании как адаптивной системы. По утверждению авторов статьи «Использование непредсказуемости» Б. Паркера, К. Васдена и А. Моррисона, точный прогноз и контроль результатов изменений требует моделирования как детерминистических, так и эмерджентных свойств организации.

Необходимость построения качественной модели построения и функционирования корпорации приводит к постановке вопроса о роли ее высшего руководителя в определении контекста стратегического видения ситуации и достижения согласованности действий между всеми участниками процессов управления.
В материалах первого номера раскрыта суть трех распространенных методик разработки и реализации управленческих проектов: исследование деятельности компании, агентное моделирование и анализ ценностных сетей. Применение этих методов создает смысловой фундамент формализации процессов внутри корпорации и в ее взаимодействии с внешней средой.

Второй номер «Технологического прогноза» посвящен поиску конструктивных подходов к сочетанию двух корпоративных практик: изменчивой творческой деятельности с преобладанием человеческого фактора и неструктурированной информации («инь») и рутинных стандартных процессов с формализованной и структурированной информацией («ян»).
Ключевым моментом в создании системы управления бизнес-процессами является моделирование, направленное на достижение целей корпорации и обеспечение целостности процесса деятельности. Однако стандартизированные и автоматизированные процессы продолжают составлять малую долю в общем объеме реальной деятельности компаний. Введение же неструктурированной информации в процесс аналитического обеспечения корпоративного управления с применением электронной техники требует предварительной обработки входных данных, ее «смысловой» разметки метаданными.

Цифровые ресурсы при разметке метаданными становятся более «умными» и пригодными для распространения на них методов сквозного управления процессами корпоративной деятельности. В. Байя и Б. Паркер связывают будущее компаний с необходимостью использовать «умные» цифровые ресурсы для формирования мета-процесса сквозного управления деятельностью корпорации через изменения и трансформации бизнеса.
Ключевым моментом в создании системы управления бизнес-процессами является моделирование, направленное на достижение целей корпорации и обеспечение целостности процесса деятельности.
Однако на пути совершенствования моделирования управления бизнес-процессами и превращения потоков информации в «умные» цифровые ресурсы встает масштабная во всех смыслах проблема, на которую обращает внимание Т. Де Гармо в третьем номере «Технологического прогноза». Предприятия начинают тонуть в море данных, которые имеют разную ценность и используются не лучшим образом.

Существуют исследования компании IDC с оценками состояния и тенденций изменения типов и объемов данных, которые выражаются следующими числовыми значениями. В настоящее время в глобальном информационном пространстве объем структурированных данных составляет 20%, а неструктурированных – 80%. Каждые 18 месяцев происходит удвоение объемов данных. При этом темпы прироста структурированных данных за это время составляют 32%, неструктурированных данных – 63%, а объем репликаций (копий) возрастает на 49%.

Объемы хранения данных в экзабайтах в 2009 г. оцениваются следующим образом: структурированная информация – 5 экзабайт; неструктурированная информация – свыше 11 экзабайт. Экстраполяция сложившихся тенденций позволило компании IDC сделать следующий прогноз на 2013 год: объем структурированной информации составит около 10 экзабайт, а неструктурированной – свыше 55 экзабайт.
Особенность работы с неструктурированными данными заключается в том, что они с трудом поддаются анализу, а их обработка их с помощью традиционных методов занимает много времени и требует больших затрат.
Опасность превращение хранилищ
данных в их «кладбища»

Взрывной рост объемов данных отмечается и на корпоративном уровне. Б. Алберс, исполнительный вице-президент и директор по технологиям Группы общих сервисов Корпорации Disney, замечает в этой связи: «Пожалуй, сегодня мы за год генерируем больше данных, чем вся Walt Disney Co. за первые 80 лет существования. Проблемы начинаются, когда мы задумываемся, что со всем этим делать».
Высокие темпы роста объема информационного пространства при доминировании в его составе неструктурированных данных (как по абсолютным показателям, так и по более высоким темпам прироста) создает угрозу превращения хранилищ информации в их «кладбища».
Особенность работы с неструктурированными данными заключается в том, что они с трудом поддаются анализу, а их обработка их с помощью традиционных методов занимает много времени и требует больших затрат.
Проблема многократно усложняется, когда приходится иметь дело с «большими данными», методам обработки которых посвящен третий выпуск «Технологического прогноза». «Большие данные» авторами выпуска точно не определяются, а характеризуются как развивающийся процесс накопления данных любого вида, имеющих очень большие размеры, малую степень предварительной обработки и низкий уровень структурированности, что не позволяет их анализировать с помощью технологий реляционных баз данных (Г. Груман).
Что делать с «большими данными»?
Необработанные и непроверенные данные, поступающие из множества внешних разнообразных источников, определяются в «Технологическом прогнозе» как «серые данные». Они обычно характеризуются большими объемами и не имеют явно выраженной ценности.
Отбор и аналитическая обработка больших объемов «серых данных» требует от руководителей корпораций и корпоративных архитекторов высокого профессионального уровня, а от работающих с ними аналитиков – специфических навыков, способностей, личных качеств и технологического обеспечения.
Позиция авторов «Технологического прогноза» заключается в том, что для эффективного решения проблемы «больших данных» не требуется принципиально новых технологий.
Для этого достаточно выбрать оптимальную архитектурную организацию и программное обеспечение, которые позволяют решать проблему иными методами по сравнению с теми, которые традиционно применяются в корпоративных информационных системах.
В качестве практического образца для нового подхода к работе с «большими данными» в корпоративных сетях избираются такие поисковые системы, как Google и Yahoo!. Применение поисковых технологий позволяет, по мнения ряда авторов «Технологического прогноза», по-новому организовать обработку информации компаниями, сталкивающихся с проблемой «больших данных». Общая рекомендация экспертов заключается в том, что компаниям не следует пытаться работать с неструктурированной информацией методами, применяемыми для обработки структурированной информации корпоративных учетных систем.
Компаниям не следует пытаться работать с неструктурированной информацией методами, применяемыми для обработки структурированной информации корпоративных учетных систем.
Внимание к проблеме «больших данных» связано в значительной мере с тем, что интернет стремительно превращается в неотъемлемую часть бизнеса. Так, анализ показателей использования сети интернет в определенных направлениях и определенными целевыми аудиториями позволяют выявить изменения вкусов покупателей и поведенческой мотивации.

На огромную потенциальную ценность «неструктурированных данных» указывают и специалисты PricewaterhouseCoopers, призывающие относиться с большей серьезностью к такой информации. С. Томпсон (Walt Disney Co) делает на основании этого вывод о том, что технологией будущего является хранение неструктурированных данных в необработанном формате.

Применяемые для этого инструменты обеспечивают техническую поддержку определенного типа анализа, позволяющий рассматривать мир в его натуральном виде, находить в нем повторяющиеся сходства и различия с последующим углубленным изучением перспективных зон и направлений.
Свободный поиск в безбрежном информационном пространстве

Многие вопросы, ответы на которые получались ранее с помощью опросов общественного мнения, выделения фокус-групп и иных социологических методик, сегодня можно ставить и решать на основе статистической обработки данных сети интернет. Реализация идеи свободного информационного поиска позволяет компаниям построить сервисы оперативного анализа данных из неоднородных источников, получать результаты в реальном времени и наладить недорогую деловую разведку.

Складывающаяся технологическая практика работы с «большими данными» указывает на целесообразность реализации кластерного подхода на базе компьютеров массового использования и программного обеспечения с открытым исходным кодом. Его особенностями является экономичность и масштабируемость, что позволяет ввести в сферу информационного обеспечения организаций большие объемы неструктурированных данных как из собственных, так и из внешних источников. Реализация кластерного подхода сопровождается виртуализацией информационного пространства корпораций, внедрением облачных технологий, стандартизацией интерфейсов и переходом на платформы с открытым кодом для анализа данных.

Суть предлагаемой в «Технологическом прогнозе» методики анализа информации на основе технологий свободного поиска – это «просеивание» данных с целью обнаружения повторяющихся схем при незначительных затратах средств и времени по сравнению с традиционными системами анализа деловой информации. Такие методики позволяют изучать большие объемы данных и открывают перед компаниями широкие возможности мониторинга обстановки, которые они не могли позволить себе в прошлом.

Масштабную работу с «большими данными» организовала компания Walt Disney Co. Это позволило, по утверждению ее представителя Г. Грумана, наладить на основе технологий свободного поиска процесс извлечения ценных сведений из «больших данных» и создать новый тип анализа, отличный от традиционных систем анализа деловой информации.

Разработанные Walt Disney Co методики обработки «больших данных» позволяют специально созданной для этого группе изучать массивы разнотипной информации для выявления повторяющихся схем поведения клиентов. Представители компании Razorfish Р. Велес и М. Тейлор на примере применения сервисов Amazon Elastic Compute Cloud (EC2), Elastic MapReduce и Microsoft Azure Table раскрывают в «Технологическом прогнозе» возможности технологий работы с «большими данными» для массовой сегментации клиентов и интеллектуального анализа данных.

Такого рода методики станут, по мнению экспертов PricewaterhouseCoopers, важным источником получения ценных сведений для компаний, расширят возможности поиска, получения и использования знаний «из дикого и запутанного мира информации», обеспечат экономию за счет обращения к открытым данным и применения дешевых методов их обработки.
Свободный поиск vs корпоративный порядок
Организуемая в поисковом режиме работа с «большими данными» по образцу Google меняет образ мышления аналитика и влечет трансформацию системы информационно-аналитического обеспечения корпоративного управления. Ситуативный подход к «большим данным» требует от аналитиков творческой активности и особых навыков для составления запросов и интерпретации извлекаемых знаний. В результате этого каждое обращение к «большим данным» является уникальным творческим актом в отличие от стандартных систем анализа деловой информации в транзакционных и других системах управления реляционными базами данных (СУРБД) с их фиксированными запросами и типовыми задачами.
Традиционные корпоративные системы лишены возможностей свободного поиска, что влечет значительные потери информации, начиная с этапа ее сбора и накопления. Технологии свободного поиска преодолевают этот недостаток, однако аналитика на основе получаемой таким способом информации имеет существенные ограничения.
Она позволяет лишь обнаруживать некоторые симптомы в фокусе внимания корпорации и выдвигать гипотезы, но не позволяет делать обоснованные выводы по отработанным моделям и проверенным методикам.
Традиционные же системы работы с деловой информацией изначально настроены на детальный анализ контролируемых ситуаций и обнаружение отклонений от ожидаемых результатов, что имеет критическое значение для управления организациями.
Анализ «больших данных» не заменяет собой другие системы, а лишь дополняет возможности анализа деловой информации, лежащие в основе систем корпоративного управления.
В этой связи возникает закономерный вопрос о соотношении форматированных и свободных методик работы с информацией в интересах решения задач корпоративного управления.

Эксперты PricewaterhouseCoopers полагают, что анализ «больших данных» не заменяет собой другие системы, а лишь дополняет возможности анализа деловой информации, лежащие в основе систем корпоративного управления.

Если традиционные информационные системы настроены на работу с известными параметрами и соответствуют стандартам контролируемых бизнес-процессов, то инструменты анализа «больших данных» позволяют работать с источниками ранее недоступной информации об окружающей обстановке и незаданных заранее параметров, которые могут иметь важное значение для компании.
Аналитики решают все
Это порождает необходимость совместного рассмотрения и взаимосогласованного применения трех названных выше методов в рамках целостного информационно-аналитического комплекса: моделирования и стратегической координации; разметки неструктурированной информации метаданными и формирования «умных» цифровых ресурсов; свободного поиска информации в работе с «большими данными». Такое видение проблемы актуализирует необходимость перевода всех получаемых и обрабатываемых различными способами данных в единый формат по определенному стандарту. Это позволит объединить преимущества каждого из названных подходов и создать методологические основы агрегирования объемных и разрозненных данных в одном месте для их совместной аналитической обработки в информационной системе.
Проблема перевода информации в тот или иной формат не сводится к выбору технологии работы с данными, а определяется смыслами и содержанием предметной практики. М. Тейлор (компания Razorfish) отмечает в этой связи, что успех в налаживании работы с «большими данными» зависит от удачного подбора людей и компетенций, необходимых для достижения задач, стоящих перед организацией.
Ключевую роль в этом процессе играет работа аналитика по разработке новых методов планирования кампании и созданию обеспечивающих корпоративную стратегию новых алгоритмов. Главные преимущества вовлечения в информационный оборот «больших данных» с помощью инструментов свободного поиска связаны со способностями аналитиков и возможностей корпоративной информационной системы выявить истинные взаимосвязи между всеми обрабатываемыми данными.
Проблема перевода информации в тот или иной формат не сводится к выбору технологии работы с данными, а определяется смыслами и содержанием предметной практики.
Смысл текста ценнее битов информации
Связь между моделями управления, «умными» цифровыми ресурсами и свободным поиском данных в открытом информационном пространстве можно представить следующим образом (рис.1)

Рис 1. Схема включения данных, получаемых свободным поиском в глобальной сети, в аналитическое обеспечение организации
Представленная схема демонстрирует различия между работой с формализованными данными в корпоративных информационных системах и с неструктурированными данными, получаемыми из глобальной сети методами свободного поиска. Левая часть схемы воспроизводит процессы осмысленного получения и обработки данных в контекстуальном поле, которое определяется сущностью организации и логикой ее деятельности. Организационное управление предполагает необходимость соблюдения в информационно-аналитической работе когнитивного стандарта, обеспечивающего единство понимания и взаимодействие участников по достижению заданной цели в рамках корпоративной стратегии.

Корпоративное управление базируется на генерации текстов, отображающих практические действия участников организации, а также на контекстуальном прочтении данных в соответствии со смыслами реализуемой стратегии.
Для построения информационной системы, ориентированной на целостное управление бизнес-процессами, принципиальное значение имеет хорошее знание и теоретически грамотное представление предметной области, точность употребления понятий и строгость логики их применения в соответствии со смыслами деятельности организации. Корпоративное управление базируется на генерации текстов, отображающих практические действия участников организации, а также на контекстуальном прочтении данных в соответствии со смыслами реализуемой стратегии. Неструктурированная информация и данные, получаемые из глобальной сети методами свободного поиска, не имеют заранее определенного предназначения и представляют собой тексты, связанные лишь правилами грамматики естественного языка. Р. Велес (компания Razorfish) в этой связи обращает внимание на то, что «большие данные» – это не то же самое, что «больше данных», а иной тип данных. Для работы с ними требуется не просто новая методика работы, а новый способ восприятия и представления всех моделей данных. Контекст отбираемых свободным поиском «серых данных» применительно к смыслам корпоративной деятельности необходимо увидеть и раскрыть аналитику. Это требует достижения взаимной согласованности методик работы со структурированной информацией и с «серыми данными», интуитивно отбираемыми аналитиками.
Технологические заделы развития аналитики

В настоящее время отмечается развитие как общих методик форматирования и алгоритмизации обработки данных в информационных системах организаций, так и технологий работы с «большими данными» в глобальных сетях. Первое направление развития ассоциируется с разработками Wolfram Inc во главе с британским физиком и математиком С. Вольфрамом.

Созданный этой компанией продукт WolframAlpha представляет собой большую энциклопедию, снабженную механизмом поиска и вычисления, а также отображения результатов в структурированном виде.
Создатели называют его computational knowledge engine (вычислительный движок знаний).

Данной разработкой продемонстрированы определенные возможности создания аналитических приложений для работы с крупными банками данных в области научной информации. За основу здесь взяты контекстуальные характеристики научной информации, настроенные на смыслы научно-исследовательской деятельности и сложившиеся в научном сообществе форматы представления данных.

Второе направление связано с поисковыми системами компании Google и разработками ряда новых компаний, предлагающих методики исследования традиционных баз данных с помощью инструментов свободного поиска информации. Технологическую основу работы с неструктурированной информацией и с данными, получаемыми из глобальной сети, составляет гипертекстовый поиск, а также статистические методы обработки обращений к сети, которые позволяет раскрывать контекст информации по частоте связывания запрашиваемых слов с другими словами.

Но в любом случае отбор и контекстуальное прочтение текстов, отбираемых в глобальной сети технологиями свободного поиска, фактически осуществляется на уровне «ручной работы» аналитика и его семантической интуиции.

Соединение «серых данных» со структурированной информацией для совместной обработки порождает необходимость их разметки метаданными в соответствии с форматами корпоративных систем. На эту проблему обращает внимание Б. Матайсел (компания Achievo) в данном номере «Технологического прогноза».

На повестке дня стоит, таким образом, стоит вопрос о конвергенции двух основных направлений: моделирования и расширение сферы применения форматированных документов; разработки и соблюдения правил работы с «большими данными» в глобальных сетях.
От «коллекции документов» к «коллекции знаний»
Одним из наиболее масштабных и заметных направлений приложения усилий в данной области является инициатива Т. Бернерса-Ли по формированию «семантической сети» (Semantic Web или Web 3.0). Web 3.0 позиционируется как следующая ступень совершенствования Web 1.0 и Web 2.0, направленная на семантический поиск по интернету. Таким образом, идея «умных» цифровых ресурсов в корпоративных информационных системах дополняется идеей «умного» поиска в глобальном пространстве на базе общей платформы социальных сетей.
Смысл в документ лучше закладывать,
чем потом угадывать
Предполагается, что коллективное знание в первую очередь опирается на связи. А связи – это социальные сети и Web 3.0. будут расти «снизу вверх», постепенно превращая весь веб-контент из «коллекции документов» в «коллекцию знаний». При этом лучшим транслятором знаний для человека в системе Web 3.0 всё ещё останется другой человек – эксперт в заданной области. Для превращения концепции семантической паутины в реально работающий Web 3.0 консорциумом W3 предполагается создание сети документов, содержащих метаданные о ресурсах. И если сами web-ресурсы предназначены для восприятия человеком, то метаданные – для поисковых роботов и других интеллектуальных агентов. Для Web 3.0 разработаны специальные языки описания метаданных: язык онтологии для интернета OWL (Web Ontology Language) и RDF (Resource Description Framework). Наиболее впечатляющим успехом реализации Web 3.0 является WikiPedia и сформировавшееся сообщество пользователей FreeBase, которые создают связи к базам данных по мета-признакам, категориям и фольксомонии.
Следует отметить, что проект семантической сети имеет как горячих сторонников, так и убежденных скептиков. Идея создания универсального формата для обмена данными на базе некоторой онтологии на практике приживается с большим трудом. Развитие блогосферы указывает на то, что люди обмениваются данными без обращения к формализмам семантической сети и разметки своих сообщений метаданными. Расчет на то, что коммуникации будут проще, если все будут описывать вещи одинаковым способом, оказывается трудно реализуемой, а главное – слабо востребованной идеей. Выясняется, что формализация связей между людьми в свободных коммуникациях лишается значительной части своего первоначального смысла, а попытка выразить неявные и туманные взаимоотношения ясным и явным способом не проясняют смысл, а разрушают его. В этой связи один из критиков концепции Web 3.0 К. Ширки замечает, что попытки навязать семантику в области взаимоотношений между людьми заканчиваются поражением семантики и не делает связи более информативными.
И, тем не менее, проблема формирования «умных» цифровых ресурсов в информационных системах путем их смысловой разметки метаданными не только не снимается, но все более актуализируется. Усиливается и потребность в методологическом обеспечении алгоритмически четкой постановке задач архитекторам интеллектуальных информационных систем и построении хранилищ данных с возможностями их смыслового поиска.

Существующие подходы и технологии пока не позволяют удовлетворительно решить поднятую проблему, хотя исследовательские усилия ряда глобальных компаний и совершенствование форматов представления данных в информационных системах с разработкой соответствующих программных продуктов имеют безусловную ценность для практики информационно-аналитического обеспечения организаций.

Навязывать пользователям единую формализованную точку зрения на окружающий нас предметный мир и невозможно, и не нужно. Но и строить информационно-аналитическое обеспечение предметных практик по принципу «а вот еще был случай» также ведет в тупик. Действительно, нельзя ввести стандарт без согласия заинтересованных участников.

Невозможно также навязать соглашение при отсутствии общей точки зрения. В этом случае остается единственный путь внедрения стандартов только там, где это возможно, осуществимо и целесообразно. Одной из таких областей является корпоративная деятельность.

Успех корпоративного управления зависит от алгоритмически четкой проработки стратегии и единства ее понимания всеми участниками целостного бизнес-процесса.
Навязывать пользователям единую формализованную точку зрения на окружающий нас предметный мир и невозможно, и не нужно. Но и строить информационно-аналитическое обеспечение предметных практик по принципу «а вот еще был случай» также ведет в тупик.
Трудности формирования семантической сети кроются в том, что используемые участниками консорциума W3 искусственные языки представляют собой примитивные лингвистические формализмы. В результате интерпретации текстов и документов в форматах этих языков происходит утрата заложенных в них смыслов и нарушение логики отображаемых процессов.

Отсутствие механизма связи вводимого в информационную систему текста с его смысловым контекстом не позволяет создать устойчивые структуры баз данных и наладить контекстный поиск информации для аналитического обеспечения многих сфер деятельности. Из этого, однако, не следует невозможность смысловой разметки текстов.

Смыслы деятельности организации и контексты ее документального отображения не угадываются аналитиками и не рассчитываются как усредненное представление о мире с различными точками зрения участников на употребляемые понятия. Они постулируются на уровне стратегического управления организацией.

Такая предопределенность смысла предметной практики и контекста ее информационно-аналитического обеспечения не только предполагает возможность стандартизации цифровых ресурсов, но и делает ее целесообразной. В этой связи представляется перспективным развитие моделирования отдельных практик и форматирование информации в соответствии с внутренними корпоративными стандартами.

В рамках такого подхода необходимо привести форматы, правила и процедуры подготовки корпоративных документов в соответствие со стратегическим замыслом деятельности организации и следованием определенному контексту при создании текстов обеспечения решения управленческих задач.

Иными словами, необходимо идти по пути подготовки осмысленных в рамках корпоративной логики документов, а не пытаться найти смыслы в текстах, не отвечающих такой логике.

Включение осмысленных данных в глобальную сеть будет благотворно влиять на ее семантическую ценность. Такой подход представляется дополнением сложившейся практики работы со словесной оболочкой документов и может служить смысловой основой их контекстуального наполнения и раскрытия в информационных системах.

Семантический орнамент В.А.Рубанова