Анализ траффика является методом получения развединформации из связанной с сигналом информации, такой как набранный номер телефона или номер звонящего. Анализ траффика может быть использован в случаях, когда содержание сообщения недоступно (например, зашифровано). По анализу особенностей переговоров может быть определена сеть личных контакотов. Это является главным методом исследования голосовых сообщений.
В тех случаях, когда информация представлена в распознаваемом компьютером виде, выделение ключевых слов является принципиальным для работы СЛОВАРЕЙ и всей системы ЭШЕЛОН. Работа СЛЛОВАРЕЙ подобна поисковым системам в Интернет. Разница в масштабе и смысле деятельности. СЛОВАРИ включают постановку задач для станции перехвата по всей массе собранных сообщений и автоматизацию распостранения сырого продукта.
Современные системы могут сортировать очень большие объемы перехваченной информации. В конце 80-х компания ТРВ (производитель спутниковой системы РИОЛИТ) разработала микрочип для быстрого поиска данных (FDF) по контракут с NSA. Данный чип был рассекречен в 1992 году и с тех пор прменяется в коммерческих системах отпочковавшейся компанией ПАРАСЕЛ. ПАРАСЕЛ продал более 150 систем фильтрации информации, большей частью правительству США. ПАРАСЕЛ описывает технологию FDF как самую быструю и точную систему фильтрации в мире . Единственное устройство способно обработать триллионы байтов текстовых архивов для тысяч пользователей в онлайн-режиме или гигабайты живого потока данных в день, которые фильтруются согласно десяткам тысяч сложных наборов интересов... Чип способен осуществлять самые полные функции по обработке строк данных по сравнению с любой системой получения текстов в мире. Подобные устройства идеально подходят для использования в системе ЭШЕЛОН.
Система более низкой возможности - PRP-9800 (Pattern Recognition Processor) производится компанией IDEAS. Данный процессор является компьютерной картой, которую можно вставить в стандартный персональный компьютер. Он может анализировать поток данных на скорости до 34 Мбс ( европейский стандарт Е-3), сравнивая каждый бит с более чем 1000 заранее установленных шаблонов.
Мощнейшие методы и системы СЛОВАРЕЙ могут вскоре стать архаичными. Ананлиз тем является более мощной и интуитивной техникой, которую NSA развивает и продвигает с уверенностью Анализ тем позволяет заказчикам делать запрос компьютерам на сбор документов по субъекту Х . Х может быть Влюбленным Шекспиром , а также поставками оружия в Иран .
В стандартном тесте по оценке систем анализа тем, (83) одной из задач, заданной программе, было поиск информации по компаниям, связанным с Airbus . Традиционный подход состоял в указании компьютеру ключевых терминов, другой необходимой информации, синонимов. В этом примере, обозначение А-300 или А-320 могли бы быть использованы в качестве синонимов термину Airbus . Недостатком такого подхода является выдача ненужной информации (например, сообщений о товарах, перевозимых на самолетах Airbus) и пропуск интересующей информации (например, финансового отчета компании консорциума, в котором не упоминаются продукты Airbus по имени). Анализ тем позволяет избежать этого, он также лучше подходит для человеческого восприятия.
Главное прослеживаемое направление исследований NSA в области анализа тем направлено на использование Н-грамм анализа. Данный метод, развитый в исследовательской группе, NSA позволяет быстро сортировать и получать сообщения согласно языку сообщения и/или теме. NSA запатентовало этот метод в 1995 году. (84)
При использовании Н-грамм анализа оператор игнорирует ключевые слова и определяет запрос путем подачи в систему выбранных документов по интересующей теме. Система определяет тему из набора заданных документов и затем рассчитывает вероятность наличия данной темы в других документах. В 1994 году NSA передало данную систему в коммерческое использование. Исследовательская группа утверждала, что метод может быть использован на очень большом наборе данных (миллионы документов) , может быть быстро адаптирован для любой компьютерной системы и может быть использваон для обработки текстов, содержащих большое число ошибок (10-15% всех букв) .
Согласно бывшему директору NSA Вильяму Штудеману управление потоком получаемой информации будет наиболее важной проблемой для разведывательного сообщества в будущем. (85) Объясняя это в 1992 году он описал тип фильтрации информации, используемой в системах типа ЭШЕЛОН:
Одна система сбора информации может генерировать до миллиона сообщений за полчаса, фильтры убирают все, кроме примерно 6500 сообщений, только 1000 из них отбираются для передачи аналитикам. Из них только 10 обрабатывается аналитиками и только один отчет появляется в результате. Статистика типична для ряда систем сбора и анализа технической информации.