На хакерской конференции Chaos Communication Congress 29C3 группа американских аспирантов-лингвистов из Университета Дрекселя (Филадельфия) представила свою разработку – программу для установления авторства текста.
Подобная программа может помочь в выявлении хакеров, взломщиков программ и создателей вредоносных вирусов. Инструмент деанонимизации пока что существует в виде альфа-версии; его разработка еще не завершена, сообщает ХАКЕР.ру.
Методика, использованная создателями программы, основана на стилометрии, прикладной области лингвостилистики, занимающейся статистическим анализом письменного текста.
Программа выявляет закономерности в текстах, а также использование служебных слов, которые создают уникальное строение предложения в каждом конкретном случае. Тексты на языках, отличных от английского, переводятся на английский и тоже отлично анализируются программой, с определением автора.
Технология распознавания способна работать с текстами разных стилей. Например, можно определить автора научной работы по его сообщениям в чате, и наоборот. На выборке из 100 пользователей подпольных форумов и хакерских чатов система показала точность распознавания 80%.
Авторы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы.
Исследователи провели сканирование миллионов сообщений на форумах thebadhackerz.com, blackhatpalace.com, www.carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org и antichat.ru с участием нескольких десятков тысяч авторов дискуссий. Программа сумела определить 300 тем обсуждений на форумах, самые популярные из которых — кардинг, сервисы шифрования, взлом паролей и инструменты для "черной" поисковой оптимизации.
Однако для выявления автора текста необходимо будет соблюсти ряд условий, которые обеспечат высокую точность анализа.
Так, в исследовании должно участвовать не более 50 авторов текстов, на каждого из которых необходимо собрать соответствующий материал - тексты совокупной длиной не менее 6500 слов. Также не представится возможным определить авторство текста, длина которого будет менее 500 слов.
Затруднить поиск могут использование автором жаргона, "альтернативного алфавита" или языка, отличного от английского, однако текст, переведенный автоматическим переводчиком, также может успешно выступать материалом для анализа.
Отметим, что в рамках того же проекта ведется и разработка "убийцы" программ, определяющих авторство, - системы, призванной помочь авторам избавиться от уникальности своих текстов.