В немецком городе Веймаре создается новая компьютерная программа, которая будет бороться с кражей чужих мыслей. Как пишет Berliner Zeitung, ученые из университета Bauhaus усовершенствовали известные механизмы обнаружения интернет-плагиата и объединили в программу под названием Picapica. Эта программа способна отлавливать даже тех, кто, используя текст, пытается изменить его, например, переставив предложения местами.
В Германии интернетом пользуются разные плагиаторы: не только студенты, которые готовят домашнее задание, но и соискатели на ученую степень при написании научных работ. Теперь с этим будут бороться более активно. Как и в других программах по обнаружению плагиата, в системе Picapica текст сначала передается в цифровом формате. Чтобы отыскать возможные источники в сети, программа выделяет самые важные слова (Полный текст на сайте InoPressa.ru).
"В тексте об автомобильных двигателях чаще всего встречаются такие понятия, как автомобиль, двигатель, бензин, дизель и мощность", – поясняет преподаватель информатики Мартин Поттхаст. Чтобы лучше узнавать ключевые слова, программа сначала стирает так называемые слова-тормозы: определенные артикли, местоимения "тот", "этот", а также предлоги "и", "или". Из оставшихся слов десять самых часто встречающихся передаются поисковым машинам Google или Yahoo. Найденные таким образом документы автоматически оцениваются компьютерной программой, в результате чего выделяются похожие формулировки в тексте.
Иногда те, кто ворует чужие тексты, переставляют местами предложения в надежде на то, что в таком случае воровство идей обнаружить не удастся. Picapica способна раскрыть даже эту хитрость, говорит Поттхас. Это стало возможным при помощи так называемого хеширования. Программисты называют так прием, применяемый для нахождения определенной учетной записи в компьютерном файле.
Программа, разработанная веймарскими специалистами, разделяет любой текст на отрезки, в каждом из которых содержится около 100 слов. Эти отрезки автоматически проверяются при помощи 30 различных статистических методов. Так, например, просчитывается, с какой периодичностью повторяются определенные начальные буквы. В конце все статистические данные суммируются. Полученный результат достаточно точно характеризует весь текст. А поскольку статистические методы не учитывают места слов в предложении, то перестановка предложений лишь в незначительной степени может сказаться на результатах такой проверки.
Даже для тех, кто из страха быть пойманным программой будет использовать не цифровые источники, а списывать с книг, настанут тяжелые времена. Ведь Picapica способна анализировать и стиль. Например, она сравнивает длину предложений или среднее число слогов в словах. Эти данные становятся признаком того, насколько сложен текст – а здесь бывают отличия в зависимости от темы и автора. Если показатели внутри исследуемого текста сильно отличаются, то это является прямым указанием на то, что данный автор не все написал самостоятельно.
Википедия как главный источник плагиатора
Программа Picapica проверяет, имеются ли в интернет-энциклопедии Википедия отрезки, которые имеют одинаковые хеш-функции. Для этого веймарские ученые в прошлом году проанализировали все немецко- и англоязычные статьи энциклопедии одним и тем же методом и сохранили полученные результаты. Благодаря этому проверка текста сегодня занимает всего несколько секунд.
На самом деле статьи в Википедии меняются, поскольку эта энциклопедия расширяется постоянно. Но при этом статистические методы остаются весьма надежными. Небольшие изменения не коснутся хеша, говорят программисты. "Но для абсолютной уверенности нужно постоянно обновлять анализ статей".
Как и другие программы по поиску плагиата, Picapica может сравнивать исходный текст только с материалом, выложенным в сети. "Но именно такие материалы используются для плагиата чаще всего", – утверждает социолог Нильс Тауберт. Чтобы быстрее вывести на чистую воду использующих нечестные методы студентов, он использует американскую программу Turnitin, лицензию на которую приобрел университет. "Одно лишь уведомление о том, что мы используем такую систему, на многих действует как устрашение", – говорит Тауберт. Пока программа не была введена в оборот, каждый четвертый пытался выдать списанное за собственную работу. Сегодня таких недобросовестных студентов осталось менее 5%.
Возможно, остаются и другие лжецы, на след которых не может напасть ни Turnitin, ни сам преподаватель – поскольку у него просто нет времени отслеживать все подозрительные моменты. Снизит ли их процент Picapica, станет ясно в будущем году. А до тех пор Мартин Поттхаст и его коллеги будут и дальше оптимизировать свою программу настолько, чтобы она была доступна на веб-сайте их университета и любой заинтересовавшийся смог бы ее испытать.
Отметим, что аналогичную программу под названием "Антиплагиат" разработали и российские ученые. Компьютер анализирует исходный текст, ищет в сети похожие, и через 5 секунд выдает вердикт: на 40% украдено из интернета. Также российская программа выдает ссылки на настоящего автора.