Как найти автора текста
Перейти к содержимому

Как найти автора текста

  • автор:

Как найти автора текста? Или как найти тексты того же автора?

Архивач располагает кусочком анонимного форума, в котором есть десятки сообщений божественного содержания.
Научите меня находить больше божественных постов или их авторов?

Голосование за лучший ответ
T VУченик (155) 8 лет назад
Ненене, мне нужен конкретный автор, я хочу читать только его посты.

Александр Искусственный Интеллект (222536) А я то телепат? Угадывать какой тебя автор инетересует? Кроме того, я не собираюсь искать его за тебя. УЧИСЬ ПОЛЬЗОВАТЬСЯ ПОИСКОМ Пример использования я привёл выше

На протяжении многих лет я помню дни солнцеворота

КТО АВТОР СТИХОВ? О ЖЕНЩИНА ОСЕНЬ, С УЛЫБКОЙ И ГРУСТЬЮ, В ГЛАЗАХ НЕБА ПРОСИНЬ ДА ЧЁРНЫЕ ТУЧКИ. В КУДРЯХ ЗОЛОТИНКИ ИЗ ЛУЧИКОВ СВЕТА, У ГЛАЗ ПАУТИНКИ ОТ БАБЬЕГО ЛЕТА.

книга «Моё» найти автора

Возьми меня за руку, и я отведу тебя туда, как-нибудь, когда-нибудь, куда-нибудь. «Я предпочел бы иметь один запах ее волос или одно прикосновение ее руки, чем вечность без этого».

Лариса ТрубиноваУченик (106) 2 года назад

Кто автор этого текста -Возьми меня за руку, и я отведу тебя туда, как-нибудь, когда-нибудь, куда-нибудь. «Я предпочел бы иметь один запах ее волос или одно прикосновение ее руки, чем вечность без этого».

Как найти автора текста

vk

telegram

odnoklassniki

youtube

SEO-копирайтинг от лучших авторов, работа копирайтером на дому

Сервис проверки текста на уникальность
и биржа контента

Инструменты для проверки уникальности

Уникальность сайта

Проверьте оригинальность страниц вашего сайта

Уникальность документа

Найдите источники, в которых есть совпадения с вашим документом

Телеграм-бот проверки уникальности

Проверьте любой текст быстро в Telegram

Расширение для браузера

Проверяйте тексты, не покидая нужных страниц

Регулярная проверка

Защитите свой контент от воровства и сохраните позицию в выдаче поисковых систем, автоматически и регулярно проверяя тексты

API Уникальности

Настройте проверку всего текстового контента на своем ресурсе. А мы вам в этом поможем!

Комфортные условия
работы на бирже

Заказчикам

Делегируйте вопрос написания качественных текстов опытным авторам: посты для соцсетей, SEO-оптимизированные статьи на сайт, продающие описания для карточек товаров. Закажите перевод или редактуру текстов.

Исполнителям

Зарабатывайте на текстах удаленно, выполняя интересные заказы по разнообразным направлениям. Проверяйте тексты на уникальность, спам, воду и другие важные параметры качества.

О сервисе

Text.ru – это популярный портал для проверки текстов и крупнейшая биржа текстового контента. Ежедневно на Сервисе проверяются и создаются разные форматы: описания карточек товара, статьи и письменные работы. Мы создали прозрачную и надежную систему сотрудничества между заказчиками и исполнителями, чтобы каждому было комфортно работать и находиться на Сайте.

Определение автора текста — установить авторство текста

Экспертиза текста может определить его автора по ряду признаков. Это необходимо, чтобы доказать свою позицию, например, право на авторское вознаграждение или, наоборот, опровергнуть авторство статьи. Центр экспертизы и оценки «ЕСИН» поможет ответить на интересующие заявителя, суд или иное заинтересованное лицо вопросы. Мы можем установить оригинальность текста, выяснить его особенности и зафиксировать результат в заключении.

Определение автора текста: авторство текста

  • принадлежит ли текст конкретному лицу?
  • имеются ли у текста соавторы?
  • имеются ли в тексте признаки искажения навыков речи?
  • какова характеристика автора текста? Можно ли определить его пол, возраст и иные признаки?
  • не могли ли указанные тексты быть написаны под диктовку?

Установление авторства текста, а также иных характеристик, проводится путем сравнительного анализа, а также использования различных научных методик, в зависимости от поставленных вопросов.

Установление плагиата

Плагиат — это полное или частичное копирование текста с целью представления его, как принадлежащего иному автору. Доказать данный факт также можно при помощи эксперта.

Экспертиза на плагиат относится к категории автороведческих. Однако, в работе могут быть использованы и иные методы. Например, может привлекаться эксперт по почерку, чтобы сравнить рукописный текст или выявить какие-то дополнительные особенности.

Плагиат может быть полным или частичным. От объемов копирования зависит возможность определения данного факта. Если кто-то взял лишь основные идеи из оригинального текста и полностью переделал их, доказать его вину будет сложно. Но в ряде случаев это все же возможно. Все зависит от ситуации, а также наличия дополнительных доказательств.

Центр экспертизы и оценки «ЕСИН» проводит любые экспертные работы, связанные с установлением авторства. Наши специалисты помогут доказать плагиат или его отсутствие, выяснить, кем был написан текст, при каких условиях. Заключение эксперта, полученное в результате, может быть использовано в качестве дополнительного доказательства в рамках суда и при решении вопроса в досудебном порядке.

Как найти автора текста

Статья знакомит с исследованием в области автоматизации определения авторства текстов. Выделяются и описываются характерные особенности методов и подходов решения задачи атрибуции. Эти методы делятся на два принципиально разных подхода: экспертный и формальный. При реализации экспертного подхода исследование текста осуществляется экспертом-лингвистом и во многом зависит от информации об авторе, которая содержится в самом тексте, а также от уровня квалификации специалиста. Поэтому он носит субъективный характер. При формальном подходе к решению задачи атрибуции используется статистический анализ и машинное обучение. В связи с этим формальный подход имеет объективный характер, что обусловливает актуальность его развития на базе современных информационных технологий. Актуальность статьи состоит в предложенном методе решения современной задачи определения авторства текстов, в котором особое внимание акцентируется на изучении подхода N-грамм. Цель исследования заключается в проведении детального анализа сценария полной кластеризации авторства. Методом исследования стал подход N-грамм, который имеет большую область применения: от теоретической математики до музыки. Используемый подход является простым, эффективным, не требующим сложной предварительной обработки входного текста и допускающим орфографические, грамматические ошибки. Автором выбрано восемь текстов на русском языке, которые подготовлены к использованию и преобразованы согласно условиям поставленной задачи, а также представлен алгоритм и анонсирована компьютерная программа, позволяющая автоматизировать решение задачи атрибуции текстов. Проведенное исследование позволило разработать авторские профили на основе N-грамм, создать коллекцию известных писателей, автоматизировать процедуру определения авторства текстов. Апробация разработанной компьютерной программы атрибуции текстов показала положительный результат.

компьютерная программа
кластеризация
классификация
подход N-грамм
задача атрибуции

1. Лингвистическая безопасность речевой коммуникации // ГЛЭДИС. 2004 [Электронный ресурс]. URL: http://www.rusexpert.ru/magazine/034.htm (дата обращения: 22.11.2018).

2. Виноградов В.В. Лингвистические основы научной критики текста // Вопросы языкознания. 1958. № 2. С. 3.

3. Батура Т.В. Формальные методы определения авторства текстов // Вестник НГУ. Серия: Информационные технологии. 2012. Т. 10. вып. 4. С. 81–94.

4. Diurdeva P., Mikhailova E., Shalymov D. Writer identification based on letter frequency distribution. Open Innovations Association (FRUCT), 2016 19th Conference of. IEEE, 2016. Р. 24–30.

5. Stamatatos E.A. Survey of modern authorship attribution methods. Journal of the American Society for information Science and Technology. 2009. Т. 60. № 3. Р. 538–556.

6. Борисов Л.А., Орлов Ю.Н., Осминин К.П. Идентификация автора текста по распределению частот буквосочетаний // Препринты Института прикладной математики им. М.В. Келдыша РАН. 2013. № 27. С. 27–26.

7. Суркова А.С. Идентификация авторства текстов на основе информационных портретов // Вестник Нижегородского университета им. Н.И. Лобачевского. 2014. № 3 (1). С. 145–149.

Существует несколько методов установления авторства текстов. Они делятся на два принципиально разных подхода: экспертный и формальный. При реализации экспертного подхода исследование текста осуществляется экспертом-лингвистом, который изучает прямые указания авторства (если таковые есть в тексте), к которым относятся собственное имя, прозвище, псевдоним, геральдика, генеалогия. Если в тексте нет прямых указаний на автора, то в этом случае исследуют косвенные данные, такие как общепринятые обращения к лицам, принадлежащим к разным социальным слоям, историю государственных учреждений, государственные и церковные награды (данные фалеристики), печати различных учреждений (сведения сфагистики) [1].

Большой вклад в развитие теории авторского стиля внес В.В. Виноградов, изучая особенности использования фразеологических оборотов, частоты применения терминов, особых слов и выражений в процессе написания текстов. Согласно этой теории авторство устанавливалось в первую очередь на основе фразеологических и лексических особенностей, а во вторую – на грамматических [2]. Однако этот метод не вполне решает задачу атрибуции, так как автор текстового источника мог подражать другому писателю, или фразеологические и лексические признаки были присущи группе писателей одного жанра, или текст содержал большое количество цитат, что лишало его индивидуальности.

Формальный подход при решении задачи атрибуции базируется на методах идентификации, которые в свою очередь делятся на две большие группы: статистический анализ и машинное обучение. Статистический анализ подразделяется на одномерный, который включает в себя критерии Стьюдента, хи-квадрат Пирсона, двусторонний критерий Фишера, QSUM и многомерный, представленный критериями Колмогорова – Смирнова, хи-квадратом Пирсона для распределений, линейным дискретным анализом, методом главных компонент, энтропийным подходом, марковскими цепями, сложностным подходом, задачами кластеризации и классификации [3].

Машинное обучение базируется на таких методах, как нейронные сети, машина опорных векторов, метод k ближайших соседей, генетические алгоритмы, деревья решений, байесовский классификатор. Развитие методов идентификации атрибуции текстов имеет важное значение, так как они позволяют упростить процесс определения автора текстов, который является сложным, кропотливым и времятратным. Развитие информационных технологий позволило сократить времятраты на процесс анализа текста и его последующей атрибуции.

Стремительный рост информации, представленной и передаваемой в цифровом виде, формирует интерес к задаче определения авторства текстов. Задача атрибуции (установления авторства текстов) встречается в различных областях и представляет интерес для филологов, литературоведов, юристов, криминалистов, историков. Поэтому возникла потребность в создании формальных методов ее решения. Экспертный анализ авторского стиля является трудоемким процессом, поэтому в данной работе рассматривается подход, позволяющий автоматизировать анализ информации и ее атрибуции.

В данной работе проводится детальный анализ сценария полной кластеризации авторства, метода N-грамм, с последующим определением k различных авторов в коллекции ровно к одной группе кластера.

Материалы и методы исследования

В настоящее время анализ авторского стиля возможен с помощью задач кластеризации и классификации текстов по различным категориям, проверки на плагиат, идентификации авторов. Для решения задач кластеризации большую популярность приобретают методы, основанные на моделях сжатия текстов, а также на обучающихся системах. К обучающимся системам относятся методы нейронных сетей, деревьев решений, машин опорных векторов [3].

N-граммы могут применяться в широкой области наук: теоретической математике, биологии, картографии, музыке, генетике, а также для кластеризации серии спутниковых снимков Земли из космоса, в компьютерном сжатии, для индексирования данных в поисковых системах [4].

Этот подход является относительно простым, но эффективным, допускающим орфографические и грамматические ошибки и не требующим сложной предварительной обработки входного текста. Иногда необходима только базовая фильтрация: удаление пробелов и / или знаков препинания.

Для решения задачи кластеризации авторских текстов с применением подхода N-грамм возьмем N равным 4 и рассмотрим распределение комбинаций из этого числа букв. Проанализируем результат на подготовленном наборе данных. В коллекции должно быть задано некоторое количество (k) различных авторов и каждый документ должен быть соотнесен ровно к одной группе. Для идентификации авторского текста предполагается, что текст отображает индивидуальный стилевой профиль автора. Пример четырехграммового профиля представлен на рисунке, где N возьмем равным 4.

leon1.tif

Профиль D текста определялся как множество пар <(a1, f1), (a2, f2), (a3, f3), . >, где fi-нормированная частота встречаемости N-грамм ai в тексте. Кроме того, тексты, авторство которых определяется четко, образуют профиль своего автора все вместе. Для сопоставления текстов друг с другом требуется числовая характеристика, которая отображала бы связь между произведениями одного и того же автора. В данной работе рассмотрена метрика L1, которая вычисляется по формуле

leon01.wmf

где p = (p1, p2,…, pn) и q = (q1, q2,…, qn) – векторы.

Таким образом, следующий шаг исследования заключался в определении расстояния между текстовым профилем и профилем любого автора. Автор, расстояние к профилю которого является наименьшим, считался создателем данного текста.

Ниже приведен алгоритм классификации текстов, основанный на подходе N-грамм [5–7].

T – набор неопознанных текстов

t – набор текстов известного авторства

A – набор авторов

tr(a) возвращает все тексты автора а из множества t

построение авторского профиля Da, где

Da = D конкатенация всех текстов в tr(a)

построение профиля Dx

Представленный подход определялся следующими параметрами: N – длина комбинации символов; L – количество наиболее встречаемых N-грамм, T/t – соотношение обучающих к тестовым текстам авторов, Size – длина текста – количество символов без учета пробелов, знаков препинаний.

Для этого подхода наиболее существенными являлись параметры N и L, в то время как T/t и Size носили более общий характер оценки алгоритма.

Результаты исследования и их обсуждение

На первом этапе проведенного исследования выбраны тексты советских, российских писателей и преобразованы под условия задачи установления авторства. Для этого все символы, кроме буквенных, удалены, а все буквенные – переведены в нижний регистр. На втором этапе исследования создавался профиль авторов посредством формирования множество пар N-грамм и частоты их встречаемости в документах (ai, fi). Из полностью построенных профилей авторов Dai выбиралось L количество наиболее встречаемых N-грамм для сравнения с профилем неизвестного автора Dx, построенного по такому же принципу. После чего проводилось нормирование значения частоты встречаемости N-грамм fi. Для этого вычислялась сумма ненормированных fi и выполнялась нормировка по следующей формуле:

leon05.wmf

где finon-norm – ненормированные величины частотности N-грамма ai, L – количество наиболее встречаемых N-грамм. Затем необходимо было произвести оценку расстояния между двумя профилями с помощью суммы «расстояний» по каждому N-грамму профиля Dx. Если в профиле Da не содержалось N-грамма из Dx, то значение частотности fi принималось равным нулю. Идентификация текста наступала при условии наименьшего расстояния между профилями Da и Dx.

Разработанный алгоритм и коллекция текстовых профилей авторов положены в основу компьютерной программы, написанной на языке C#, которая позволила автоматически проводить экспертный анализ текстов и определять создателя неизвестного текста. На разработанном наборе данных результаты работы алгоритма с оценкой L1 нормы показало хороший результат точности 83–98 %, которая рассчитана как процент правильно определенных авторов. При атрибуции текста в процессе построения профиля автора на основе всего текста, а не фрагмента показатель точности выше. Полученный высокий результат точности, возможно, связан с несбалансированностью тестовой коллекции по длине, которая содержит небольшое количество авторов и длинные тексты, и с тем, что обучение проводится на большом количестве документов и позволяет создавать отличные (контрастные/ярко характерные) авторские профили.

Набор данных, используемых в исследовании

Минимальное количество символов

Максимальное количество символов

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *