Форум для копирайтеров и заказчиков ForCop
Добро пожаловать на форум позитивного профессионального общения, обучения и обмена опытом:
у нас принято только корректное доброжелательное отношение. Без агрессии и деления на ранги. Здесь все равны
Стать участником форума

Программа для поиска тавтологий

Panda

УПК-стиль
Команда форума
30 Май 2014
4,664
605
115
petr-panda.ru
А черт его знает, сервис сейчас в других руках, у меня на него времени нет. Стараюсь избавляться от непрофильных активов.
 

Виталий

Участник
1 Сен 2014
918
33
0
Кстати, обнаружил, что Орфограммка (http://orfogrammka.ru) тоже находит тавтологии. По крайней мере, самые грубые.
 

Зоя Сергеева

Всем добра!
26 Апр 2015
210
6
0
Ох, уж эта тавтология. Всего один раз не заметила - и огребла по полной! Заказчик молча нажаловался на меня модераторам, сняли с заказа, понизили рейтинг. Исправила за три секунды и статью перепродала, но как обидно! Знала бы про такую программу, не попала бы в неприятную историю.
 

Наталья

Участник
2 Июн 2015
50
0
0
Несколько раз находила тексты на первой странице Яндекса - там одинаковые слова не то что в соседних предложениях - в одном присутствуют. И это не мешает им быть на первых строчках. Я стараюсь их в таких случаях предложения местами менять, или подбирать слова. Но вот несколько раз писала про стоматологические услуги - ну не нашла я синонима к слову зуб. И тошнота по нему зашкаливала...
 

Данилова

Участник
30 Авг 2015
53
3
0
Панда написал(а):
Когда-то некий Панда сделал что-то похожее: www.словарь-синонимов.рф Может, кому-то полезно будет :)
Недавно писала несколько статьей по отношениям между мужчиной и женщиной. Статьи немаленькие, но хотелось меньше повторений, поэтому намучалась с поиском синонимов к "мужчина" и "женщина". Для интереса вбила эти слова в предложенный словарик. Выпала в осадок...???
 

KDP

Участник
8 Май 2016
3
0
0
Виталий написал(а):
Ну там не очень совершенный алгоритм. Он ищет тавтологии по совпадению букв, не учитывая их порядок. Иногда по теме, иногда нет. Давно хочу свою программу написать, но времени нет на такое масштабное дело.
А я вот сподобился. ;)
Так что могу поделиться...
Ищет не хуже Свежего Взгляда, а после настроек под себя, так и лучше... ;)
Ну и, конечно, гораздо быстрее. Автор СВ говорит, что его версия под гуглодок работает со скоростью ~1000 слов в минуту. Моя поделка лопатит ~1000 слов в секунду... ;)
Использование постарался сделать максимально удобным, для себя ж, любимого...

Программулька создана как плагин, процесс установки описан тут: http://kdp.h1n.ru/drupal7/node/49
Если кому-то захочется попробовать, милости просим, плагин называется "Грамотей".
 

Виталий

Участник
1 Сен 2014
918
33
0
А я тоже-таки написал – на JavaScript. Когда отлаживал, убедился, что без словаря однокоренных слов будет как у Свежего Взгляда: куча ложных срабатываний и очень мало полезных. Поэтому не стал ни допиливать, ни обнародовать.

Сейчас вашу посмотрю.


UPD.
Посмотрел.

Достоинства:
Очень быстрая скорость проверки.

Недостатки:
1. Как и у Свежего Взгляда – ложные срабатывания.
2. Не показаны пары слов. Т.е. часто непонятно, почему то или иное слово было отмечено.
3. Я думаю, что вряд ли будет много желающих пользоваться программой в виде плагина к MAGGOT .
 

KDP

Участник
8 Май 2016
3
0
0
А в чём идея словаря однокоренных слов? Как его можно использовать? Вы хотите не срабатывать на слова, если они не однокоренные? Считать "кошкины кишки" красиво построенной фразой? ;)

Про показ пар слов я задумался, когда писал, но не смог придумать как.
Так и удовольствовался градиентом. У пар степень похожести не часто совпадает, так что они разным цветом подкрашиваются.
А в какой программе удобно пары слов показываются ? Может идею сопру... ;)
Особенно не понятно, что делать, когда одно слово в двух-трёх парах участвует...
 

Виталий

Участник
1 Сен 2014
918
33
0
Стилистической ошибкой считается повтор слов или близкое использование однокоренных. Созвучные слова и паразитарные рифмы - это тоже некрасиво, но на расстояние не так заметно. А иногда даже этого созвучия не чувствуется, но Свежий Взгляд его все равно подчеркивает.

Смотрите, у вас программа выделяет пары "кабан - кабинет", "волнение - сомнение", "зоопарк - паркет", "котлета - котел" и.т.д. Но при этом не выделяет пару "можно - смогут", а именно это и есть тавтология. Если бы можно было встроить в программу базу однокоренных слов - она бы работала без сбоев. При этом можно в настройки добавить и алгоритм как у СВ, для перфекционистов. Но я перекапал интернет и не нашел такого словаря, увы.

У мена алгоритм на JavaScript и сама программа в виде html-страницы (чтобы не было проблем с совместимостью), поэтому подсветка у меня сделана средствами DHTML и CSS. Пара слов подсвечивается после наведения курсора. Выглядит это вот так:

http://pastenow.ru/Upload/Paste/NM3Q.png

Что делать с двумя парами и больше - тоже не придумал. Это у меня главный глюк (
 

SobolevSergey

Участник
19 Янв 2016
424
12
18
Виталий написал(а):
А иногда даже этого созвучия не чувствуется, но Свежий Взгляд его все равно подчеркивает.
Примерно как с Главредом? Там тоже многое совсем не чувствуется, а он "тупо" подчеркивает по своему алгоритму, холодно и беспристрастно. :)
 

KDP

Участник
8 Май 2016
3
0
0
Виталий,
А вот обдумываю я технические особенности реализации словаря однокоренных слов... ;)
Если в слове два корня, оно вступает в отношения тавтологии каждым своим корнем по отдельности?
"Абажуродержатель держал абажур" - это две тавтологии? ;)
 

Виталий

Участник
1 Сен 2014
918
33
0
KDP написал(а):
"Абажуродержатель держал абажур" - это две тавтологии?
KDP, как бы да, но вероятность такой ситуации близка к нулю. Слов с двумя корнями в языке очень мало, а чтобы рядом с ним оказалось сразу два однокоренных слова - это писателю надо очень постараться.

Мне кажется, что для БД достаточно двух полей: слово и корень. Если в слове два корня, то просто продублировать его с разными корнями. Если при запросе к БД найдено одно слово, то стандартный алгоритм проверки. Если два - то просто повторить поиск два раза для каждого корня. Подсветку пар можно сделать по Name (Name = корень), если средствами HTML.

Для пересечения результатов у меня была мысль сделать составной Name ( что-то вроде Name =абажур+держать), но при анализе такой конструкции на JavaScript будут большие тормоза. Что неприемлемо: подсветка должна быть мгновенной.
 

vladimir_sviridov

С 8 до 21 по GMT+3 всегда онлайн и отвечаю.
11 Фев 2016
13
0
0
49
Россия, Липецк
Коллеги, подскажите, пожалуйста, какие параметры в задаете в "Свежем взгляде" при поиске тавтологии? На данный момент мне больше всего подошла комбинация: "Длина контекста" - 30, "Порог срабатывания" - 1000," Коэффициент учета частотности слов" - 0.
 

Виталий

Участник
1 Сен 2014
918
33
0
vladimir_sviridov написал(а):
какие параметры в задаете в "Свежем взгляде" при поиске тавтологии?
Когда пользовался, ставил: 30 контент, 600 порог, 50 коэффициент. При этом прогонял два раза: первый раз с контентом в 9.

Потом пользовался своей программой. Сейчас ищу тавтологии "Орфограммкой", разделом "Красота". На мой взгляд, самая удобная вещь: работает без ложных срабатываний.
 

krevetka

Участник
8 Ноя 2015
37
7
0
36
Обалдеть... Простите за мой французский. Оказывается, программы есть для выявления тавтологий))) Всю жизнь пользуюсь Ctrl+F ))) помогает хорошо, ищет хоть по корню, хоть по целому слову))) Вот прям точно как название книги Панды "Копирайтер, расти!"))) Надо расти, новое изучать, а то так и на пенсию спровадят молодые и продвинутые))))
 

Алена Толчина

Участник
31 Июл 2015
1,078
11
0
Сибирь-матушка
Я так вообще была несколько удивлена, узнав, что это какое-то отдельное действо (выявление тавтологий) да еще и программы для этого предусмотрены специальные. Надо сказать, что и Ctrl+F для меня стало открытием) В одном-двух-трех рядом стоящих предложениях я их и при вычитке замечу, а если текст настолько огромный, что в конце уже забываешь, что в начале было - так может не так и страшны тавтологии, отстоящие друг от друга на пару тысяч знаков?)
 

Виталий

Участник
1 Сен 2014
918
33
0
Алена Толчина написал(а):
может не так и страшны тавтологии, отстоящие друг от друга на пару тысяч знаков
Тавтологии – это когда однокоренные слова употребляются рядом друг с другом. Это некрасиво и режет уши. Обычно писатели находят их сами при вычитке или в процессе написания. Но иногда в пылу работы кое-что можно и не заметить. Вот для этого и нужны такие программы. Я, например, почти всегда с их помощью нахожу 1-2 ляпа в любой своей статье.
А если однокоренные слова стоят далеко друг от друга и не портят текст, то это не считается речевой ошибкой.
 

Алена Толчина

Участник
31 Июл 2015
1,078
11
0
Сибирь-матушка
Хм, я почему-то иначе представляла себе тавтологии. Классический пример - масло масляное, т.е. когда однокоренными словами описывается/объясняется что-то, не требующее применения второго слова, потому что это и так ясно) ИМХО, тавтология это фигура речи или выражение, т.е. не просто повторяющиеся слова.

А вот если в таком контексте: Ваня с Маней разводятся. Ваня взял масло из холодильника и пошел. Маня вскричала: верни мое масло! - тут ведь никак без обоих масел не обойтись, но не тавтология же?
 

Виталий

Участник
1 Сен 2014
918
33
0
Алена Толчина, неее.. Тавтология - это именно речевая ошибка, необоснованный повтор слова или однокоренных слов. А есть повтор как риторический (стилистический) прием: анафора, анади́плосис, эпифора и.т.д. Разница в том, специально ли мы его используем и насколько он уместен.