Есть файл эксель с результатами анкетного опроса, в нем несколько десятков столбцов. Точно известно, что часть респондентов проходила опроса больше одного раза.
Как найти дубли? В гугле есть инструкции по написанию формулы для складывания символов в ячейках, предполагается прописать там все столбцы. Допустим, этот способ даже работает, но опухнуть же можно прописывать формулу вручную для пятидесяти названий столбцов.
Есть какие-то еще способы? Именно выделить не дублирующиеся ячейки (они там все дублируются, т.к. ответы стандартные из списка), а полные строки.
Что это можно сделать условным форматированием, мне в теории понятно, хотелось бы конкретики, что там прописывать, для тупых. С макросами тем более, я самостоятельно не напишу, могу только скопировать готовое.
Данные анонимные, есть анкетные вопросы, но никакой сортировки по ФИО сделать нельзя. Максимум — по городу проживания.
А теперь я усложняю задачу: то, что один человек прошел опрос дважды — не означает, что он одинаково отвечал на одни и те же вопросы.
Нет, не достаточно сложно. Продолжим. То, что в двух строках прописаны одинаковые ФИО — не означает, что это один и тот же человек — они могут быть полными тезками.
Ладно, не парься — бахни сортировку по фамилии и тупо вычисти дубликаты.
приводите все записи к одному написанию. ё>e, все двойные пробелы в одинарные, отсутствие пробела в конце и начале строки. однотипное написание адресов, случайная замена кириллицы латиницей (c>с, a>a и т.п.) и всё вот это.
создаете временный столбец, куда загоняете, например =A2&D2&G2, получаете уникальную ячейку-идентификатор строки. ну или это будет =»город»&»знак_зодиака»&»год_окончания»вуза»&»наличие_котейки»
любые несколько точек по строке.
после протяжки такой ячейки по всей таблице проверяете нет ли в ней лишних пробелов (это видно в заголовке, при включенном фильтре, если в поиске отметить пробел).
на главной в экселе — условное форматирование, правила выделения ячеек, повторяющиеся значения.
сортируете по этому столбцу массив, скрываете все, что не выделено цветом и проверяете ручками (или, если уверены, удаляете дубликаты из каждой группы, это будет видно, потому что оставшийся в группе единичный объект становится незалитым)
Условное форматирование — Повторяющиеся значения
Вот вообще ни фига не понятна задача. В обычном варианте решается либо удалением дубликатов с выделением нужных для выявления уникальности столбцов либо сцепить нужные стоблцы и выделить дубликаты если их нужно только выделить. но судя по коментариям там вообще выявить повторно проголосовавших возможности нет. нужен кусок файла с пояснением для информативности
Что-то подобное было по работе. После мучений с макросами и огромными файлами исходной информации сделал на питоне скрипт. Намного гибче и быстрее получилось.