Здесь курят мануал.

Добро пожаловать на Пыху!

Логин:
Пароль:
 

Нет прописки? Зарегистрируйся!

Новости

Пыха переехала на новый сервер, ура!

Краснодарское время: 25 Май, 2012, 03:34:05

Страниц: [1]
Печать
Автор Тема: Поиск дубликатов  (Прочитано 156 раз)
0 Пользователей и 1 Гость смотрят эту тему.
developer    ↓ 
30 Август, 2011, 12:13:38
НЕ ХУЕТА! ХУЕТА!


Карма: 0
Сообщений: 153
Сила слова: 0

В одной таблице, даже колонке порядка 200 000 значений, многие из них одиннаковые, например:
DMX - Party Up
DMX – Party Up
(разные дефисы)
или же где-то стоят апострофы, а где-то нет, буква где-то непопала правильная в названии песни и так далее.
 
может быть у кого-то уже есть либа или функция которая ищет дубликаты и показывает их
в процентном соотношении, чтобы к примеру я мог доработать её на удаление дубликатов
с совпадением 78%?
Записан
Givi    ↓ 
30 Август, 2011, 01:09:29 , спустя 55 минут 51 секунду
НЕ ХУЕТА! ХУЕТА!

Группа: Адекваты

Карма: 42
Сообщений: 2305
Сила слова: 1.82

1. Апиздошенно интересный процент совпадения требуется. Почему не 80, не 75, а именно 78? И как именно вообще будет задаваться этот процент? Точнее в отношении чего: кол-ва знаков в выбранном поле колонки или положения звезд на небе?
2. Что будет если твоя "логика" встретит два названия, которые на 95% совпадают, но по сути являются совсем разными треками одно и того же исполнителя? К примеру, "Crazy developer", "Crazy Developers". Вроде похожи, но какие-то они совсем разные.
Записан

Все, что говорят другие - неправда! До тех пор, пока ты сам в это не поверишь.
Если человек дурак, то... чур это не я!
developer    ↓ 
30 Август, 2011, 01:36:36 , спустя 27 минут 7 секунд
НЕ ХУЕТА! ХУЕТА!


Карма: 0
Сообщений: 153
Сила слова: 0


1. Апиздошенно интересный процент совпадения требуется. Почему не 80, не 75, а именно 78? И как именно вообще будет задаваться этот процент? Точнее в отношении чего: кол-ва знаков в выбранном поле колонки или положения звезд на небе?
78 процент написан от балды, возможно потом это будет 88 процентов, всё будет зависить от наглядных результатов, оптимальный подберется по ходу действия. По поводу отношения, вероятно совпадения нужно искать не только по кол-ву символов, но и по самим символам, например DMX - Party Up имеет по количеству 14 символов с пробелами, первоочередная задача это перевести все данные в нижний или верхний регистр, заменить спецсимволы на что-то, что пока не знаю, а так же убрать полностью пробелы. Дальше идёт подсчет ещё раз кол-ва символов, затем сравнение этих символов, тоесть получается набор из букв: dmxpartyup, думаю в таком порядке врятли попадется ещё какая-то композиция, ах да и порядок ведь тоже нужно как-то понимать, ведь может быть и так: partyupdmx, где Party Up это группа, а DMX это собственно сама песня.
 

2. Что будет если твоя "логика" встретит два названия, которые на 95% совпадают, но по сути являются совсем разными треками одно и того же исполнителя? К примеру, "Crazy developer", "Crazy Developers". Вроде похожи, но какие-то они совсем разные.
в жопу такое совпадение, от удаления какого нибудь из вариантов не обеднею, их будет ну максимум 0.0001% от всего кол-ва.
Записан
adw0rd    ↓ 
30 Август, 2011, 03:30:47 , спустя 1 час 54 минуты 11 секунд
НЕ ХУЕТА! ХУЕТА!

эдво
Группа: в ухо

Карма: не нужна
Сообщений: 17629
Сила слова: 1.67

http://www.codeisart.ru/part-1-shingles-algorithm-for-web-documents/
Спустя 1 минуту 25 секунд добавил
http://www.codeisart.ru/python-shingles-algorithm/
Записан

Python, Django, Git, Emacs, Nginx, MySQL, SphinxSearch, FreeBSD/Linux
Мой блог * Кинсбург * Либург * Я на GitHub
Ivan    ↓ 
30 Август, 2011, 04:49:48 , спустя 1 час 19 минут 1 секунду
НЕ ХУЕТА! ХУЕТА!

Группа: Адекваты

Карма: 27
Сообщений: 1366
Сила слова: 1.98

Soundex гугли
Записан

Страниц: [1]
Печать
 

Перейти в: