ORDER BY RAND() je zlo

6. 6. 2011 9:52 (aktualizováno) Tomas Matějíček

Linux
MySQL

V nesčetném množství MySQL tutoriálů a manuálů je uvedeno jako příklad náhodného výběru řádku následující:

SELECT * FROM tbl ORDER BY RAND() LIMIT 1

S malými tabulkami žádný problém, ale podívejme se na EXPLAIN takového dotazu:

mysql: EXPLAIN select * from geoip order by rand() limit 1\G
*************************** 1. row ***************************
           id: 1
  select_type: SIMPLE
        table: tbl
         type: ALL
possible_keys: NULL
          key: NULL
      key_len: NULL
          ref: NULL
         rows: 146219432
        Extra: Using temporary; Using filesort

Bez ohledu na existenci jakýchkoli klíčů v tabulce tbl, výsledek je vždy ten samý: MySQL setřídí celou tabulku dle náhodné hodnoty vygenerované pro každý řádek, a pak z nich vybere jeden nejmenší. Zvlášť alarmující pro nás jsou poslední dva údaje z explain, tedy rows: 146219432 (zde vidíme, že MySQL musí analyzovat veškeré řádky tabulky) a Extra: Using temporary; Using filesort (vytváření dočasných souborů na disku je to nejhorší co vás může u mysql kdy potkat). Výběr jednoho náhodného řádku je tak přímo úměrný počtu záznamů v tabulce, a může trvat i minuty. Katastrofa.

Jak vybrat z tabulky náhodný řádek lépe a hlavně rychleji?
Obávám se, že úplně univerzální řešení neznám.
Ale za určitých počátečních předpokladů je optimalizace velmi účinná.

Požadavky na tabulku tbl:
- obsahuje unikátní auto increment ID identifikátor jako PRIMARY KEY
- z tabulky se příliš nemaže, tzn ID identifikátory jdou za sebou a nemají mezi sebou moc „děr“
- maximální ID identifikátor je přibližně roven počtu řádků tabulky

Princip optimalizace je celkem jednoduchý. Zjistit (přibližný) počet řádků v tabulce, vynásobit ho náhodnou hodnoutou mezi 0 a 1, tím získat přibližné ID náhodného řádku, a tento pak jednoduše vybrat podle primárního klíče.

SELECT @r:=RAND();
SELECT @i:=
 (SELECT MIN(id) FROM tbl WHERE id>=
  (SELECT (@r*(SELECT MAX(id) FROM tbl))));
SELECT * FROM tbl WHERE id=@i;

Takto formulovaný dotaz provede výběr náhodného řádku v rychlosti, nezávisle na počtu řádků v tabulce tbl. Pokud jsou v tabulce tbl často mazány řádky, nebude náhodný výběr úplně náhodný, pravděpodobnost výběru řádku těsně před „dírou“ v posloupnosti ID vlivem smazaných řádků bude právě tolikrát vyšší, kolik smazaných řádků za ním následuje. V praktickém životě je to ale obvykle fuk.

A ještě výstup explain (zkráceně) pro zvídavé:

mysql: explain SELECT @r:=RAND()\G
*************************** 1. row ***************************
::
Extra: No tables used

mysql: SELECT @i:= (SELECT MIN(id) FROM tbl WHERE id>= (SELECT (@r*(SELECT MAX(id) FROM tbl))))\G
*************************** 1. row ***************************
::
Extra: No tables used
*************************** 2. row ***************************
::
select_type: UNCACHEABLE SUBQUERY
Extra: Select tables optimized away
*************************** 3. row ***************************
::
select_type: SUBQUERY
Extra: Select tables optimized away

mysql: explain SELECT * FROM tbl WHERE id=@i\G
*************************** 1. row ***************************
::
type: const
possible_keys: PRIMARY
key: PRIMARY
ref: const
rows: 1
Extra:

Pro úplnost ještě jedna možnost, jak jde náhodný řádek z tabulky vybrat, a to díky prepared statements (v MySQL někdy od verze 4.1). Ovšem nemám praktické ani teoretické zkušenosti s performance takového dotazu, a pomocí explain se to moc analyzovat nedá:

SET @randrow:=FLOOR((SELECT COUNT(*) FROM tbl)*RAND());
PREPARE STMT FROM 'SELECT * FROM tbl LIMIT ?, 1';
EXECUTE STMT USING @randrow;

Související články na blogu Tomas M
- MySQL Master-Slave replikace 26. 4. 2012 11:15
- Oživte si svůj Debian (i Ubuntu) 7. 6. 2017 15:01
- Grafický spouštěč aplikací pro X11 pod 25KB 10. 12. 2016 10:13
- Raspberry PI s MPEG2 30. 8. 2012 12:46
- Vodafone a moudrá horákyně (já) 17. 5. 2012 3:43
- I Linux potřebuje defrag 8. 5. 2012 15:44
Související články na ostatních blozích
- ZABBIX a neočekávaný nárůst velikosti databáze 4. 9. 2023 12:20
- Recenze: Chromebook Education 11 3189 2-in-1 (2017) 30. 12. 2018 1:37
- Ebook: Ze života správce linuxových serverů 29. 5. 2018 7:44
- Co se mi osvědčilo v roce 2017 31. 12. 2017 13:45
- Bitwig Studio - skládejte a produkujte hudbu v Linuxu profesionálně 14. 7. 2017 17:25
- Jak vypálit Blu-Ray video v Linuxu 19. 8. 2016 20:23
Související články na serveru Root.cz
- LXQt 2.0 s podporou Qt6, linuxový Firefox pro ARM64 Včera 0:00
- Herní engine Godot i MPV 0.38 vylepšují podporu API Vulkan 21. 4. 2024 0:00
- Sbližování Linuxu s Windows běží dál 19. 4. 2024 0:00
- Canonical prodlouží podporu LTS, Fedora 40 má první betaverzi 1. 4. 2024 0:00
- Vyšlo prostředí GNOME 46, Ubuntu 24.04 má oficiální tapetu 25. 3. 2024 0:00
- NixBSD kombinuje FreeBSD a NixOS, COSMIC je na Fedoře 18. 3. 2024 0:00

Přidat názor

6. 6. 2011 1:52

Justas (neregistrovaný)

Nemám po ruce MySQL, už dlouho jsem ji ani nepoužil, takže nevím, jestli můj nápad není stejně mizerný jako ten ORDER BY RAND, ale zkusil bych
SELECT * FROM tabulka LIMIT (SELECT (COUNT(*) FROM tabulka)*RAND()),1 - prostě nic netřiď, náhodn vyber jeden řádek a vrať ho. Pro použití, kde mezera v tabulce může znamenat problém (protože pravděpodobnost prostě identická být MUSÍ).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 6. 2011 9:37

Tomas M (neregistrovaný)

To nejde.

LIMIT takes one or two numeric arguments, which must both be nonnegative integer constants
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 6. 2011 9:47

Tomas M (neregistrovaný)

Teoreticky by to co navrhuje Justas [1] šlo pomocí prepared statements:

SET @randrow:=FLOOR((SELECT COUNT(*) FROM tbl)*RAND());
PREPARE STMT FROM 'SELECT * FROM tbl LIMIT ?, 1';
EXECUTE STMT USING @randrow;

Ale optimálnost prepared statements zmapovanou nemám, takže netuším jak moc je to lepší nebo horší než to co jsem navrhnul v článku. Nicméně jsem to tam pro úplnost přidal.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 6. 2011 13:55

Tomas (neregistrovaný)

Neni to trosku drbani levou rukou za pravym uchem psat to cele v SQL? Prece ten dotaz volam z nejakeho scriptu, tedy bych si nahodne ID vygeneroval v kodu a pak uz si jen selectem vyzadal prislusny radek.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 6. 2011 14:38

Michal Zahradníček (neregistrovaný)

Pravdepodobnost vyberu chybajuceho riadku mozete rapidne znizit takto:

SELECT @r:=RAND();
SELECT @i:=
(SELECT MIN(id) FROM tbl WHERE id>=
(SELECT (@r*(SELECT MAX(id) FROM tbl))));
SELECT * FROM tbl WHERE id>=@i LIMIT 1;
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 6. 2011 16:04

Tomas M (neregistrovaný)

Re [5]: to neni nutne, chybejici radek se nikdy nevybere diky MIN() a MAX() v predchozich dotazech.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 6. 2011 17:03

lukas (neregistrovaný)

> V praktickém životě je to ale obvykle fuk.

Ja mam skoro problem predstavit si pripad, kdy to skutecne je fuk. Pokud se ma vybrat nekolik nahodnych produktu na zobrazeni v nejake postranni nabidce eshopu, tak pro naslednou analyzu navstevnosti bude docela zasadni problem, ze se to chova podle nejake zahadne pravdepodobnostni distribuce.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 6. 2011 17:36

Habo (neregistrovaný)

[7] Ďakujem, že som sa nemusel pýtať načo to komu bude... :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 6. 2011 20:23

malytomi (neregistrovaný)

[7] no ten eshop neviem ci ma "nahodne" produkty. Zazil som parkrat, ze najpredavanejsie/nahodne/neviemake produkty boli proste v tabulke, kde si to rucne zadavali (ziadne auto podla objednavok), cca 20-30 a z nich sa cyklicky zobrazovali produkty.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 6. 2011 6:04

Tomas M (neregistrovaný)

[7] Myslel jsem to jinak. V mém praktickém životě je třeba do tabulky jen přidávat řádky, maže se tak málo, a řádků je tak moc, že je úplně jedno jestli se jako náhodný některý řádek vybere s 4x větší pravděpodobností než jiné řádky. Když je v tabulce 10 milionů záznamů, je rozdíl mezi pravděpodobností 1/10000000 a 4/10000000 zanedbatelný (pro mě a pro mé potřeby). Uznávám, že praktické potřeby jiných lidí ovšem můžou být jiné.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 6. 2011 17:14

talpa (neregistrovaný)

pisu to z hlavy ale co treba tahle hracka D: :D :D

SELECT FLOOR(min(id) + (RAND() * max(id)-(min(id)))) from [table] (vrati to nahodny id z tabulky, aspon myslim, pokud ale budu pocitat s neprerusenou radou)

A.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 6. 2011 18:02

talpa (neregistrovaný)

jinak vsecho co tu vidim ma problemy s neprerusenou radou takze fakt nepouziju ani jedno...[6] min a max ti preci neurci diry....
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 6. 2011 21:16

Inkvizitor (neregistrovaný)

[12] Pokud mi něco neuniká, tak dotaz vždycky vybere existující ID (bude <= max(id)). Problém bude samozřejmě s tou distribucí pravděpodobnosti. Osobně bych to řešil další tabulkou, která bude mít vlastní ID a jako cizí klíč ID té hlavní tabulky. Za normálních okolností nemůže být velký problém tu tabulku přehrnout a distribuci tím srovnat. V dotazu bude navíc jeden join, no.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2011 10:26

Sadam (neregistrovaný)

SELECT FLOOR( RAND( ) * COUNT( * ) ) AS `offset` FROM `planety`
Vybrani nahodne domovske planety z 1M planet ve hre sg1-game.net
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2011 13:46

awen (neregistrovaný)

Nechapem, nad cim sa pozastavujete.. spravi sa to na dva dotazy:
1.) Prvy dotaz pre nahodnu skalarnu hodnotu offsetu:
SELECT FLOOR((SELECT COUNT(*) FROM `mytable`) * RAND());
2.) Druhy dotaz s pouzitim LIMIT nema ziadny problem s "dierami".. za XX dosadime hodnotu z prveho dotazu:
SELECT * FROM `mytable` LIMIT XX, 1;
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2011 20:05

Inkvizitor (neregistrovaný)

[15] Udělat to tak možná půjde, ale pochybuju, že to je nejrychlejší řešení.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 6. 2011 19:57

scott32 (neregistrovaný)

Malá pripomienka: COUNT(*) je pre veľké InnoDB tabuľky hodne drahá operácia (de-facto full tablescan)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 6. 2011 6:58

Ivan Nový (neregistrovaný)

zcela náhodně vygenerovat pořadí položky v LIMIT a to opakovat tak dlouho, než se povede strefit do tabulky. Ošetření chyby by mohlo být rychlejší, než prohledávání v databázi (pro velké tabulky). Na vyhledání délky by mohl být použit algoritmus jakéhosi binárního hledání. Tedy je-li vygenerované pořadí za koncem tabulky, tak ho podělím dvěmi a zkusím znovu ...

Přidat názor

Sdílet

Související články na blogu Tomas M

MySQL Master-Slave replikace 26. 4. 2012 11:15

Oživte si svůj Debian (i Ubuntu) 7. 6. 2017 15:01

Grafický spouštěč aplikací pro X11 pod 25KB 10. 12. 2016 10:13

Raspberry PI s MPEG2 30. 8. 2012 12:46

Vodafone a moudrá horákyně (já) 17. 5. 2012 3:43

I Linux potřebuje defrag 8. 5. 2012 15:44

Související články na ostatních blozích

ZABBIX a neočekávaný nárůst velikosti databáze 4. 9. 2023 12:20

Recenze: Chromebook Education 11 3189 2-in-1 (2017) 30. 12. 2018 1:37

Ebook: Ze života správce linuxových serverů 29. 5. 2018 7:44

Co se mi osvědčilo v roce 2017 31. 12. 2017 13:45

Bitwig Studio - skládejte a produkujte hudbu v Linuxu profesionálně 14. 7. 2017 17:25

Jak vypálit Blu-Ray video v Linuxu 19. 8. 2016 20:23

Související články na serveru Root.cz

LXQt 2.0 s podporou Qt6, linuxový Firefox pro ARM64 Včera 0:00

Herní engine Godot i MPV 0.38 vylepšují podporu API Vulkan 21. 4. 2024 0:00

Sbližování Linuxu s Windows běží dál 19. 4. 2024 0:00

Canonical prodlouží podporu LTS, Fedora 40 má první betaverzi 1. 4. 2024 0:00

Vyšlo prostředí GNOME 46, Ubuntu 24.04 má oficiální tapetu 25. 3. 2024 0:00

NixBSD kombinuje FreeBSD a NixOS, COSMIC je na Fedoře 18. 3. 2024 0:00

Tomas Matějíček

Nejčtenější články autora

Poslední názory

Témata

ORDER BY RAND() je zlo

Sdílet

Související články na blogu Tomas M

MySQL Master-Slave replikace 26. 4. 2012 11:15

Oživte si svůj Debian (i Ubuntu) 7. 6. 2017 15:01

Grafický spouštěč aplikací pro X11 pod 25KB 10. 12. 2016 10:13

Raspberry PI s MPEG2 30. 8. 2012 12:46

Vodafone a moudrá horákyně (já) 17. 5. 2012 3:43

I Linux potřebuje defrag 8. 5. 2012 15:44

Související články na ostatních blozích

ZABBIX a neočekávaný nárůst velikosti databáze 4. 9. 2023 12:20

Recenze: Chromebook Education 11 3189 2-in-1 (2017) 30. 12. 2018 1:37

Ebook: Ze života správce linuxových serverů 29. 5. 2018 7:44

Co se mi osvědčilo v roce 2017 31. 12. 2017 13:45

Bitwig Studio - skládejte a produkujte hudbu v Linuxu profesionálně 14. 7. 2017 17:25

Jak vypálit Blu-Ray video v Linuxu 19. 8. 2016 20:23

Související články na serveru Root.cz

LXQt 2.0 s podporou Qt6, linuxový Firefox pro ARM64 Včera 0:00

Herní engine Godot i MPV 0.38 vylepšují podporu API Vulkan 21. 4. 2024 0:00

Sbližování Linuxu s Windows běží dál 19. 4. 2024 0:00

Canonical prodlouží podporu LTS, Fedora 40 má první betaverzi 1. 4. 2024 0:00

Vyšlo prostředí GNOME 46, Ubuntu 24.04 má oficiální tapetu 25. 3. 2024 0:00

NixBSD kombinuje FreeBSD a NixOS, COSMIC je na Fedoře 18. 3. 2024 0:00

Tomas Matějíček

Nejčtenější články autora

Poslední názory

Témata

Dále u nás najdete

Slepý Jan Lucemburský: Lékař za neúspěšnou léčbu zaplatil životem

Po 48 letech končí výroba procesorů Zilog Z80

Na rychlé doručení si Češi potrpí, říká šéf marketingu Allegra

V 90 % útoků v roce 2023 kyberzločinci zneužili protokol RDP

E-shopy nabízejí pojištění proti rozbití nebo krádeži. Má to smysl?

Velké služby by měly dát přístup zdarma a bez cílené reklamy

Google začne účtovat za prohlížeč Chrome

Microsoft zpoplatní aktualizace Windows 10. Cenovka není nízká

Dárce ledviny nemusí být příbuzný, ale musí mít emoční vazbu

Deset let od poslední aktualizace Windows XP

Všechny „dohodáře“ jsem propustila, říká podnikatelka

Algifen Neo není k dostání. Čím ho nahradit během výpadku?

Microsoft oddělil dva populární programy

Jak může Seznam.cz vydělat na konci cookies třetích stran

NÚKIB trápí odchody málo placených zaměstnanců

Polovina Čechů se stala podle Mastercard terčem podvodníků

Halving: O co jde a co od něj čekat?

Nemáte náhodou už i vy nárok na bezplatný upgrade Windows 11?

Kdo chce na Bitcoinu rychle zbohatnout, nejspíš se spálí

Končící amalgám může nahradit cement, kompozit, keramika a zlato