permasalahan : input tahun pada bibliografi tidak rapi isi kolom pblish year ada yang beris 3 angka, misalnnya 204, ada juga yang melibihi tahun sekarang 2026, misalnnya 2041
ada juga yang berisi kalimat misalnnya : 40 hlm,;ilus.;26cm., ii, 64hlm,; 14,5cm
tantangan : jumlah data sangat besar
cara : backup dulu tabel biblio
lalu jalankan query ini, membuat NULL untuk isian yang aneh dan melebih tahun 2026
-- Cleanup spesifik untuk format yang Anda sebutkan
UPDATE biblio
SET publish_year = NULL
WHERE publish_year IN (
'204', -- 3 digit
'2041', -- melebihi tahun sekarang
'40 hlm,;ilus.;26cm', -- teks dengan hlm
'ii, 64hlm,; 14,5cm' -- teks dengan hlm dan cm
)
OR publish_year REGEXP '^[0-9]{3}$' -- semua 3 digit
OR publish_year REGEXP '^[0-9]{1,2}$' -- 1-2 digit
OR CAST(publish_year AS UNSIGNED) > 2026 -- tahun > 2026
OR publish_year LIKE '%hlm%' -- mengandung hlm
OR publish_year LIKE '%cm%' -- mengandung cm
OR publish_year LIKE '%ilus%' -- mengandung ilus
OR publish_year LIKE '%;%' -- mengandung titik koma
OR publish_year REGEXP '[a-zA-Z]' -- mengandung huruf
OR publish_year REGEXP '[,\.]' -- mengandung koma atau titik
OR LENGTH(publish_year) > 4 AND publish_year NOT LIKE '%0'; -- panjang >4 digit (kecuali 0000)