रिकॉर्ड इकाई से केवल पहले एक को निकालें जहां निर्दिष्ट कॉलम का मान डुप्लिकेट किया गया है
आम तौर पर, केवल एक डुप्लिकेट रिकॉर्ड निकालते समय, पहली बात जो दिमाग में आती है वह है मुझे लगता है distinct ,
distinct आपको एक डुप्लिकेट कॉलम और अन्य कॉलम निर्दिष्ट करने की अनुमति नहीं देता है जिसे आप एक ही समय में पुनर्प्राप्त करना चाहते हैं।
इसके अतिरिक्त,distinct इस आवश्यकता से मेल नहीं खाता क्योंकि इसमें निष्कर्षण में गैर-डुप्लिकेट रिकॉर्ड शामिल हैं.
मुझे नहीं लगता कि आप समझ सकते हैं कि आप अकेले शीर्षक के साथ क्या करना चाहते हैं, तो आइए एक उदाहरण के रूप में एक नमूना रिकॉर्ड का उपयोग करें। मैं जो करना चाहता हूं वह निम्नलिखित निष्कर्षण परिणाम है।
| आईडी | नाम |
|---|---|
| 1 | नाम 1 |
| 2 | नाम 2 |
| 3 | नाम 3 |
| 3 | नाम 3@example.com |
| 4 | नाम 4 नाम 4@example.com |
| 4 | नाम 4@example.com |
| 4 | नाम 4@example.com |
इसे इस प्रकार प्राप्त करें:
| आईडी | नाम |
|---|---|
| 3 | नाम 3@example.com |
| 4 | नाम 4@example.com |
आईडी 1 और 2 शामिल नहीं हैं क्योंकि वे डुप्लिकेट नहीं हैं। आईडी 3 और 4 डुप्लिकेट हैं, इसलिए उनमें से एक को पुनर्प्राप्त किया गया है। हालांकि, इस बार हमें डीबी स्टोरेज ऑर्डर में पहला रिकॉर्ड नहीं मिलेगा। इसके अलावा, मान लें कि आप शर्तों के तहत प्राथमिकता के क्रम में नाम की पहली पंक्ति चाहते हैं कि "नाम में @ चिह्न है" और "नाम में वर्णों की एक छोटी संख्या है"।
उपरोक्त स्थिति निम्नलिखित SQL के साथ प्राप्त की जा सकती है। हालाँकि, हम सबक्वेरी का उपयोग कर रहे हैं और प्रदर्शन की जाँच नहीं की है।
select
*
from
(select *, row_number() over(order by ID asc) as RowNum from SampleTable) tableMain
where tableMain.RowNum =
(
select
top(1) RowNum
from
(select *, row_number() over(order by ID asc) as RowNum from SampleTable) tableSub
where
tableMain.ID = tableSub.ID
and exists (
select
*
from
SampleTable
where
tableSub.ID = ID
having
count(*) >= 2
)
order by
case when charindex(N'@', Name) >= 1 then 0 else 1 end, len(Name)
)
डुप्लिकेट पंक्तियों के साथ जाँच की जाती है having और count . group by कुंजी कॉलम को बाहर से जांचा जाना है, यहां ID कॉलम को संकुचित किया गया है where ।
पहली पंक्ति को पुनः प्राप्त करने के लिए वरीयता का क्रम निर्दिष्ट किया गया है order by । charindex यहां, और len जांचें कि क्या इसमें निर्दिष्ट वर्ण और स्ट्रिंग की लंबाई है।
top आपको बस इतना करना है कि प्रत्येक डुप्लिकेट रिकॉर्ड की पहली पंक्ति .
मूल रूप से, यह ठीक है, लेकिन अगर बिल्कुल समान मूल्य वाले दो या अधिक रिकॉर्ड हैं, जैसे "आईडी: 4, नाम: नाम 4@example.com", तो आपको अनिवार्य रूप से दो रिकॉर्ड मिलेंगे।
row_number इसलिए, इसे जोड़ा जाता है ताकि इसे प्रत्येक पंक्ति के लिए पहचाना जा सके, ताकि ठीक उसी मान वाला केवल एक रिकॉर्ड पुनर्प्राप्त किया जा सके।
यदि यह ज्ञात है कि सटीक समान रिकॉर्ड मौजूद नहीं है, तो मुझे row_number लगता है कि मौजूदा रिकॉर्ड के मूल्यों को बिना संलग्न किए जांचना बेहतर होगा।
यदि डुप्लिकेट के लिए जाँचने के लिए एकाधिक कुंजियाँ हैं, तो आप प्रत्येक के लिए कुंजी स्तंभों की संख्या बढ़ा सकते हैं. उदाहरण के लिए, निम्न रिकॉर्ड पर विचार करें: डुप्लिकेट के लिए चेक किए जाने वाले कॉलम "आईडी 1" और "आईडी 2" हैं।
| ID1 | ID2 | नाम |
|---|---|---|
| 1 | 1 | नाम 1 |
| 2 | 1 | नाम 2 |
| 3 | 1 | नाम 31 |
| 3 | 2 | नाम 32 |
| 4 | 1 | नाम41 |
| 4 | 2 | नाम42 |
| 4 | 2 | नाम 4@example.com |
| 5 | 1 | नाम 555@example.com |
| 5 | 1 | नाम 55@example.com |
| 5 | 2 | नाम 5@example.com |
| 6 | 1 | नाम 6 |
| 6 | 1 | नाम 66@example.com |
| 6 | 2 | नाम 6 |
| 6 | 2 | नाम 6 |
अधिग्रहण परिणाम इस प्रकार है।
| ID1 | ID2 | नाम |
|---|---|---|
| 4 | 2 | नाम 4@example.com |
| 5 | 1 | नाम 55@example.com |
| 6 | 1 | नाम 66@example.com |
| 6 | 2 | नाम 6 |
एसक्यूएल इस तरह दिखता है: आप बस उस हिस्से को बढ़ा सकते हैं जहां कुंजी कॉलम निर्दिष्ट किया गया था।
select
*
from
(select *, row_number() over(order by ID1 asc, ID2 asc) as RowNum from SampleTable) tableMain
where tableMain.RowNum =
(
select
top(1) RowNum
from
(select *, row_number() over(order by ID1 asc, ID2 asc) as RowNum from SampleTable) tableSub
where
tableMain.ID1 = tableSub.ID1
and tableMain.ID2 = tableSub.ID2
and exists (
select
*
from
SampleTable
where
tableSub.ID1 = ID1
and tableSub.ID2 = ID2
having
count(*) >= 2
)
order by
case when charindex(N'@', Name) >= 1 then 0 else 1 end, len(Name)
)