კვლევის მეთოდები განათლებაში
თავი 19
რაისის (Rice 1897) მართლწერის ტესტის, ებინგჰაუსის (1987) დავიწყების ტესტისა და ბინეს (1905) ინტელექტის სკალის შემდეგ, ტესტები არნახული სისწრაფით განვითარდა მოცულობის, მრავალფეროვნების, სფეროებისა და დახვეწილობის თვალსაზრისით. ტესტირების სფერო იმდენად ფართოა, რომ აქ მხოლოდ შესავალის სახით მიმოვიხილავთ მასთან დაკავშირებულ ზოგიერთ საკითხს, უფრო მეტი და დეტალური ინფორმაციისთვის კი სპეციალური ტექსტებისა და წყაროების მოძიება მოგიწევთ. აქ მხოლოდ ტესტებთან და ტესტირებასთან დაკავშირებულ რამდენიმე ძირითად საკითხს შევეხებით.
ტესტების სახით მკვლევრებს მონაცემების შეგროვების მძლავრი იარაღი გააჩნიათ, რომლითაც მათ არა სიტყვიერი, არამედ რაოდენობრივი მონაცემების მიღება შეუძლიათ. ტესტირების მონაცემების შეგროვებაზე საუბრისას, რამდენიმე მნიშვნელივანი საკითხი უნდა გავითვალისწინოთ, უპირველესად საეროდ რატომ ვიყენებთ ტესტს და ასევე განვსაზღვროთ:
მოდით, ეს საკითხები უფრო ვრცლად განვიხილოთ.
ათიათასობით ტესტი არსებობს, რომლებიც ყველა ასაკის (პატარა ბავშვებიდან დაწყებული, მოზრდილების ჩათვლით) მოსწავლის ცხოვრების ყველა ასპექტს მოიცავს, მათ შორისაა, მაგალითად: მიდრეკილება, ათვისებული ცოდნა, პიროვნება, სოციალური ადაპტაცია, დამოკიდებულებები და ღირებულებები, სტრესი და გადაღლა, უნარები, მიღწევა, დიაგნოზი და სირთულეები, ინტელექტი, ვერბალური და არავერბალური მსჯელობა, აბსტრაქტული აზროვნება, მიღწევები სასკოლო საგანებში, ინტროვერსია და ექსტრავერსია, თვითშეფასება, კონტროლის ლოკუსი, დეპრესია და შფოთვა, კითხვისთვის მზაობა, უნივერსიტეტში მისაღები ტესტები, ენის ცოდნის ტესტები, მოტივაცია და ინტერესი, სენსორული და პერცეპტული ტესტები, სპეციალური უნარები და შეზღუდული შესაძლებლობის და ბევრი სხვა. გამოქვეყნებული ტესტების მოსაძიებლად საინტერესოა „The Manual Measurement Yearbooks“ და „Tests in Print“, ასევე კონკრეტული გამომცემლების წყაროები, როგორიცაა Harcourt Assessment and John Wiley. ასევე, ტესტების და მათი მომწოდებლების შესახებ ინფორმაცია განთავსებულია ამერიკის ფსიქოლოგიური ასოციაციის Fინდინგ Iნფორმატიონ აბოუტ Pსყცჰოლოგიცალ თესტს და ბრიტანეთის ფსიქოლოგიური საზოგადოების ვებ გვერდებზე. მრავალფეროვანი ტესტების, მათი მომწოდებლებისა და შესაბამისი ვებ გვერდების შესახებ ინფორმაციის მომცველი სტანდარტული ტექსტები შეგიძლიათ ნახოთ შემდეგ წყაროებში: Gronlund and Linn (1990), Kline (2000), Loewenthal (2001) და Aiken (2003).
პარამეტრული ტესტები ფართო პოპულაციაზე ჩასატარებლად გამოიყენება, მაგალითად, ქვეყანა ან ასაკობრივი ჯგუფი. მათი საშუალებით ყალიბდება ვარაუდი პოპულაციისა და ამ პოპულაციის მახასიათებლების შესახებ, ანუ, ცნობილი ხდება უნარების პარამეტრები. ასეთი ტესტები, ასევე, უშვებენ, რომ:
რაზეც კითხვარების დიზაინის განხილვისას რიგის სკალის შესახებ
ვისაუბრეთ, სადაც ქულებს შორის ინტერვალები თანაბარი არ არის.
პარამეტრული ტესტები, ჩვეულებრივ, გამოქვეყნებული ტესტებია, რომლებიც იყიდება და პილოტირებული და სტანდარტიზებულია დიდ და პოპულაციის რეპრეზენტაციულ შერჩევაზე. ისინი, როგორც წესი, ტესტის მომზადებისას გამოყენებული შერჩევის, სანდოობისა და ვალიდობის ამსახველი სტატისტიკის დანართებთან ერთად იყიდება. ასეთი ტესტებით მუშაობა მკვლევრებს ინტერვალებისა და შეფარდების სკალებისთვის განკუთვნილი სტატისტიკის გამოყენების შესაძლებლობას აძლევს.
არაპარამეტრული ტესტები მცირეოდენს (ან, საერთოდ არაფერს) გვიჩვენებს პოპულაციის განაწილების (ქულების პარამეტრების) ან ამ პოპულაციის მახასიათებლების შესახებ. ტესტებში არ გვხვდება პოპულაციის ზარისებრი განაწილება. ფაქტობრივად, ფართო პოპულაცია არც არაფერ შუაშია, ვინაიდან ეს ტესტები კონკრეტული მოცემული სიტუაციისთვისაა შექმნილი, იქნება ეს მოცემული სკოლის კლასი, ქიმიის შემსწავლელი ჯგუფი თუ დაწყებითი სკოლის პირველკლასელები. ვინაიდან ისინი არ აკეთებენ დაშვებებს პოპულაციის შესახებ, მკვლევარმა სახელდების და რიგის სკალის მონაცემებისთვის შესატყვისი არაპარამეტრული სტატისტიკა უნდა გამოიყენოს. პარამეტრული ტესტები, ჭეშმარიტი ნულითა და მისანიჭებელი ქულებით, მასწავლებლის ყოველდღიური მოხმარების ინსტრუმენტებია, მაგალითად, მართლწერის და მათემატიკის ტესტები, სასწავლო წლის ბოლოს გამოცდებისა და იმიტირებული გამოცდების ტესტები.
არაპარამეტრული სტატისტიკის მიმზიდველობას მცირე შერჩევებისთვის გამოყენება განაპირობებს, რადგან ისინი არაფერს ამბობენ იმის შესახებ, თუ რამდენად ნორმალური, თანაბარი და რეგულარული იქნება მიღებული ქულების განაწილება. გარდა ამისა, არაპარამეტრული ტესტებისთვის სტატისტიკური სიდიდეების გამოთვლა უფრო მარტივია, ვიდრე - პარამეტრული ტესტებისთვის. არაპარამეტრული ტესტების უპირატესობა ის არის, რომ ისინი კონკრეტული ინსტიტუტის, დეპარტამენტისა და ინდივიდის გარემოებების შესაბამისადაა შექმნილი. ისინი მასწავლებელს შესაძლებლობას აძლევენ სწრაფი, რელევანტური და კონკრეტული უკუკავშირი მისცენ სტუდენტებს.
პარამეტრული ტესტები უფრო მძლავრი საზომია, ვიდრე არაპარამეტრული, ვინაიდან ისინი არა მარტო სტანდარტიზებულ ქულებს იძლევიან, არამედ ქვეპოპულაციების პოპულაციასთან შედარების შესაძლებლობასაც აძლევენ მკვლევარს (მაგალითად, ერთი სკოლის ან ადგილობრივი საგანმანათლებლო დაწესებულების შედეგების მთელი ქვეყნის მონაცემებთან შედარება, ვთქვათ, ნორმაზე ან კრიტერიუმზე ორიენტირებულ ტესტებში მოსწავლეების შედეგების შედარება ქვეყნის მასშტაბით იმავე ტესტის საშუალო მაჩვენებელთან). ისინი მონაცემების დამუშავებისთვის მძლავრი სტატისტიკური მეთოდების გამოყენების (იხილეთ თავები 24-26) და შედეგების შესახებ დასკვნების გაკეთებას საშუალებასაც იძლევიან. ვინაიდან, არაპარამეტრული ტესტები პოპულაციის შესახებ არაფერს ვარაუდობს, მათ მიმართ განსხვავებული სტატისტიკა გამოიყენება (იხილეთ თავი 24). ასეთ ტესტებს ძალზე სპეციფიკურ სიტუაციებში იყენებენ, იქნება ეს ერთი კლასის მოსწავლეები, ერთ წელს მიღებული ჯგუფები, ერთი სტილის სწავლება, თუ ერთი სასწავლო პროგრამის სფერო. სწორედ ამიტომ არის მასწავლებლებისთვის ასეთი ტესტები ღირებული.
ნორმაზე ორიენტირებული ტესტი მოსწავლეების მოცემულ მიღწევას სხვა მოსწავლეების მიღწევას ადარებს, მაგალითად, მათემატიკის ეროვნული ან ინტელექტის ტესტი, რომელიც 6-16 წლის მოსწავლეების დიდ და რეპრეზენტაციულ შერჩევაზეა სტანდარტიზებული. კრიტერიუმზე ორიენტირებული ტესტი მოსწავლეებს კი არ ადარებს ერთმანეთთან, არამედ მათგან კონკრეტული კრიტერიუმის, წინასწარ განსაზღვრული და აბსოლუტური სტანდარტის ან შედეგის მიღწევას მოითხოვს (Cunningham 1998). მაგალითად, მანქანის მართვის ტესტი, როგორც წესი, კრიტერიუმზეა ორიენტირებული, ვინაიდან ამ ტესტის ჩაბარება ტესტის დებულებებში მოცემული კრიტერიუმების დაკმაყოფილებას ნიშნავს, მაგალითად, წრეზე შემოვლას, ავარიული მანიშნებლების ჩართვას, შეჯახების თავიდან არიდებას და ა. შ., იმისგან დამოუკიდებლად, თუ რამდენმა ადამიანმა ჩააბარა ან ვერ ჩააბარა ის. ანალოგიურად, მუსიკალურ ინსტრუმენტზე დაკვრის მრავალი ტესტი სპეციფიკურ ქმედებას მოითხოვს, როგორიცაა კონკრეტული სავარჯიშოს ან არპეჯიოს დაკვრა, ან ბახის ფუგის სწრაფად და ტექნიკურად უშეცდომოდ შესრულება. თუ მოსწავლე აკმაყოფილებს კრიტერიუმს, მაშინ მას გამოცდა ჩაბარებული აქვს.
კრიტერიუმზე ორიენტირებული ტესტი მკვლევარს აწვდის ინფორმაციას, თუ ზუსტად რა ისწავლა მოსწავლემ, რისი გაკეთება შეუძლია მას, ხოლო ნორმაზე ორიენტირებული ტესტი უჩვენებს, სხვებთან შედარებით რამდენად კარგად შეასრულა სტუდენტმა მოცემული დავალება და რამდენად იძლევა იგი მიღწევის რანჟირების საშუალებას. ამგვარად, ნორმაზე ორიენტირებული ტესტის მთავარი მახასიათებელია სტუდენტებისა და მათი მიღწევების განსხვავების უნარი: კარგად აგებული ნორმაზე ორიენტირებული ტესტი მიღწევაში განსხვავებების ზუსტად გაზომვის საშუალებას, ანუ, ქულების ფართო დიაპასონს იძლევა. კრიტერიუმზე ორიენტირებულ ტესტს ეს არ აინტერესებს. მისი მიზანია იმის ჩვენება, აკმაყოფილებს თუ არა მოსწავლე მოცემულ კრიტერიუმს, განურჩევლად იმისა, თუ რამდენმა მოსწავლემ დააკმაყოფილა ან ვერ დააკმაყოფილა ის შესაბამისად, ცვალებადობა ანუ დიაპაზონი აქ ნაკლებად მნიშვნელოვანია.
ბოლო პერიოდში შეიმჩნევა კრიტერიუმზე ორიენტირებული ტესტების დანამატის განვითარება სფეროზე ორიენტირებული ტესტების სახით (Gipps 1994: 81). აქ დიდი მნიშვნელობა ენიჭება საკვლევი შინაარსისა თუ სფეროს ზედმიწევნით და დეტალურად დახასიათებას. სფერო შესამოწმებელი თემის კონკრეტული ველი ან არეა, მაგალითად, სინათლე - მეცნიერებაში, ორნაწილიანი კონტრაპუნქტი - მუსიკაში, მეტყველების ნაწილები - ინგლისურ ენაში. სფერო ძალიან ზუსტად და სრულად არის განსაზღვრული, ისე, რომ შინაარსი სრული სიღრმითა იყოს წარმოდგენილი. ტესტის დებულებები ამ სრული ველიდან, შერჩევის პროცედურებისადმი უდიდესი ყურადღებით, შეირჩევა ისე, რომ მათში შენარჩულებული იყოს იმ ველის რეპრეზენტაციულობა, საიდანაც იგი შეარჩიეს. მოსწავლის მიერ ამ ტესტზე ნაჩვენები შედეგის გამოთვლით მიიღება შესაძლებელი მაქსიმალური ქულის წილი, რომელიც, თავის მხრივ, მთლიანი სფეროს ამ მოსწავლის მიერ მოცული წილის ინდექსად, ანუ, მაჩვენებლად გამოიყენება. ასე მაგალითად, თუ სფერო 1000 დებულებას მოიცავს, ტესტში შეტანილია 50 დებულება და მოსწავლემ 50 შესაძლებელიდან 30-ს უპასუხა სწორად ანუ ქულა დააგროვა, მაშინ ვასკვნით, რომ მან 1000 დებულებიანი სფეროს 60 პროცენტი ([30÷50]×100) დაფარა. აქ მთლიან სფეროში მოსწავლის მიღწევის შესახებ დებულებების შეზღუდული რაოდენობის საფუძველზე ვასკვენით, რაც ტესტის დებულებების ზედმიწევნით და რეპრეზენტაციულ შერჩევას საჭიროებს.
საერთო სარგებლობისთვის არსებობს ტესტების ნაკრები, რომელიც თემების ფართო დიაპაზონს მოიცავს და შეფასების მიზნებისთვის გამოიყენება (წყაროებზე ზემოთ მივუთითეთ). სკოლების უმრავლესობა გამოქვეყნებულ ტესტებს ერთხელ მაინც გამოიყენებს. ასეთი ტესტების გამოყენებას რამდენიმე პლიუსი გააჩნია, კერძოდ, ისინი:
მეორე მხრივ, ჰოვიტი და კრამერი (Howitt and Cramer 2005) თვლიან, რომ კომერციული ტესტების შეძენა და ადმინისტრირება ძვირი ჯდება. ისინი ხშირად კონკრეტულ და არა - ზოგად პოპულაციებზეა ორიენტირებული (მაგალითად, ფსიქოლოგიური ტესტირება) და კვლევის მიზანს შეიძლება ზუსტად არ ერგებოდეს. გარდა ამისა, ზოგიერთი კომერციული ტესტი შეზღუდული რაოდენობით გამოიცემა და შეზღუდულია მასზე წვდომა, ამიტომ მკვლევარს ტესტის გამოყენებისთვის ან ფლობისთვის შეიძლება რომელიმე კონკრეტულ ასოციაციაში მოუწიოს გაწევრიანება ან ტესტით სარგებლობაზე ნებართვის აღება დაჭირდეს. მაგალითად, გამომცემლებს Harcourt Assessment და McGraw-Hill არა მარტო ყველანაირ ტესტზე აქვთ საავტორო უფლება მთელ მსოფლიოში, არამედ ტესტის გაცემამდე რეგისტრაციასაც ითხოვენ. Harcourt Assessment-ს, ტესტებს გამოყენების სხვადასხვა პირობები გააჩნია, ასე რომ, ზოგიერთმა მხარემ ან მკვლევარმა შეიძლება ვერ გამოიყენოს ტესტი, ვინაიდან ვერ აკმაყოფილებდეს საჭირო კრიტერიუმებს.
გამოქვეყნებული ტესტები, როგორც დასახელებიდან ჩანს, არ არის მორგებული კონკრეტულ ინსტიტუტზე, სიტუაციასა თუ მოთხოვნებზე. ფაქტობრივად, ობიექტურობაზე პრეტენზიის საფუძველს სწორედ ის ქმნის, რომ ისინი მიზანმიმზართულად სცილდება ინსტიტუციის ფარგელბს. მკვლევარი, რომელსაც გამოქვეყნებული ტესტების გამოყენება სურს, დარწმუნებული უნდა იყოს, რომ ამ ტესტების მიზნები, ამოცანები და შინაარსი შეფასების მიზნებს, ამოცანებსა და შინაარსს შეესაბამება. მაგალითად, გამოქვეყნებული სადიაგნოსტიკო ტესტი შეიძლება ვერ მოერგოს იმას, რის შესაფასებლადაც მიღწევის ტესტია საჭირო; მიღწევის ტესტს შეიძლება არ ჰქონდეს პრედიქტული ღირებულება, რასაც მკვლევარი მიდრეკილების ტესტისგან მოელის; კითხვის უნარის შესაფასებელი გამოქვეყნებული ტესტი ვერ მოიცავს კითხვის უნარის იმ ასპექტებს, რომლის კვლევასაც მეცნიერი აპირებს, ინგლისურ ენაზე შედგენილი ვერბალური კითხვის ტესტის შესრულება ძნელი იქნება იმ მოსწავლისთვის, ვისთვისაც ინგლისური არ არის მშობლიური ენა. ეს მნიშვნელოვანი მომენტებია. მკვლევრებისთვის კომერციული ტესტების სარგებლიანობის შეფასების შესახებ ყველაზე ხშირად ციტირებული ტექსტი ამერიკის ფსიქოლოგიურ ასოციაციას (1999) ეკუთვნის, ესაა საგანმანათლებლო და ფსიქოლოგიური ტესტირების სტანდარტები.
კომერციული ტესტების გამოყენების გადაწყვეტილების მიღებისას ოქროს წესია, რომ ისინი მიზნისთვის შესატყვისი უნდა იყოს. თუ ტესტი არ შეესატყვისება მიზანს, მაშინ მისი შექმნა მკვლევარს თავად მოუწევს. ამ უკანასკნელის მიმზიდველობა ისაა, რომ ასეთი „სახლში გაკეთებული“ ტესტი კარგად იქნება მორგებული კონკრეტულ ადგილობრივ და ინსტიტუციურ კონტექსტს, ანუ, ტესტის მიზნები, ამოცანები და შინაარსი მიზანმიმართულად იქნება მორგებული მოცემულ სპეციფიკურ კონტექსტში მკვლევრის საჭიროებებზე. მიზნისადმი შესატყვისობის განხილვისას კრონბახი (1949) და კრონბახი და ლინი (1990) მთელ რიგ კრიტერიუმებს ასახელებენ, რომლითაც შეიძლება შეფასდეს კომერციული ტესტის კონკრეტული კვლევის მიზნებისთვის შესატყვისობა.
დასახელებული უპირატესობების მიუხედავად, არსებობს რამდენიმე მნიშვნელოვანი მომენტი, რომელიც „სახლში შექმნილი“ ტესტის შექმნისას უნდა განვიხილოთ. ასეთი ტესტების შექმნა, პილოტირება, დახვეწა და შემდეგ ჩატარება დიდ დროს მოითხოვს. ასევე, მათი უმრავლესობა არაპარამეტრულია და მიღებული მონაცემების დამუშავებისთვის გამოსადეგი სტატისტიკური ოპერაციების დიაპაზონი უფრო შეზღუდულია, ვიდრე პარამეტრული ტესტების შემთხვევაში.
ტესტების გამოყენების არეალი ძალიან ფართოა. განათლების სფეროში არ არსებობს აქტივობა, რომელსაც ტესტირება ჯერ არ შეხებია. მიღწევის ტესტები, მეტწილად, შემაჯამებელია თავისი ბუნებით და მოცემულ შინაარსობრივ ველში მიღწეულ შედეგს აჩვენებს, ხოლო უნარების ტესტები შესაძლებლობის, მიღწევის პოტენციალის, სწავლის პოტენციალისა და სამომავლო მიღწევების პროგნოზირებისთვისაა შექმნილი. თუმცა, დაშვება, რომ ეს ორი კონსტრუქტი - მიღწევა და უნარი - სხვადასხვაა, კითხვის ნიშნის ქვეშ დგას და მსჯელობის საგანია (Cunningham 1998). ხშირად ხდება, როცა უნარი, ვთქვათ, გეოგრაფიაში, მოცემულ ასაკში ან განვითარების ეტაპზე ამავე ასაკისთვის ან ეტაპისთვის განკუთვნილი მიღწევის ტესტით შეიძლება გაიზომოს. კუნინგემის (1998) მოსაზრებით, მიღწევის ტესტი შეიძლება ბაზისური უნარების უფრო მარტივი და სწორხაზოვანი საზომი იყოს, ხოლო უნარების ტესტები კომბინაციებს მოიცავდნენ, მაგალითად, მსჯელობის (ხშირად აბსტრაქტულის) და კონკრეტული ცოდნისას. ამგვარად, მიღწევისა და უნარების ტესტები იმის მიხედვით განსხვავდებიან ერთმანეთისაგან, რასაც ისინი ზომავენ.
ტესტების ეს ორი ფორმა არა მარტო იმით განსხვავდება ერთმანეთისგან, რასაც ზომავენ, არამედ იმითიც, თუ რისი პროგნოზირება შეუძლიათ, რადგან მათი გამოყენება პრედიქტორული/პროგნოზირების თვალსაზრისითაც შეიძლება. მაგალითად, ვინაიდან მიღწევის ტესტი უფრო სპეციფიკურია და ხშირად სპეციფიკურ შინაარსზეა მიბმული, ის ამ კონკრეტული სფეროში სამომავლო მოსწრების პრედიქტორად გამოდგება, მაგრამ თითქმის არაფრის მომცემი იქნება იმ მიღწევის პროგნოზირებისთვის, რომელიც მოცემული შინაარსის ფარგლებს სცილდება. უნარების ტესტი უფრო ზოგად უნარებს ზომავს (მაგალითად, „ინტელექტის“ ასპექტებს, ცოდნის ან სასწავლო პროგრამის რამდენიმე სფეროსთვის საერთო უნარებსა და შესაძლებლობებს), ამიტომ, ის მიღწევის უფრო განზოგადებულ პრედიქტორად გამოდგება. გრონლუნდის (Gronlund 1985) მიხედვით, მიღწევის ტესტები სასკოლო გამოცდილებას უფრო უკავშირდება, უნარების ტესტები კი - სკოლის გარეთ სწავლას და უფრო ფართო გამოცდილებებსა და შესაძლებლობებს მოიცავს. თუმცა, კუნინგემი (1998) ამტკიცებს, რომ ტესტების ეს ორი ტიპი საკმაოდ ჰგავს ერთმანეთს და თვლის, რომ განსხვავება, მეტწილად, გარეგნულია. მიღწევის ტესტი უფრო სპეციფიკურია და სასწავლო პროგრამებსა და მონათესავე სფეროებს უკავშირდება, ვიდრე უნარების ტესტი, რომელიც უფრო ზოგად უნარებს მოიცავს (Hanna 1993) (მაგალითად, ინტელექტს Gardner 1993).
ტესტის შექმნისას მკვლევარმა უნდა განიხილოს და გაიაზროს:
ტესტის დაგეგმვისას მკვლევარმა შემდეგი ეტაპები უნდა გაიაროს:
1. ტესტის მიზნის განსაზღვრა;
2. ტესტის სპეციფიკაციის განსაზღვრა;
3. ტესტის შინაარსის შერჩევა;
4. ტესტის ფორმის განხილვა;
5. ტესტის დებულებების დაწერა;
6. ტესტის სტრუქტურის განხილვა;
7. ტესტის შესრულებისათვის საჭირო დროის განხილვა;
8. ტესტში ქულების მინიჭების პროცედურის დაგეგმვა.
ტესტს სხვადასხვა მიზანი შეიძლება ჰქონდეს, მაგალითად, მოსწავლის ძლიერი, სუსტი და პრობლემური მხარეების დიაგნოსტირება, მიღწევის გაზომვა, მიდრეკილებისა და პოტენციალის დადგენა, პროგრამისთვის მზაობის შეფასება. გრონლუნდი და ლინი (1990) ამას „განაწილების ტესტს“ უწოდებენ და ის, ჩვეულებრივ, პრეტესტის სახით ტარდება და მოწოდებულია იმის შესაფასებლად, თუ რამდენად აკმაყოფილებს მოსწავლე მოცემული პროგრამის დაწყებისთვის აუცილებელ წინაპირობებს (მაგალითად, ცოდნის, უნარების, გაგების უნარის თვალსაზრისით). ასეთი ტესტები სხვადასხვა ეტაპზე გამოიყენება, მაგალითად, განაწილების ტესტი პროგრამის დაწყებამდე ტარდება და საწყის უნარებსა და მიღწევებს, ანუ, მოსწავლის „მისაღებ“ უნარებს აფასებს. თუ განაწილების ტესტის დანიშნულება მოსწავლეების სხვადასხვა მიმართულებით, პროგრამებში ან სასწავლო ჯგუფებში გადანაწილებაა (ანუ, მათი ადმინისტრაციულ ან სასწავლო ჯგუფებად დაყოფა), მაშინ ტესტი კრიტერიუმზე ან ნორმაზე ორიენტირებული შეიძლება იყოს. თუ იგი დეტალურად ზომავს საწყის მდგომარეობას, ცოდნას, უნარებსა და შესაძლებლობებს, მაშინ ტესტი უფრო კრიტერიუმზე ორიენტირებული იქნება, ვინაიდან ის მეტ დეტალიზაციას მოითხოვს. მას თავისი ექვივალენტი აქვს „ბაზისურ შეფასებაში“ და მნიშვნელოვანი მახასიათებელია, თუ მკვლევარი სწავლებისა და სწავლის „დამატებითი ღირებულების“ კომპონენტს ზომავს: მას მხოლოდ მაშინ შეუძლია იმის შეფასება, თუ რა შემატა მოსწავლეს საგანმანათლებლო გამოცდილებამ, თუ მისი საწყისი მდგომარეობა და საწყისი უნარები და მიღწევები ეცოდინება.
ტესტის სპეციფიკაციებში შედის:
ტესტის ვალიდობის უზრუნველსაყოფად არსებითი მნიშნველობა აქვს, რომ ტესტის მიზნები ზუსტად აისახებოდეს ტესტის დებულებებში. ამტკიცებენ, რომ მიზნები (Mager 1962; Wiles and Bondi 1984):
იმაში დარწმუნების ერთ-ერთი საშუალება, რომ ტესტის ამოცანები მართებულად აისახება მის დებულებებში, მატრიცის შედგენაა, რომელიც გვიჩვენებს ტესტში შინაარსობრივი მხარის დაფარვას, პროგრამის ამოცანების დაფარვასა და ტესტური დებულებების ფარდობით წონებს. ჩანართში 19. 1 ასეთი მატრიცაა წარმოდგენილი, რომელიც საშუალო სკოლის ისტორიის კურსის სილაბუსიდანაა აღებული.
------------------
ჩანართი 19.1.
ტესტის დებულების მატრიცა
------------------
ჩანართში 19. 1 მოცემული მატრიცა მიგვითითებს პროგრამის ძირითად სფეროებზე, რომლებიც ტესტში უნდა აისახოს (შინაარსის სფეროები). შემდეგ გვიჩვენებს, თუ რომელი ამოცანა ან დეტალიზებული შინაარსის სფერო აისახება (1a – 3c) - ეს რიცხვები სილაბუსში იდენტიფიცირებულ სპეციფიკაციებს შეესაბამება. და ბოლოს, მოცემულია თითოეული სფეროსათვის მინიჭებული პროცენტები, რომელიც რამდენიმე მომენტზე მიგვანიშნებს:
ამრიგად, გვაქვს ტესტის სქემა, რომელიც გვიჩვენებს ფარდობით წონებს, მიზნებისა და შინაარსის დაფარვასა და ამ ორი უკანასკნელი ელემენტის ურთიერთმიმართებას. გრონლუნდისა და ლინის (1990) აზრით, ფარდობითი წონების გამოსათვლელად ჯერ ყოველი სვეტის ბოლოს შესაბამისი პროცენტი უნდა მივუთითოთ, შემდეგ ყოველი სტრიქონის ბოლოს უნდა მივუთითოთ შესაბამისი პროცენტი და ბოლოს, მატრიცის თითოეული უჯრა ამ სპეციფიკაციების ფარგლებში შევავსოთ. მატრიცის მაგალითში სვეტების დასახელებები სპეციფიკურ მიზნებს შეესაბამება. ცხადია, ისინი კონცეპტუალური ცოდნითა და პრინციპებით და, ასევე, თითოეული სვეტის დასახელების შესაბამისი უნარებით უნდა შეიცვალოს. სხვა ვარიანტია ამ დასახელებების აქტივობის სპეციფიკური ასპექტებით შეცვლა, მაგალითად, (Cohen et al. 2004: 339): ამწეს დიზაინის შექმნა, ამწეს გაკეთება, ამწეს გამოცდა, შედეგების შეფასება, დიზაინის გაუმჯობესება. ფაქტობრივად, ეს უკანასკნელი შეიძლებოდა შინაარსის (სტრიქონი) დასახელება ყოფილიყო, როგორც ნაჩვენებია ჩანართში 19. 2. აქ შეგიძლიათ ნახოთ, რომ პრაქტიკულ უნარებს უფრო ნაკლები ქულები ენიჭება, ვიდრე ჩაწერის უნარებს (სვეტი „სულ“), ხოლო გაკეთებასა და შეფასებაზე ქულები ერთნაირად ნაწილდება (სტრიქონი „სულ“).
------------------
ჩანართი 19.2.
ტესტის დებულების ელემენტების ფორმირება
------------------
მატრიცა გარკვეულ ინფრომაციას გვაძლევს ტესტში შესული დებულებების რაოდენობის შესახებ, მაგალითად, ისტორიის ტესტის მატრიცის შემთხვევაში 9×6=54 შესაძლო დებულებაა, ამწესთან დაკავშირებული აქტიობის მაგალითში კი - 5×4=20. ცხადია, რეალურად მნიშვნელოვნად განსხვავებული სურათი შეიძლება გვქონდეს, მაგალითად, ტესტში უფრო მეტი დებულება შევიტანოთ, თუ მატრიცის ერთი უჯრის შემოწმება რამდენიმე (და არა - ერთი) დებულებით გვსურს (სავარაუდოდ, ჯვარედინი გადამოწმებისთვის), უფრო ნაკლები რაოდენობის დებულებებს მივიღებთ, ერთი დებულება მატრიცის ერთზე მეტ უჯრას რომ შეესაბამებოდეს. მატრიცის აგების სირთულე ისაა, რომ მასზე კონტროლის დაკარგვა ადვილად შეიძლება. ასეთ დროს, შეიძლება ძალიან ბევრი დებულება შევქმნათ და უსარგებლოდ გრძელი ტესტი მივიღოთ. ჩვეულებისამებრ, რაც უფრო მეტი სპეციფიკურობაა საჭირო, მით მეტი დებულება იქნება ტესტში. ტესტის აგების ერთ-ერთი საუკეთესო საშუალებაა ტესტის იმ ერთი დებულების არსებობა, რომელიც ერთზე მეტი ფაქტორისთვის იძლევა ვალიდურ და სანდო მონაცემს.
ტესტის სპეციფიკაციების დადგენის შემდეგ მკვლევარმა უნდა დააზუსტოს და სრულიად გასაგები გახადოს ტესტის დებულებები, რომლებიც მიზნების, პროგრამების, შინაარსების და ა. შ. მიღწევის კონკრეტულ ასპექტებს ამოწმებენ; ტესტის დებულებების მიერ შინაარსის დაფარვა, მათ შორის ბალანსი და ტესტის დებულებების ფარდობითი წონები.
ამ ეტაპზე ხდება ტესტის დებულებების ანალიზი. გრონლუნდი და ლინი (1990) თვლიან, რომ დებულებების ანალიზისას უნდა განვიხილოთ შემდეგი:
ტესტის შედგენისას მკვლევარმა უნდა გაიაზროს, თუ როგორ იქნება თითოეული შესამოწმებელი ელემენტი ოპერაციონალიზებული:
დიდი ბრიტანეთის „შეფასებისა და ტესტირების მკვლევართა ჯგუფი“ (Task Group on Assessment and Testing 1988) გვირჩევს ყურადღება მივაქციოთ ტესტის პრეზენტაციის, მოქმედების და რეაქციის მეთოდებს:
გრონლუნდისა და ლინის (1990: 255) აზრით, დებულებების ანალიზი მათთვის მინიჭებული ფუნქციის შესრულების გადამოწმებაა, მაგალითად: კრიტერიუმზე ორიენტირებული დებულებები სათანადოდ ესადაგებიან საჭირო სფეროებს და კრიტერიუმებს, ხოლო ნორმაზე ორიენტირებული დებულებები დებულების დისკრიმინაციულობას (იხ. ქვემოთ) ავლენენ; დებულებების სირთულის დონე ადეკვატურია (იხ. ქვემოთ: დებულების სირთულე); ტესტი სანდოა (მასში არ არის დისტრაქტორები ანუ უსარგებლო ინფორმაცია და შეუსაბამო მანიშნებლები, იხ. ქვემოთ: დისტრაქტორები) (იხ. Millan and Greene (1993)). დებულებების ანალიზისას პასუხების სიზუსტის დონე, დებულების სირთულე, შესამოწმებელი ცოდნის ან უნარის მნიშვნელოვნება, დებულების პროგრამასთან შესაბამისობა და ტესტში შესატანი დებულებების რაოდენობა განიხილება.
დებულებების ანალიზის საფუძველს დებულებაზე პასუხის თეორია (Item Response Theory) ქმნის (იხ. Hambelton 1993). დებულებაზე პასუხის თეორია აგებულია ისეთ პრინციპზე, სადაც ცალკეული, სპეციფიკური ფარული (ლატენტური) ნიშნების, უნარების და დამოკიდებულებების გაზომვა შესაძლებელია, რომლებიც თავისთავად არადაკვირვებადია, ანუ, შეგვიძლია, განვსაზღვროთ არადაკვირვებადი სიდიდეების დაკვირვებადი სიდიდეები. თეორია უშვებს, რომ არსებობს კავშირი პიროვნების მიერ კონკრეტული თვისების, ნიშნის ან უნარის ქონას ან მათი ქონის ხარისხსა და ტესტის დებულებაზე მის პასუხს შორის. ეს თეორია, ასევე ემყარება მოსაზრებას, რომ შესაძლებელია:
ტესტის შედგენისას დებულებების ანალიზი საჭიროა ტესტის თითოეული დებულების დისკრიმინაციულობისა და სირთულის დასადგენად. დებულების დისკრიმინაციულობაში მოიაზრება მოცემული დებულების პოტენციალი, ანუ, ტესტს სწორად უპასუხებენ მოცემული დებულებით გასაზომი თვისების მქონე მოსწავლეები, ხოლო არასწორად უპასუხებენ ის მოსწავლეები, რომლებსაც ეს თვისება ნაკლებად გააჩნიათ. სხვა სიტყვებით რომ ვთქვათ, საჭიროა განისაზღვროს რამდენად ეფექტურია ტესტი მოსწავლეების შორის განსხვავებების გამოსავლენად, რამდენად იძლევა დებულება მოცემულ სფეროში მოსწავლეთა უნარებს შორის განსხვავების გამოვლენის შესაძლებლობას. მაღალი დისკრიმინაციულობის დებულება მკვლევარს ამ დებულებაზე ქულების პოტენციურად ფართო დიაპაზონს მისცემს, დაბალი დისკრიმინაციულობის დებულება კი - ნაკლებად დიფერენცირებულ ქულებს. ცხადია, დისკრიმინაციულობის მაღალი ხარისხი სასურველია და დაბალი დისკრიმინაციულობის დებულებები უნდა გამოირიცხოს.
დავუშვათ, მკვლევარს კონკრეტული სკოლის 30 მოსწავლისთვის (ან კონკრეტული სკოლის ა კლასისთვის) მათემატიკის ტესტის აგება სურს. ის ქმნის ტესტს და სხვა სკოლაში ან ბ კლასში იმავე ასაკის 30 მოსწავლეზე ატარებს პილოტურ ტესტირებებს (ანუ, მკვლევარი სკოლის იმ შერჩევის მსგავს, თანაზომიერ შერჩევაზე ატარებს პილოტურ ტესტირებას, რომლისთვისაც საბოლოო ტესტია განკუთვილი). პილოტურ ტესტირებაში 30 მოსწავლისგან მიღებული ქულები შემდეგ სამ თანაბარ ჯგუფად იყოფა (მაღალი, საშუალო და დაბალი ქულები). მართებული იქნება დაშვება, რომ კონკრეტულ დებულებაზე მაღალ ქულებს შორის უფრო მეტი სწორი პასუხი გვექნება, ვიდრე - დაბლებს შორის. თითოეული დებულებისთვის ეს მაჩვენებელი ასე გამოითვლება:
სადაც
A = მაღალი ქულების მქონე მოსწავლეთა ჯგუფში სწორი პასუხების რაოდენობა
B = დაბალი ქულების მქონე მოსწავლეთა ჯგუფში სწორი პასუხების რაოდენობა
N = ორ ჯგუფში მოსწავლეთა საერთო რაოდენობა.
დავუშვათ, მოცემულ დებულებას სწორად უპასუხა მაღალი ქულების მქონე ათივე და დაბალი ქულების მქონე ორმა მოსწავლემ. ამ შემთხვევაში, ფორმულა ასეთ სახეს მიიღებს:
დისკრიმინაციულობის მაქსიმალური ინდექსია 1.00. ნებისმიერი დებულება, რომლის დისკრიმინაციულობის ინდექსი 0.67-ზე ნაკლებია, ანუ, ძალიან არადისკრიმინაციულია, ჯერ უნდა გადაიხედოს და გაირკვეს, ბუნდოვანი ფორმულირების ან ტექსტში შესაძლო მანიშნებლების გამო ხომ არ ხდება ასე. თუ ასე არაა, მაშინ გადასაწყვეტია, გამოვიყენოთ თუ არა 0.67-ზე დაბალინდექსიანი დებულება. შეიძლება აღმოჩნდეს, რომ ამ დებულების ტესტში გამოყენება მართებულია. დებულების დისკრიმინაციულობის შესახებ ინფორმაციისთვის იხ. Linn (1993) და Aiken (2003).
დისკრიმინაციულობის ინდექსი დისტრაქტორების ეფექტურობის შესამოწმებლადაც გამოდგება. ეს ემყარება დაშვებას, რომ ეფექტური დისტრაქტორი დაბალი ქულების მქონე მოსწავლეთა უფრო მეტ რაოდენობას, ვიდრე მაღალი ქულების მქონეთ. განვიხილოთ შემდეგი მაგალითი, სადაც გამოიყო მაღალ და დაბალქულიანი მოსწავლეების ჯგუფები:
ამ მაგალითში დებულება დადებითად დისკრიმინაციულია, რადგან მასზე პირველი ათი მოსწავლე უფრო მეტ სწორ პასუხს (10) იძლევა, ვიდრე - ბოლო ათი (8) და ამიტომ ის ცუდი დისტრაქტორია. ასევე, ამ დებულების დისკრიმინაციულობის ინდექსია 0.20, ამიტომ, ის ცუდი დისკრიმინატორია და, ამასთან, ცუდი დისტრაქტორიც. ბ მაგალითის დებულება არაეფექტური დისტრაქტორია, რადგან არც ერთი ჯგუფიდან არავინ გასცა სწორი პასუხი. გ მაგალითის დებულება ეფექტური დისტრაქტორია, რადგან მასზე ბოლო ათი სტუდენტისგან შემდგარი ჯგუფიდან უფრო მეტი (10) პასუხობს სწორად, ვიდრე - პირველი ათიდან (2). თუმცა, ამ შემთხვევაში, დისკრიმინაციული ძალის გაუმჯობესებამდე ნებისმიერი ბუნდოვანება უნდა გამოირიცხოს.
დისტრაქტორები მრავალი არჩევითი პასუხის კითხვების ნაწილია, სადაც მცდარი ალტერნატივებია შემოთავაზებული და მოსწავლეებმა სწორი პასუხი უნდა აირჩიონ. აქ კონკრეტული ალტერნატივის არჩევის უბრალოდ დათვლა დისტრაქტორის ეფექტურობის შესახებ გვაწვდის ინფორმაციას: თუ მას ხშირად ირჩევენ, მაშინ ის ეფექტურად მუშაობს. თუ მას იშვიათად ან საერთოდ არ ირჩევენ, მაშინ ის არ მუშაობს ეფექტურად და შესაცვლელია.
თუ ტესტის დებულების სირთულის გამოთვლა გვსურს, ეს შემდეგი ფორმულით შეგვიძლია გავაკეთოთ:
სადაც
A = მოსწავლეების რაოდენობა, რომლებმაც სწორად უპასუხეს დებულებას;
N = მოსწავლეების საერთო რაოდენობა, რომლებსაც მიაწოდეს დებულება.
ამრიგად, თუ ოცი მოსწავლისგან შემდგარი კლასიდან 12 მოსწავლე სწორად პასუხობს დებულებას, მაშინ ფორმულა ასეთ სახეს მიიღებს:
სირთულის მაქსიმალური ინდექსი 100 პროცენტია; დებულებები, რომლებიც 33 პროცენტის ქვემოთ და 67 პროცენტის ზემოთ ხვდებიან, სავარაუდოდ, ძალიან რთული და ძალიან მარტივია. შემდეგ გაირკვევა მართებულია თუ არა ამ დებულების ტესტში ჩართვა. აქაც მკვლევრის გადასაწყვეტია, გამოიყენებს თუ არა იგი ტესტში სირთულის ზღვრის ქვემოთ ან ზემოთ არსებულ დებულებას. ნორმაზე ორიენტირებულ ტესტში დებულების სირთულე დაახლოებით 50 პროცენტი უნდა იყოს (Fრისბიე 1981). დებულების სირთულის შემდგომი დეტალური განხილვისთვის იხ. Linn (1993) და Hanna (1993).
ვინაიდან მკვლევარს მხოლოდ ტესტის ჩატარების შემდეგ ეცოდინება დებულების დისკრიმინაციულობისა და სირთულის ინდექსები, გარდაუვალია „სახლში შედგენილი“ ტესტების პილოტირება. დაბალი დისკრიმინაციულობისა და ნაკლები სირთულის დებულებები უნდა ამოვიღოთ ტესტიდან და ჩავანაცვლოთ მაქსიმალური დისკრიმინაციულობის და ყველაზე შესატყვისი სირთულის მქონე დებულებებით. ამის გაკეთება მხოლოდ პილოტური კვლევის შედეგების გაანალიზებითაა შესაძლებელი.
დებულების დისკრიმინაციულობას და სირთულეს სხვადასხვაგვარი მნიშვნელობა აქვს ნორმაზე ორიენტირებულ და კრიტერიუმზე ორიენტირებულ ტესტებში. ნორმაზე ორიენტირებულ ტესტში მოსწავლეების ერთმანეთთან შედარება გვინდა, ამიტომ დებულების დისკრიმინაციულობა ძალიან მნიშვნელოვანია. კრიტერიუმზე ორიენტირებულ ტესტში თავისთავად არ არის მნიშვნელოვანი, რომ ტესტი ადარებდეს ან ერთმანეთისგან განასხვავებდეს მოსწავლეების შედეგებს. მაგალითად, თუ გვსურს, გავარკვიოთ, შეიძინეს თუ არა მოსწავლეებმა გარკვეული ცოდნა, მიზანი ათვისებული ცოდნის გაზომვაა და არა იმის ნახვა, თუ რამდენმა მოსწავლემ გაართვა მას თავი სხვებზე უკეთესად. ამგვარად, შეიძლება ისე მოხდეს, რომ კრიტერიუმზე ორიენტირებულ ტესტს დისკრიმინაციულობის ძალიან დაბალი მაჩვენებლი ჰქონდეს, თუ ყველა მოსწავლე ძალიან კარგ ან ძალიან ცუდ შედეგს აჩვენებს, მაგრამ დისკრიმინაციულობა უფრო ნაკლებ მნიშვნელოვანია, ვიდრე ის ფაქტი, რომ მათ დაისწავლეს ან ვერ დაისწავლეს მოცემული მასალა. ნორმაზე ორიენტირებული ტესტის შემთხვევაში, ასეთი დაბალი დისკრიმინაციულობის დებულება უსარგებლო იქნებოდა ტესტში შესატანად, თუმცა კრიტერიუმზე ორიენტირებული ტესტისთვის იგივე დებულება სასარგებლო ინფორმაციას (წარმატება ან ჩაჭრა) იძლევა.
რაც შეეხება დებულების სირთულეს, კრიტერიუმზე ორიენტირებულ ტესტში სირთულის ის დონეა სასურველი, რომელიც მოცემულ ამოცანას ან მიზანს შეესაბამება. ამგვარად, თუ მიზანი ადვილად მიღწევადია, მაშინ ტესტის დებულებაზე პასუხიც ადვილი უნდა იყოს. თუ მიზანი რთულია, მაშინ ტესტის დებულებაც, შესაბამისად, რთული უნდა იყოს. ეს ნიშნავს, რომ ნორმაზე ორიენტირებული ტესტისგან განსხვავებით, სადაც დებულება შეიძლება გადამუშავდეს დისკრიმინაციულობის უფრო მაღალი ინდექსის მისაღწევად, კრიტერიუმზე ორიენტირებულ ტესტში ეს საკითხი ნაკლებად მნიშვნელოვანია. რა თქმა უნდა, ეს დებულების სირთულის ანალიზის მნიშვნელობის უარყოფას არ ნიშნავს. საქმე მის ცენტრალურობას ეხება. გრონლუნდი და ლინი (1990: 265) ამბობენ, რომ სადაც ინსტრუქციები ეფექტურია, იქ კრიტერიუმზე ორიენტირებული ტესტის დებულების სირთულის ინდექსიც მაღალი იქნება.
კონკრეტული ტესტის დებულებების დისკრიმინაციულობის, სირთულისა და დისტრაქტორის ეფექტების დადგენისას, ცხადია, გვჭირდება პილოტირება, თუმცა, ძალიან ფრთხილად უნდა ვიყოთ, რომ ძალიან დიდი იმედები არ დავამყაროთ მცირე მოცულობის შერჩევაზე გამოთვლილი დისკრიმინაციულობისა და სირთულის ინდექსებზე.
დებულების ანალიზის გამოყენებით ტესტის აგებისას, დებულების დისკრიმინაციულობის, დებულების სირთულისა და დისტრაქტორის ეფექტების გარდა, მნიშვნელოვანია ტესტის რეალური მოთხოვნების განხილვაც (Nuttall, 1987; Cresswell and Houston 1991):
ტესტის შინაარსში მიზანთან შესატყვისობის ცნებაც უნდა გავითვალისწინოთ, მაგალითად, ტესტის დებულებების ტიპის შერჩევისას. მკვლევარმა უნდა განსაზღვროს, სრულყოფილად ასახავს თუ არა გარკვეული სახის მონაცემები მოცემულ უნარს, წვდომასა და მიღწევას (Lewis 1974; Cohen et al. 2004: თავი 16):
ამ დებულებებს გახსენების, ცოდნის, გაგების, გამოყენების, ანალიზის, სინთეზისა და შეფასების, ანუ, სხვადასხვაგვარი აზროვნების შემოწმება შეუძლიათ. ამის ლოგიკური დასაბუთება აზროვნების ბლუმისეული (1956) იერარქიაა - დაბალი რიგის (გაგება, გამოყენება) საშუალო რიგის (ანალიზი, სინთეზი) და მაღალი რიგის აზროვნება (შეფასება, მსჯელობა, კრიტიკა). ცხადია, ტესტის ფორმის არჩევა ყველაზე ეკონომიური გზით მაქსიმალური ინფორმაციის მიღების პრინციპს უნდა ემყარებოდეს. ამის კარგი მაგალითია მრავალჯერადი არჩევანის ტესტების მექანიკური დამუშავება, როდესაც ოპტიკური ამომცნობებისა და სკანერების გამოყენებით სწრაფად ხდება დიდი რაოდენობის მონაცემების აღრიცხვა და დამუშავება.
ტესტის შინაარსის განსაზღვრისას ზოგიერთი ტესტისთვის სკალის დადგენაც აუცილებელია. სკალის (კლასიფიკაციის საფეხურიანი სისტემა) შექმნის ორი ძირითადი გზა არსებობს:
გარდა ამისა, განათლების სფეროში გამოყენებული ბევრი ფსიქოლოგიური ტესტი ერთგანზომილებიანია, ე.ი. ყველა დებულება ერთ ელემენტს, ანუ, განზომილებას ზომავს. ჰოვიტი და კრამერი (2005: 204) ამას ადარებენ სიტუციას, როდესაც 30 ადამიანს 10 სასწორით წონიან და მოელიან, რომ სასწორებს შორის მაღალი კორელაცია იქნება. ზოგი ტესტი შეიძლება მრავალგანზომილებიანი იყოს ერთი ტესტით ორი ან მეტი ფაქტორი, ანუ, სიდიდე იზომებოდეს. ჰოვიტი და კრამერი (2005: 204) ამას ადარებენ სიტუაციას, როდესაც 30 ადამიანს 10 სასწორით წონიან და შემდეგ 5 სხვადასხვა სანტიმეტრით სიმაღლესაც უზომავენ. ამ გაზომვების შემდეგ კი მოელიან, რომ მაღალი კორელაცია იქნება წონის მაჩვენებლებს შორის; ასევე, მაღალი იქნება კორელაცია სიმაღლის მაჩვენებლებს შორის, ხოლო დაბალ კორელაციას მიიღებენ სასწორითა და სანტიმეტრით გაზომვით მიღებულ შედეგებს შორის, ვინაიდან ისინი სხვადასხვა სიდიდეს ანუ განზომილებას ზომავენ.
Aამიტომ, ტესტის შემქმნელებმა ზუსტად უნდა იცოდნენ, თუ რომელ სკალას იყენებენ ერთგანზომილებიანს თუ მრავალგანზომილებიანს. მიუხედავად იმისა, რომ ბევრ ტექსტში ერთგანზომილებიანი ტესტის სისუფთავეს უჭერენ მხარს, რომელიც ერთ კონსტრუქტს ან ცნებას ზომავს, მრავალგანზომილებიანი ტესტების პრაქტიკულობასა და ეფექტურობასაც აღიარებენ. მაგალითად, ვინმემ ინტელექტი შეიძლება ერთგანზომილებიან ფაქტორად მიიჩნიოს, მაგრამ სინამდვილეში ინტელექტის კარგი საზომი მისი მრავალგანზომილებიან კონსტრუქტად მიჩნევის შემთხვევაში მიიღება და, შესაბამისად, მრავალგანზომილებიან სკალირებას მოითხოვს. ცხადია, ტესტის ზოგიერთი დებულება იმთავითვე ერთგანზომილებიანია, მაგალითად, ასაკი, საშინაო დავალების შესრულებაზე დახარჯული დრო.
გარდა ამისა, დებულებების არჩევისას მაქსიმალურად მაღალი სანდოობის მიღწევაც არ უნდა დაგვავიწყდეს. დავუშვათ, 10 დებულების გამოყენებით, მოსწავლეებში გამოცდებით გამოწვეულ ნეგატიურ სტრესს ვზომავთ. თითოეული დებულება სტრესის გასაზომად უნდა იყოს მოწოდებული, მაგალითად:
დებულება 1: უძილობა გამოცდების პერიოდში;
დებულება 2: შფოთვა გამოცდების პერიოდში;
დებულება 3: გაღიზიანება გამოცდების პერიოდში;
დებულება 4: დეპრესია გამოცდების პერიოდში;
დებულება 5: ცრემლიანობა გამოცდების პერიოდში;
დებულება 6: საშიანო საქმეების კეთების სურვილის უქონლობა გამოცდების პერიოდში;
დებულება 7: გუნება-განწყობილების ცვლილება გამოცდების პერიოდში;
დებულება 8: ყავის მომატებული მოხმარება გამოცდების პერიოდში;
დებულება 9: დადებითი დამოკიდებულება და კარგ გუნებაზე ყოფნა გამოცდების პერიოდში;
დებულება 10: გამოცდების მოუთმენელი მოლოდინი.
ვთქვათ, გავაკეთეთ შინაგანი შეთანხმებულობის სანდოობის ტესტი (სანდოობა SPSS-ში, იხ. თავი 24) და დავადგინეთ მაღალი კორელაცია (ვთქვათ, დაახლოებით 0.85) 1 - 5 დებულებებს შორის, უარყოფითი კორელაციები მე-9 და მე-10 და ყველა სხვა დებულებას შორის (ვთქვათ, -0.79) და ძალიან დაბალი კორელაცია მე-6 და მე-8 და ყველა სხვა დანარჩენს შორის (ვთქვათ, 0.26). ცალკეული დებულებასა და საერთო ქულას შორის (დებულებების ანალიზის ერთ-ერთი სახეობა, როდესაც ითვლება ერთ დებულებაზე მიღებული ქულისა და დანარჩენ დებულებებზე მიღებული ქულების ჯამის კორელაცია) კორელაციები სხვადასხვაა. ახლა რას ვაკეთებთ? შეგვიძლია დავტოვოთ 1 - 5 დებულებები, მე-9 და მე-10 დებულებების შებრუნებულად მივანიჭოთ ქულები (ვინაიდან ეს დებულებები სტრესის დადებით ასპექტებს ზომავს და არა - უარყოფითს) და დავფიქრდეთ მე-6 და მე-8 დებულებების ტესტიდან ამოღებაზე, რადგან ისინი, როგორც ჩანას, სხვა რამეს ზომავენ. დებულებების ასეთი ანალიზის მიზანია ტესტში იმ დებულებების შეტანა, რომლებიც ერთსა და იმავე კონსტრუქტს ზომავენ და იმათი გამორიცხვა, რომლებიც არ ზომავენ ამავე კონსტრუქტს. ამ საკითხის უფრო დაწვრილებით განხილვისთვის იხ. Howill and Cramer (2005: თავი 12).
ტესტში დებულებების დატოვებისა და ამოღების შესახებ გადაწყვეტილების მისაღებად ფაქტორული ანალიზიც გამოიყენება (იხ. თავი 25), რასაც დიდად აიოლებს SPSS. ფაქტორული ანალიზი დააჯგუფებს მსგავს დებულებებს და მათ სხვებისგან გამიჯნავს. საილუსტრაციოდ დავუშვათ, რომ ფაქტორული ანალიზით განისაზღვრა სამი ფაქტორი:
ფაქტორების წონების მიხედვით (იხ. თავი 25) გადავწყვეტთ, რომელი ფაქტორის დატოვებაა ყველაზე მართებული და, შესაბამისად, რომელი დებულებები უნდა დავტოვოთ ტესტში და რომელი - ამოვიღოთ. ზოგადი წესის თანახმად, უნდა დავფიქრდეთ დაბალი ფაქტორული წონის (ვთქვათ, ≤0.3) მქონე დებულებების ამოღებაზე, ფაქტორში მათი არასაკმარისი წონის გამო. ფაქტორული ანალიზი იმასაც გვიჩვენებს, კონსტრუქტი ერთგანზომილებიანია თუ მრავალგანზომილებიანი (თუ ერთ ფაქტორს მივიღებთ, სავადაუროდ, კონსტრუქტი ერთგანზომილებიანია).
წინამდებარე თავში ძირითადად, ხელით შესავსებ ტესტზე ვსაუბრობდით. ცხადია, არაა აუცილებლი, რომ ეს ასე იყოს. ტესტი შეიძლება იყოს, მაგალითად, წერილობითი, ზეპირი, პრაქტიკული, ინტერაქციული, კომპიუტერული, დრამატული, დიაგრამული, პიქტოგრამული, ფოტოგრაფიული, საჭიროებდეს აუდიო-ვიდეო მასალების გამოყენებას, პრეზენტაციული, როლური და სიმულაციური. ზეპირი ტესტები, მაგალითად, შეიძლება მაშინ ჩატარდეს, თუ მკვლევარი ფიქრობს, რომ კითხვა და წერა ხელს შეუშლის ტესტის რეალური მიზანის მიღწევას (ანუ, ის წერა-კითხვის ტესტად იქცევა და აღარ იქნება, ვთქვათ, მათემატიკის ტესტი). ეს არ უარყოფს ზემოთ განხილულ საკითხვებს: ნებისმიერი ფორმის ტესტისთვის მაინც საჭიროა, მაგალითად, სანდოობისა და ვალიდობის, სირთულის, დისკრიმინაციულობის, გასწორებისა და ქულების მინიჭების საკითხების განხილვა, დებულებების ანალიზი და ტესტის შესრულებისთვის განკუთვნილი დროის განსაზღვრა. ფაქტობრივად, ზოგიერთი ეს საკითხი კიდევ უფრო მნიშვნელოვანი ხდება არაწერილობითი ტესტირებისას, მაგალითად, სანდოობა უმთავრესი საკითხია მუსიკალური ნაწარმოების ცოცხლად შესრულებისას ან ტანვარჯიშში სავალდებულო პროგრამის ჩვენებისას, სადაც მხოლოდ ერთჯერადი, ერთეული შედეგი მიიღება. ამასთან, სანდოობა და ვალიდობა მნიშვნელოვან საკითხებს წარმოდგენს ჯგუფური წარმოდგენისას ან ჯგუფური მუშაობისას, სადაც ჯგუფის დინამიკამ შეიძლება ხელი შეუშალოს ცალკეული გამოსაცდელი ინდივიდის რეალური უნარების გამოვლენას. ცხადია, მკლევარმა უნდა გადაწყვიტოს, ინდივიდუალური ტესტი ჩაატაროს თუ ჯგუფური და განსაზღვროს მისი ჩატარების ფორმა.
ტესტში გათვალისწინებული და გაუთვალისწინებელი მინიშნებებისა და მათზე მიმნიშნებლების საკითხი უნდა მოგვარდეს, მაგალითად (Morris et al. 1987):
ჰანა (Hanna 1993: 139 – 41) და კუნინგემი (1998) რამდენიმე სახელმძღვანელო პრინციპს გვთავაზობენ, რომლებიც მოკლეპასუხიანი დებულებების შედგენისას ზოგიერთი ამ პრობლემის თავიდან ასაცილებლად გამოგვადგება:
რაც შეეხება მრავალი არჩევითი პასუხის კითხვებს, მათთან დაკავშირებით რამდენიმე შესაძლო პრობლემა არსებობს:
გრონლუნდი და ლინი (1990), ჰანა (2003: 161 – 75), კუნინგემი (1998) და აიკენი (2003) ეფექტური მრავალი არჩევითი პასუხის კითხვებთან დაკავშირებით რამდენიმე რჩევას გვთავაზობენ:
ტესტის პასუხების ვარიანტები გააზრებული უნდა იყოს. დამატებითი ინფორმაციისთვის იხ. მე-15 თავი კითხვარების შესახებ (მაგალითად, ლაიკერტის, გატმანის, სემანტიკური დიფერენციალის და თურსტონის სკალები).
მორისი და მისი კოლეგები (1987: 161), გრონლუნდი და ლინი (1990), ჰანა (1993: 147), კუნინგემი (1998) და აიკენი (2003) ჭეშმარიტია-მცდარია ტიპის კითხვებთან დაკავშირებულ პრობლემებზეც მიუთითებენ:
ავტორები ამ პრობლემების დასაძლევის რამდენიმე გზას გვთავაზობენ:
მორისი და მისი კოლეგები (1987), ჰანა (1993: 150 – 2), კუნინგემი (1998) და აიკენი (2003) დებულებებთან რომლებიც შესაბამისობას საჭიროებენ დაკავშირებულ გარკვეულ სირთულეებზეც მიუთითებენ:
ავტორები თვლიან, რომ შესაბამისობის დამყრებისას წარმოქმნილი სირთულეების მოგვარება შემდეგნაირადაა შესაძლებელი:
რაც შეეხება ესეს ტიპის კითხვებს, მათ რამდენიმე უპირატესობა აქვთ. მაგალითად, ესე, როგორც ტესტირების ღია ფორმა, სწავლის კომპლექსური შედეგის გაზომვის საშუალებას იძლევა. ასევე, მოსწავლეს ცოდნის ინტეგრირების, გამოყენებისა და სინთეზის, გამოხატვისა და თვითგამოხატვის უნარის, დივერგენციული აზროვნებისა და უმაღლესი კოგნიტური გადამუშავების დემონსტრირების შესაძლებლობას აძლევს. გარდა ამისა, ადვილია ესეს სათაურის ფორმულირება. მეორე მხრივ, ესეს აკრიტიკებენ არასანდო მონაცემების მოწოდების (Gronlund and Linn 1990; Cunningham 1998), ქულების მინიჭების არასანდო (არათანმიმდევრული და ცვალდებადი) პროცესისა და სწავლის მოსალოდნელი შედეგებისადმი უყურადღებობის, მიკერძოებისა და პრიორიტეტების მიხედვით გასწორების (გასწორებაზე დიდი დრო იხარჯება, ინტუიციური, სუბიექტური და ჰოლისტურია) გამო. ამ სიძნელეების დასაძლევად, ავტორები გვთავაზობენ შემდეგს:
ცხადია, სანდოობის საკითხებიც წამოიჭრება (იხ. თავი 6). აქ საქმე ისაა, რომ ტესტის სქემამ, ანუ, დებულებების წყობამ შეიძლება შედეგზე მძლავრი გავლენა მოახსინოს.
ტესტის სტრუქტურის შესახებ გადაწყვეტილების მიღებაზე შემდეგი ფაქტორები მოქმედებს (Grounland and Linn 1990; Hanna 1993; Linn 1993; Cunningham 1998):
ტესტის წყობა ისეთი უნდა იყოს, რომ ამარტივებდეს ტესტის შევსებას და ამას იმდენად ეფექტურად აკეთებდეს, რამდენადაც ეს მოსწავლისთვის არის შესაძლებელი.
ტესტის შესრულების დრო
ტესტირებისას ორგვარი დრო წესდება: ტესტის ჩატარების დრო (კვირის დღე, თვე, დღის მონაკვეთი) და მოსწავლისთვის ტესტის ან დებულების შესასრულებლად მიცემული დრო. რაც შეეხება პირველს, ეს, ნაწილობრივ, სანდოობის საკითხია, ვინაიდან დღის ან კვირის ან ა.შ. დრო შეიძლება გავლენას ახდენდეს იმაზე, თუ რამდენად მობილიზებული ან მოტივირებულია მოსწავლე, ან რამდენად შეუძლია მას ტესტზე მუშაობა. რაც შეეხება მეორეს, მკვლევარმა უნდა გადაწყვიტოს, დროის როგორ შეზღუდვას დააწესებს და რატომ. მაგალითად, სასურველია თუ არა დროის შეზღუდვით გამოწვეული ზეწოლა იმის სანახავად, თუ რისი გაკეთება შეუძლია მოსწავლეს შეზღუდული დროის პირობებში, თუ დროის ლიმიტის დაწესება იმაზე, რაც დროში არ უნდა იზღუდებოდეს არასწორი მოთხოვნაა (შეზღუდული ჰქონდა ვან გოგს დრო, როცა ცნობილ “მზესუმზირებს” ხატავდა?) (იხ. Kohn 2000).
მიუხედავად იმისა, რომ არსებითად მნიშვნელოვანია, მოსწავლეებმა იცოდნენ, ზოგადად, ტესტისთვის გამოყოფილი დროის შესახებ, მათ ნამდვილად წაადგებათ იმის ცოდნაც, თუ ტესტის თითოეულ ნაწილს რამდენი დრო უნდა დაუთმონ. თუ დრო ტესტის ფარდობითი წონების მიხედვით ნაწილდება (იხ. წონებისა და ქულების განხილვა), მაშინ მოსწავლეს საშუალება ეძლევა, თავად გადაწყვიტოს, ტესტის რომელ ნაწილზე გააკეთოს აქცენტი - მათ შეიძლება ტესტის იმ ნაწილებზე სურდეთ კონცენტრირება, რომელშიც უფრო მეტ ქულას მიიღებენ. გარდა ამისა, თუ ტესტის დებულებებისთვის ზუსტადაა დრო განსაზღვრული, ეს ზრდის მისი სტანდარტიზაციის ხარისხს და შეიძლება სასარგებლოც იყოს, თუ შედეგები ინდივიდების ან ჯგუფების შესადარებლად უნდა გამოიყენონ.
ტესტის სხვადასხვა დებულებებისთვის ქულების მინიჭება თითოეული დებულების ფარდობითი მნიშვნელობის თვალსაჩინო მაჩვენებელია - ქულების მინიჭებისას გათვალისწინებულია თითოეული დებულების წონა. მნიშვნელოვანია, რომ ტესტის უფრო იოლ ნაწილებს უფრო ნაკლები ქულები მიენიჭოს, ვიდრე - უფრო რთულებს, წინააღმდეგ შემთხვევაში, მოსწავლის შედეგები შეიძლება ხელოვნურად გაიზარდოს ძალიან ბევრ მარტივ და ცოტა რთულ კითხვაზე სწორად გაცემული პასუხების გამო (Gronlund and Linn 1990). ამასთან, ტესტის დებულებებისთვის ქულების მინიჭების შეძლებისდაგვარად დიდი სიზუსტე და სპეციფიკურობა რამდენიმე თვალსაზრისითაა მიმზიდევლი (Cresswell and Houston 1991; Gipps 1994; Aiken 2003), რომელიც თითოეული დებულებისა და ქვედებულებისთვის კონკრეტული ქულის მინიჭებას გულისხმობს, მაგალითად:
ებელი (1979) ამტკიცებს, რომ რაც უფრო მეტი ქულით აღიწერება მიღწევის სხვადასხვა დონე (მაგალითად, ნიშნების დაწერისას), მით მეტი იქნება დაწერილი ნიშნების სანდოობა, თუმცა, ცხადია, ეს გაზრდის ტესტის მოცულობას. ქულები გრამატიკისა და პუნქტუაციისთვისაც უნდა გავითვალისწინოთ - მოსწავლეებს გრამატიკურ შეცდომებზეც უნდა დააკლდეთ ქულები. როგორ უნდა იქნას ამ შემთხვევაში მიღწეული თანმიმდევრულობა? ამასთან, როგორ ვიქცევით გამოტოვებულ პასუხებთან, ერთეულებთან, დებულებეთან მიმართებაში და ა. შ., მაგალითად, რას ვაკეთებთ, თუ მოსწავლეს გაზომვის ერთეულები არ უწერია (კმ/სთ, დოლარი ან გირვანქა სტერლინგი, მეტრი ან სანტიმეტრი)?
ტესტში ქულების დაწერას უკავშირდება შედეგების წარდგენის საკითხიც. თუ ტესტში ქულების მინიჭება სპეციფიკურია, მაშინ ეს შედეგების სხვადასხვაგვარად წარდგენის შესაძლებლობას ქმნის, მაგალითად, შედეგები შეიძლება წარმოვადგინოთ: სათითაოდ, ყოველი დებულების ქულა ცალ-ცალკე, ტესტის ნაწილების მიხედვით ან მთლიანი ტესტის ჯამური ქულის სახით. ასეთი მოქნილობა შეიძლება სასარგებლო იყოს მკვლევრისთვის, რადგან მოსწავლეების ჯგუფის კონკრეტული ძლიერი და სუსტი მხარეების გამოვლენის საშუალებას მისცემს.
ზემოთ წარმოდგენილი ზოგიერთი მოსაზრების სასურველობა საკამათოა. მაგალითად, შეგვიძლია ვიკამათოთ იმის თაობაზე, რომ კრიტერიუმზე ორიენტირებულობის სიძლიერე სწორედ მისი სპეციფიკურობაა და რომ კრიტერიუმზე ორიენტირებისას იკარგება გაერთიანებული მონაცემების (მაგალითად, მინიჭებული ქულების) არსი (Gipps 1994: 85). მაგალითად, თუ მოსწავლეს ინგლისურ გრამატიკაში E დაუწერეს და მხატვრულ წერაში - A, ეს ორი შეფასება, შესაძლოა, ჩ ნიშნად აგრეგირდეს, როგორც მისი ჯამური კომპეტენცია ინგლისურ ენაში, მაგრამ რას ნიშნავს ეს ჩ? ის მოკლებულია აზრს, არ აქვს ათვლის წერტილი, ანდა, გასაგები კრიტერიუმი, მასში იკარგება A და E ნიშნების სასარგებლო სპეციფიკურობა, ეს კომპრომისია, რომელიც, ფაქტობრივად, არაფერს გვეუბნება. ამასთან, ასეთი ნიშნების აგრეგირება უშვებს, რომ ყველა დებულება ერთნაირი სირთულისაა.
ცხადია, რომ ნედლი ქულები მაინც ღიაა ინტერპრეტაციისთვის, რაც უკვე მსჯელობის საკითხია და არა - სიზუსტის (Wiliam 1996). მაგალითად, თუ ტესტი საგნის „ცოდნას“ აფასებს, მკვლევარმა უნდ გადაწყვიტოს, რა ქმნის ამ „ცოდნას“ - ეს აბსოლუტური ქულაა (ანუ ძალიან მაღალი) თუ გრადაციები არსებობს და თუ ეს უკანასკნელია, მაშინ როგორია/სად ხვდება ეს გრადაციები? გამოქვეყნებული ტესტებისთვის ქულების მინიჭება სტანდარტიზებულია და უკვე გასაგები, რადგან აქ ნედლი ქულები უკვე გადაყვანილია სტანდარტულ ქულებში, მაგალითად, პროცენტილებში ან ნიშნებში.
ქულების მინიჭების თაობაზე დისკუსიის საფუძველს მარკირების კრიტერიუმის ზუსტად და ცალსახად განსაზღვრის საჭიროება ქმნის: რას მიენიჭება ქულა და რას არა. ამისათვის უნდა გაირკვეს, არსებობს თუ არა მახასიათებლების ჩამონათვალი, რომელიც უნდა მოიძებნებოდეს მოსწავლის პასუხში.
ნათელია, რომ კრიტერიუმზე ორიენტირებულ ტესტებში დეკლარირებული უნდა იყოს უმდაბლესი ზღვარი - მინიმალური კომპეტენციის ზღვარი - რომლის ქვემოთაც მოხვედრილი მოსწავლეების შესახებ ვიტყვით, რომ მათ ვერ დააკმაყოფილეს კრიტერიუმი. კომპრომისი შეიმჩნევა კრიტერიუმზე ორიენტირებულ იმ ტესტებში, რომლებიც ერთი და იმავე დავალების სხვადასხვა დონით შესრულებას სხვადასხვა ქულას ანიჭებენ და გამოცდაზე სხვადასხვა მინიმალური კომპეტენციის ზღვრის დადგენას საჭიროებენ. ამის გავრცელებული მაგალითია დიდ ბრიტანეთში საშუალო სკოლის მოსწავლეებისთვის საშუალო განათლების ზოგადი სერტიფიკატის (GჩშE) გამოცდა, სადაც მოსწავლეები კრიტერიუმზე ორიენტირებულ გამოცდაში A-სა და F-ს შორის იღებენ ნიშნებს.
მინიმალური კომპეტენციის ზღვრის დადგენის შესახებ დამატებითი ინფორმაციისთვის იხ.: Nedelsky (1954), Angoff (1971), Ebel (1979) და Linn (1993).
ანგოფი (1971) დებულებებისთვის ქულების დიქოტომიურად მინიჭების მეთოდს გვთავაზობს. აქ გამსწორებლებს იმ მინიმალურად მისაღები ინდივიდების წილის იდენტიფიცირება მოეთხოვებათ, ვინც ყოველ დებულებას სწორად უპასუხებდა. ამ წილების ჯამი მინიმალურ მისაღებ ქულას წარმოადგენს. ამ პრინციპის უფრო დახვეწილი ვერსია ებელს (1979) ეკუთვნის. ამ მეთოდის მიხედვით, ყველა დებულებისთვის აიგება სირთულისა და რელევანტურობის მატრიცა. სირთულე შეიძლება სამ დონეზე განისაზღვროს (მაგალითად, ადვილი, საშუალო და ძნელი) და, ასევე, სამ დონეზე განისაზღვრება რელევანტურობაც (მაგალითად, ძალიან რელევანტური, ზომიერად რელევანტური და ოდნავ რელევანტური). როდესაც ტესტის თითოეული, ცალკეული დებულება მატრიცის უჯრაში განთავსდება, შემფასებლები აფასებენ, თითოეულ უჯრაში მოხვედრილი დებულებების რა ნაწილს უპასუხებდნენ სწორად მინიმალურად მისაღები ინდივიდები, ამასთან, ყოველი შემფასებელი სტანდარტად იღებს თითოეული უჯრის წილების შეწონილ საშუალოს (რომელიც თითოეულ უჯრაში მოხვედრილი დებულებების რაოდენობით არის განსაზღვრული). ამ მეთოდში შემფასებლებმა ორი ფაქტორი უნდა განიხილონ - რელევანტურობა და სირთულე (ანგოფის (1971) მეთოდისგან განსხვავებით, სადაც მხოლოდ სირთულეზეა საუბარი). ამ მიდგომებისთვის დამახასიათებელია ნდობა, რომელსაც ისინი ექსპერტებს უცხადებენ დონეების შეფასებისას (მაგალითად, სირთულის ან რელევანტურობის, ანდა, წარმატებით მიღწევის წილების), ანუ, ისინი შეცდომებით აღსავსე ადამიანურ სუბიექტურობას ეფუძნებიან.
ებელის (1979) მტკიცებით, ნიშნების დაწერის ერთ-ერთი პრინციპის თანახმად, ისინი ქულების სკალაზე თანაბარ ინტერვალებს უნდა წარმოადგენდნენ. ის მედიანასა და სტანდარტულ გადახრაზე მიუთითებს: მედიანა იმიტომ, რომ ყოველგვარ აზრს მოკლებულია ქულების დაწერისას აბსოლუტური ნულის არსებობის დაშვება, ხოლო სტანდარტული გადახრა - ეს არის მისაღები დიაპაზონის ერთეული, რომელშიც ხვდებიან თითოეული გრადაციის/კლასის შემადგენელი ქულები (ასევე, იხ. Cohen and Hოლლიდაყ 1996). ამგვარად, ერთ-ერთი პროცედურა შემდეგნაირია:
თუმცა, მინიმალური კომპეტენციის ზღვრის საკითხს ის ფაქტი ართულებს, რომ ეს ზღვარი შეიძლება იცვლებოდეს სხვადასხვა მიზნისა და ქულების სხვადასხვაგვარი გამოყენების მიხედვით (მაგალითად, დიაგნოსტირებისთვის, სერტიფიცირებისთვის, შერჩევისთვის, პროგრამის შეფასებისთვის), რადგან ეს მიზნები გავლენას მოახდენს მინიმალური კომპეტენციის ზღვრის რაოდენობასა და გრადაციაზე და, ასევე, დეტალების მოთხოვნილ სიზუსტეზე. მინიმალური კომპეტენციის ზღვრის დადგენის საკითხის სრული ანალიზისთვის იხ. Linn (1993).
ქულების მინიჭების საკითხი მთელ რიგ ფაქტორებს მოიცავს, მაგალითად, კლასის ნორმები, ასაკობრივი ნორმები, პროცენტილური ნორმები და სტანდარტული ქულის ნორმები (მაგალითად, ზ-ქულები, თ-ქულები, სტანაინები, პროცენტილები). ეს საკითხი ჩვენი წიგნის ფარგლებს სცილდება, ამიტომ მის შესახებ ინფორმაციის მისაღებად მკითხველს ვურჩევთ შემდეგ ავტორებს გაეცნოს: Cronbach (1970), Gronlund and Linn (1990), Cohen and Holliday (1996), Hopkins et al. (1996).
ტესტის აგება და ჩატარება კვლევის მოდელის არსებითი ნაწილია, სადაც საკონტროლო და ექსპერიმენტული ჯგუფებისთვის იქმნება პრეტესტი და პოსტტესტი. პრეტესტი და პოსტ-ტესტი რამენიმე სახელმძღვანელო პრინციპს უნდა მიჰყვებოდეს:
ტესტის მონაცემები, ძირითადად, კვლევის ექსპერიმენტული მოდელისთვისაა დამახასიათებელი. ამას გარდა, ისინი შეიძლება კითხვარის, ინტერვიუსა და დოკუმენტური მასალის ნაწილი იყოს.
სანდოობისა და ვალიდობის საკითხებს მე-6 თავი ეძღვნება. აქ საკმარისია, აღვნიშნოთ, რომ სანდოობა გულისხმობს შედეგებისა და მონაცემებისთვის მინიჭებული ნდობის დონეს. ხშირად ეს მონაცემები, ტესტის შემდგომი გადაკეთების მიზნით, სტატისტიკურად მუშავდება. ვალიდობა კი გვიჩვენებს, თუ რამდენად ზომავს ტესტი იმას, რის გასაზომადაც ის არის გამიზნული. ეს გულისხმობს შინაარსს, კონსტრუქტს, გარეგნულ მხარეს, კრიტერიუმზე ორიენტირებულ და კონკურენტულ ვალიდობას.
ტესტის მონაცემების არასანდოობის ძირითადი წყაროა ის, თუ რამდენად და როგორ არიან მოსწავლეები ტესტირებისთვის მომზადებული. ეს შეგვიძლია კონტინუუმზე განვათავსოთ პირდაპირი და სპეციფიკური მომზადებიდან, არაპირდაპირი და ზოგადი მომზადების გავლით, სრულიად მოუმზადებლობამდე. ტესტის მონაცემებზე მზარდი მოთხოვნის გამო (მაგალითად, შერჩევისთვის, სერტიფიცირებისთვის, კლასიფიცირებისთვის, დასაქმებისთვის, პროგრესის სანახავად, უმაღლეს სასწავლებელში მოსახვედრად, ანგარიშგებისთვის, სკოლებისა და მასწავლებლების შესაფასებლად), ალბათ, სრულიად გასაგებია, რომ არსებობს მოსწავლეების ტესტებისთვის მომზადების მოთხოვნილება. ეს ტესტირების „უმაღლესი ფსონის“ ასპექტია (Harlen 1994), როდესაც ტესტის შედეგებზე ბევრი რამაა დამოკიდებული. ერთ დონეზე ეს შეიძლება განვიხილოთ, როგორც გამოცდების შედეგი, რომელიც სასწავლო პროგრამასა და სილაბუსებზე აისახება. სხვა დონეზე ამას კონკრეტული გამოცდებისთვის მოსწავლეების პირდაპირ მომზადებამდე შეიძლება მივყავდეთ. მომზადებამ შეიძლება ბევრი სხვადასხვა ფორმა მიიღოს (Mehrens and Kaminski 1989; Gipps 1994):
რამდენად ეთიკური იქნებოდა ბოლო ოთხ პუნქტში მოცემული ან, თუნდაც, პირველი პუნქტის გარდა, ნებისმიერი ჩამოთვლილი ქმედების განხორციელება, საკამათოა. თაღლითობაა ეს, თუ ტესტისთვის მომზადების ლეგიტიმური ფორმა? უნდა მოამზადოს თუ არა მასწავლებელმა მოსწავლე ტესტისთვის? მასწავლებლის მიერ მოსწავლის ტესტისთვის მოუმზადებლობის შემთხვევაში, რას მიეწერება მისი ასეთი ქცევა - პროფესიულ გულგრილობას (მაგალითად, კრიტერიუმზე და სფეროზე ორიენტირებულ ტესტებში) თუ უსამართლობას, რომელიც მოსწავლეებისთვის უპირატესობის მინიჭებაში ვლინდება და ამით ტესტის, როგორც უნარის ან მიღწევის რეალური და სამართლიანი საზომის, სანდოობის შემცირებას იწვევს? „მაღალი ფსონის“ მქონე შეფასებისას (მაგალითად, საჯარო ანგარიშებისთვის და სკოლებისა და მასწავლებლების შესადარებლად) ტესტირებაზე იმ მოსწავლეების არ დაშვების საკითხიც კი დგება, ვისაც დაბალი მაჩვენებლები აქვს (იხ. Haladyna et al. 1991). არის რისკი, რომ არსებობდეს კორელაცია „ფსონებსა“ და არაეთიკური პრაქტიკის ხარისხს შორის - რაც მეტია ფსონი, მით მეტია არაეთიკური ქცევის შემთხვევა. გიპსის (1994) დაკვირვებით, არაეთიკური შემთხვევა მაშინ იჩენს თავს, როდესაც ქულები გაბერილია, ხოლო შესრულების ან მიღწევის შესახებ სანდო დასკვნა - არა.
ასევე, მაშინაც, როდესაც მოსწავლეების სხვადასხვა ჯგუფი სხვადასხვაგვარად ემზადება ტესტისთვის, ანუ, ზოგიერთ მოსწავლეს უსამართლო უპირატესობა აქვს სხვებთან შედარებით. გიპსი თვლის, რომ ასეთი პრობლემების დასაძლევად, მასწავლებლების მხრიდან ეთიკური და ლეგიტიმურია უფრო ფართო სფეროს სწავლება, ვიდრე - ცალკეული ტესტის; მასწავლებლები მოსწავლეებს მხოლოდ ტესტის ფარგლებში არ უნდა ამზადებდნენ ამასთანავე, ყველანაირი პირობა უნდა იყოს შექმნილი უკეთესი სწავლების განსახორციელებლად და არა - ტესტისთვის მომზადება (Cunningham 1998).
ყოველივე ზემოთქმულს (Cronbach 1970; Hanna 1993; Cunningham 1998) შემდეგი მოსაზრებები შეგვიძლია დავამატოთ:
კომპიუტერიზებული ადაპტირებადი ტესტირება (Wainer 1990; Aiken 2003: 50 – 2) არის გადაწყვეტილება იმის შესახებ, თუ ტესტის კონკრეტულად რომელი დებულება მივაწოდოთ, რომელიც წინა დებულებებზე ცდის პირების პასუხებზეა დამოკიდებული. ეს განსაკუთრებით გამოსადეგია ფართომაშსტაბიან ტესტებისთვის, როდესაც საკვლევი უნარის ფართო დიაპაზონია მოსალოდნელი. ამ შემთხვევაში, ისეთი ტესტი უნდა გაკეთდეს, რომელიც ტესტის ჩამტარებელს უნარის ამ ფართო დიაპაზონის დაფარვის საშუალებას მისცემს. Aამიტომ, მასში უნდა შევიდეს გარკვეულწილად ადვილი და გარკვეული სირთულის დებულებები: ძალიან ადვილი დებულებების შემთხვევაში, უნარის მაღალი მაჩვენებლების დიაპაზონის მიღებას (გამოსაცდელები, უბრალოდ, ყველა დებულებაზე სწორად უპარუხებენ) ვერ შევძლებთ. ძალიან ძნელი დებულებების შემთხვევაში კი, უნარის დაბალი მაჩვენებლების დიაპაზონის მიღება გაჭირდება (გამოსაცდელები, უბრალოდ, ყველა დებულებას მცდარად უპასუხებენ). ბევრს ვერაფერს შევიტყობთ გამოსაცდელი მოსწავლეების შესახებ, თუ მათ ძალიან ადვილ ან ძალიან ძნელ კითხვებს დავუსვამთ. გარდა ამისა, ტესტირება გაცილებით ეფექტური და სანდო იქნება, თუ კარგი უნარების მქონე გამოსაცდელებს უფრო რთულ დებულებებამდე მისაღწევად არ მოუწევთ მთელი რიგი ადვილი დებულებების დამუშავება, ნაკლებად განვითარებული უნარის მქონეთ კი - უფრო რთულ დებულებებზე პასუხების გამოცნობა. ამრიგად, ეფექტურია ისეთი მოქნილი ტესტი, რომელიც გამოსაცდელისთვის ადაპტირდება. მაგალითად, თუ გამოსაცდელისთვის დებულება ძალიან რთული აღმოჩნდება, შესაძლებელია შემდეგი დებულების ადაპტირება და გაიოლება და, პირიქით, თუ გამოსაცდელი წარმატებით შეასრულებს ერთ დებულებას, შემდეგი დებულება, შესაძლოა, კიდევ უფრო რთული იყოს.
ვეინერი (1990) მიუთითებს, რომ ადაპტირებულ ტესტში პირველი დებულება უნარის გამოვლენის სავარაუდო დიაპაზონის შუაში უნდა მდებარეობდეს. თუ გამოსაცდელი მას სწორად უპასუხებს, მაშინ მას უფრო რთული დებულება მოჰყვება, ხოლო თუ მცდარ პასუხს გასცემს, მაშინ შემდეგი დებულება უფრო მარტივი იქნება. კომპიუტერი ტესტირების ასეთი მოქნილობის, დისკრიმინაციულობისა და ეფექტურობის იდეალურ შესაძლებლობას ქმნის. აიკენის (2003: 51) აზრით, კომპიუტერული ადაპტირებადი ტესტირებით შეიძლება შემცირდეს ტესტის დებულებების რაოდენობა და ტრადიციულ ტესტებში გამოყენებული დებულებების დაახლოებით 50 პროცენტი მიეწოდოს ცდის პირს. გამოსაცდელებს შეუძლიათ, საკუთარი ტემპით იმუშაონ; მათ ხელი კი არ უნდა შევუშალოთ, არამედ - წავახალისოთ; ტესტი მაშინვე სწორდება, რათა გამოსაცდელს უკუკავშირი მისცეს; შესაძლებელია ტესტში ფართო დიაპაზონის დებულებების შეტანა და გაზომვის სიზუსტისა და სანდოობის მიღწევა; ფაქტობრივად, შესაძლებელია ტესტის უსაფრთხოების გაზრდა და პასუხების ფურცელში გარკვევის პრობლემის თავიდან აცილება.
ცხადია, კომპიუტერული ადაპტირებადი ტესტირების გამოყენებას თავისი მიმზიდველი მხარეები აქვს, თუმცა, მეორე მხრივ, ასეთი ტესტირება ტრადიციული ტესტებისგან განსხვავებულ უნარებს საჭიროებს, რამაც, შესაძლოა, ტესტის სანდოობა შეამციროს, მაგალითად:
კომპიუტერულ ადაპტირებად ტესტებს მოცემული შინაარსობრივი სფეროს ყოველი ასპექტისთვის საკმარისი რაოდენობის, მრავალფეროვნების და სირთულის მქონე დებულებების დიდი მარაგი სჭირდებათ (Flaugher 1990). ყველა დებულება ერთ კონკრეტულ შესაძლებლობას ანუ განზომილებას უნდა ზომავდეს და ერთმანეთისგან დამოუკიდებელი უნდა იყვნენ, ანუ, ინდივიდის მიერ ერთ დებულებაზე გაცემული პასუხი არ უნდა იყოს დამოკიდებული ამავე ინდივიდის მიერ სხვა დებულებაზე გაცემულ პასუხზე. დებულებებმა უნდა გაიაროს პრეტესტი და ვალიდაცია, გამოითვალოს მათი სირთულისა და დისკრიმინაციულობის ინდექსები, უნდა შემცირდეს დისტრაქტორების გავლენის ეფექტი, უნდა დაზუსტდეს, ტესტი ერთგანზომილებიანია თუ მრავალგანზომილებიანი და გაიწეროს დებულებების შერჩევის წესები.
ტეგები: Qwelly, კვლევის_მეთოდები, სოციოლოგია, ტესტირება
Welcome to
Qwelly
გამოაქვეყნა Karmasaylor_მ.
თარიღი: მაისი 6, 2025.
საათი: 5:17am
0 კომენტარი
0 მოწონება
POE 2 Currency continues to build on the rich legacy of its predecessor, offering players a multitude of skills and strategies to explore. Among the many abilities available, Arcane Surge stands out as a crucial support skill for spellcasting classes. This article will guide you through the process of acquiring and utilizing Arcane Surge effectively to enhance your gameplay experience.
Arcane Surge is a powerful support skill…
გაგრძელება
გამოაქვეყნა EFTcheat_მ.
თარიღი: მაისი 5, 2025.
საათი: 10:30pm
0 კომენტარი
0 მოწონება
From the at any time-transforming environment of tunes, pop tunes continue to be a cornerstone of mainstream culture. Spotify, the world’s major tunes streaming System, has revolutionized how we take in pop tunes, bringing the genre to billions of ears across the globe. But How can Spotify shape our adore for pop music, and what would make these tracks so irresistibly catchy?
The Anatomy of a Pop Hit
Pop tunes are built to be infectious. With their…
გამოაქვეყნა EFTcheat_მ.
თარიღი: აპრილი 26, 2025.
საათი: 2:30pm
0 კომენტარი
0 მოწონება
In the present earth, history checks are getting to be a regular part of the selecting method, tenant screening, and in some cases volunteer variety. From verifying work historical past to examining felony information, qualifications check providers give vital insights into somebody's heritage. In the following paragraphs, we’ll include the kinds of track record checks, how they perform, and why They are really critical for each companies and people.
What exactly…
გამოაქვეყნა ლაშა_მ.
თარიღი: აპრილი 22, 2025.
საათი: 11:23pm
0 კომენტარი
1 Like
თვალებს ძლივს ახელდა დასაძინებლად რომ წავედით, მაგრამ მაინც მოვახერხეთ ძილისწინა საუბრები. ამჯერად, თემა ნათესავები და ნათესაური კავშირები იყო და ცოტა ვერ მიხვდა რა სხვაობა შვილიშვილსა და შვილთაშვილს შორის. ის კი გაიგო, რომ პირველი - მესამე თაობას ნიშნავდა, ხოლო მეორე - მეოთხეს, მაგრამ თვითონ ეს სიტყვები - შვილი-შვილი და შვილთა-შვილი რატომ…
© 2025 George.
•