Как размерът на извадката влияе върху производителността на ID3 алгоритъма? - Блог

Ей, какво става всички! Аз съм доставчик на алгоритъм за ID3 и се занимавам с ID3 от известно време. Днес искам да поговорим за това как размерът на извадката влияе на производителността на ID3 алгоритъма.

Какво всъщност представлява ID3 алгоритъмът?

Първо, нека набързо да разгледаме какво представлява ID3 алгоритъмът. ID3, което означава Iterative Dichotomiser 3, е алгоритъм за обучение на дърво с решение. Използва се за създаване на дърво на решенията от набор от данни. Основната идея зад него е да се избере най-добрият атрибут във всеки възел на дървото, за да се разделят данните въз основа на получената информация. Придобиването на информация измерва колко „несигурност“ се премахва, когато разделяме данните с помощта на определен атрибут.

Въздействието на малките размери на извадката

Прекомерно оборудване

Един от най-големите проблеми с малките размери на извадката в ID3 алгоритъма е пренастройването. Когато имате малък брой проби, дървото на решенията, създадено от ID3, може да се окаже твърде специфично за дадените данни. Например, да приемем, че изграждаме дърво на решенията, за да предскажем дали една кола е вероятно да бъде популярна въз основа на характеристики като мощност на двигателя, горивна ефективност и вътрешно пространство. Ако размерът на нашата извадка е малък, дървото на решенията може да създаде клонове, които са много специфични за няколкото коли в нашата извадка.

Да предположим, че имаме данни само за няколко автомобила като2016 Volkswagen Tiguan 300TSI Автоматично 2WD Comfort Editionи2023 Bora 280TSI DSG Top Edition. Дървото на решенията може да създаде правила, които са приложими само за тези два модела и няма да работят добре, когато се опитваме да предвидим популярността на други автомобили.

Пренастройването означава, че моделът се справя отлично с данните за обучение (малката извадка, която използвахме за изграждане на дървото), но се проваля ужасно, когато става въпрос за нови, невиждани данни. С други думи, дървото на решенията е твърде „настроено“ към странностите на малката извадка и не може да обобщи добре.

Ненадежден избор на атрибут

При малък размер на извадката, изчисленията на придобиването на информация могат да бъдат ненадеждни. Придобиването на информация се използва, за да се реши кой атрибут да се раздели във всеки възел на дървото на решенията. Но когато извадката е малка, честотите на различните стойности на атрибута може да не представят точно разпределението в реалния свят.

Например, ако в нашия малък набор от данни за автомобили повечето автомобили с определен тип двигател се окажат популярни случайно, алгоритъмът ID3 може да реши, че този тип двигател е решаващ фактор за популярността. Но в действителност това може да е съвпадение поради малкия размер на извадката. Това може да доведе до вземане на грешни решения от дървото на решенията и лошо представяне.

Предимствата на големите размери на извадката

Обобщение

Едно от най-значимите предимства на големите размери на извадката е по-доброто обобщаване. Когато имаме голям брой проби, дървото на решенията, създадено от ID3, е по-вероятно да улови основните модели в данните, а не шума. Например, ако имаме данни за хиляди коли, вкл2016 Volkswagen Tiguan 300TSI Автоматично 2WD Comfort Edition,Public2023 T - ROC Explore Song 300TSI DSG Two Drive Starlight Editionи много други, дървото на решенията може да научи по-стабилни правила за това какво прави една кола популярна.

Тези правила ще бъдат приложими за по-широк кръг автомобили, не само за тези в комплекта за обучение. Така че, когато използваме дървото на решенията, за да прогнозираме популярността на нова кола, е по-вероятно да даде точен резултат.

Стабилен избор на атрибут

Големите размери на извадката също водят до по-стабилна селекция на атрибути. Изчисленията за придобиване на информация са по-надеждни, тъй като честотите на стойностите на атрибутите са по-близки до разпределението в реалния свят. Това означава, че ID3 алгоритъмът може да избере най-подходящите атрибути за разделяне на всеки възел на дървото на решенията.

Например, ако в голям набор от данни за автомобил установим, че горивната ефективност е последователно свързана с популярността на автомобила, ID3 алгоритъмът ще може да идентифицира тази връзка точно и да използва горивната ефективност като важен атрибут на разделяне в дървото на решенията.

Намиране на правилния размер на извадката

Сега може би си мислите: „Добре, значи големите размери на извадката са страхотни. Колко голяма трябва да бъде моята извадка?“ Е, няма един - размер - пасва - всички отговори на това. Правилният размер на извадката зависи от няколко фактора, като например броя на атрибутите във вашия набор от данни, сложността на връзката между атрибутите и целевата променлива и количеството шум в данните.

2016 Volkswagen Tiguan 300TSI Automatic 2WD Comfort Edition suppliers

Общо правило е, че ако вашият набор от данни има много атрибути или сложна връзка между променливите, вероятно ще ви трябва по-голям размер на извадката. От друга страна, ако връзката е относително проста, по-малък размер на извадката може да е достатъчен.

Можете също така да използвате техники като кръстосано валидиране, за да прецените колко добре вашият ID3 алгоритъм ще работи с различни размери на извадката. Кръстосаното валидиране включва разделянето на вашите данни на множество подмножества, като някои подмножества се използват за обучение и други за тестване. Като правите това многократно с различни размери на извадката, можете да получите представа кой размер на извадката дава най-добра производителност.

На практика като доставчик на ID3

Като доставчик на ID3 алгоритъм често работя с клиенти, които имат различни размери на извадката в своите набори от данни. Спомням си един клиент, който се опитваше да предвиди отлив на клиенти за телекомуникационна компания. Първоначално те имаха сравнително малък размер на извадката и моделът, базиран на ID3, който изградиха, беше прекалено подходящ. Дървото на решенията създаваше много специфични правила въз основа на малкото клиенти в набора от данни и не беше точно, когато се прилагаше към нови клиенти.

Препоръчах им да съберат повече данни, за да увеличат размера на извадката. След като направиха това, производителността на ID3 алгоритъма се подобри значително. Дървото на решенията успя да научи по-общи правила за оттеглянето на клиенти и точността на прогнозиране на новите данни се увеличи значително.

Заключение и призив за действие

В заключение, размерът на извадката има огромно влияние върху производителността на ID3 алгоритъма. Малките размери на извадката могат да доведат до пренастройване и ненадежден избор на атрибути, докато големите размери на извадката обикновено водят до по-добро обобщение и по-стабилна производителност на модела.

Ако работите с данни и обмисляте използването на алгоритъма ID3, важно е да обърнете внимание на размера на вашата извадка. И ако се борите да получите най-добрата производителност от своите модели, базирани на ID3, не се колебайте да се свържете с нас. Като опитен доставчик на ID3, мога да ви помогна да оптимизирате размера на вашата извадка и да се възползвате максимално от алгоритъма ID3. Нека поговорим за това как можем да работим заедно, за да подобрим вашите проекти за анализ на данни.

Референции

Мичъл, ТМ (1997). Машинно обучение. Макгроу - Хил.
Quinlan, JR (1986). Индукция на дървета на решенията. Машинно обучение, 1 (1), 81 - 106.