Решение на Изберете си проект от Калоян Витанов

Обратно към всички решения

Към профила на Калоян Витанов

Код

"""
Здравей/те!
(Идеята ми за проект трябва да се има предвид в контекста на това, че съм специалност ПМ IV- ти курс)
Идеята ми е следната: да напиша код, който да анализира статистически данни извлечени от интернет (или просто подадени чрез файл).
По-конкретно:
1. Чрез библиотеките Requests и BeautifulSoup да мога да извилчам данни от различни сайтове (например точките от класацията във вашия сайт :P).
2. Да напиша модул, който прави предварителен анализ на данните- съществуват разнообразни сатитистически модели, предварителният анализ има за цел да покаже, кой модел е най-адекватен за конкретните данни.
3. Да напиша модул, който прилага избрания модел върху данните и прави съответните заключения.
Наясно съм, че съществува достатъчно софтуер, който прави неща подобни на тези, които съм намислил, като "R" и "SPSS", но считам, че за да мога да вникна в дълбочина, пък и като подготовка за бъдещо писане на подобни програми от мен, да се пробвам тук и сега с Python. :)
"""

История (1 версия и 3 коментара)

Калоян обнови решението на 22.04.2015 21:48 (преди над 4 години)

+"""
+Здравей/те!
+(Идеята ми за проект трябва да се има предвид в контекста на това, че съм специалност ПМ IV- ти курс)
+
+Идеята ми е следната: да напиша код, който да анализира статистически данни извлечени от интернет (или просто подадени чрез файл).
+
+По-конкретно:
+1. Чрез библиотеките Requests и BeautifulSoup да мога да извилчам данни от различни сайтове (например точките от класацията във вашия сайт :P).
+2. Да напиша модул, който прави предварителен анализ на данните- съществуват разнообразни сатитистически модели, предварителният анализ има за цел да покаже, кой модел е най-адекватен за конкретните данни.
+3. Да напиша модул, който прилага избрания модел върху данните и прави съответните заключения.
+
+Наясно съм, че съществува достатъчно софтуер, който прави неща подобни на тези, които съм намислил, като "R" и "SPSS", но считам, че за да мога да вникна в дълбочина, пък и като подготовка за бъдещо писане на подобни програми от мен, да се пробвам тук и сега с Python. :)
+"""

Добре, бих се съгласил, но искам да си по - конкретен. Какви статистичеки модели ще имплементираш? Какви заключения ще правиш с тях? Избери си - интернет, файл или и двете? По какъв начин ще се ползва?

Също, тъй като ще е библиотека, държим на много хубава и изчерпателна документация, както и на много тестове за коректност.

Въпросите ми към идеята ти трябва да се имат в предвид в контекста на това, че разбиранията ми по статистика са възможния минимум да оцелявам :Д Бих се радвал да използвам проекта ти да го подобря малко тук и сега!

Здравей!

Ето разяснения относно идеята : )

Абстрактно казано имаме някакви наблюдения направени в някакъв контекст. Искаме да намерим статистически (по- правилно е вероятностен) модел, чиито характеристики “достатъчно” добре съвпадат с характеристиките проявявани от направените наблюдения (има си критерии, по определяме кога “достатъчно” е в сила ). Ако намерим такъв модел бихме могли да на негова база да направим някакво заключение относно естеството на наблюденията или контекста. Бихме могли и да тестваме хипотези или да се опитаме да предскажем какви наблюдения е вероятно да очакваме. Пример 1: Ако игнорираме предварителното познание, че имаме мъжки и женски пол, ако съберем информация за производството на обувки с различни номера ще забележим, че най- масово се произвеждат обувки с номера 42 и 36. Това от една страна ни казва, че най- вероятно е да срещнем индивид от популацията, който носи обувки номер 36 и 42, от друга ни казва, че има някаква по-фундаментална разлика в индивидите от популацията (в случая- имаме мъжки и женски пол) Пример 2: Имаме 10 декара земя, 5 декара от нея я наторяваме с тор от тип 1, другите 5 декара с тор от тип 2. Искаме да видим дали има разлика в количеството реколта в зависимост от използваната тор. Съществуват специални модели които дават отговор от статистическа гледна точка, най- известният е ANOVA (http://en.wikipedia.org/wiki/Analysis_of_variance) Пример 3: Събираме информация за индекси на някаква фондова борса през определен интервал. Бихме желали да предвидим какви ще са индексите в бъдеще, за да вземем голямата пара (уви това е екстремно сложно от математическа гледна точка). Модели, които се занимават с подобни ситуации са така наречените time series analysis (http://en.wikipedia.org/wiki/Time_series)

За да се анализират данните трябва да се избере най-подходящия модел- това става или директно от контекста, или от контекста и допълнителни характеристики на данните (като например тяхното количество, дали има рязко отличаващи се от другите наблюдения, дали има имплицитна зависимост между данните и т.н.)

И така идеята ми за проекта е следната: 1. Подават се данни и контекста, в който са направени. 2. Прави се предварителен анализ за да се определи кои модели са удачни- дават се ключови индикатори. 3. Прави се анализ. 4. В зависимост от целите ни се дава някакво заключение (например: “тор 1 е по-добър от тор 2” или “няма разлика”) и ключовите индикатори (независимо какво им даваме моделите винаги ни връщат някакъв резултат- чрез индикаторите разбираме доколко надеждни са резултатите). 5. Понеже графиките са нещо важно мисля и да се пробвам да накарам програмата да ми чертае някакви прости графики (уви не знам колко усилие ще ми коства това :D)

Мисля да реализирам колкото се може повече модели в програмата, но определено мисля да заобиколя някои понеже не мисля, че не разбирам достатъчно добре нещата в тях. Във всеки случай моята програма ще е нещо доста основно.

Документацията ще е изчерпателно- всякаквите източници имат лошия навик да омазват терминологии и детайли от процедурите, така че документацията ще е полезна и за мен.

Ако искаш да използваш програмата ще ти е нужно да почетеш малко в интернет за да можеш да я използваш коректно :P

Ако има още въпроси- давай ги!

Поздрави!