Калоян обнови решението на 22.04.2015 21:48 (преди над 9 години)
Добре, бих се съгласил, но искам да си по - конкретен. Какви статистичеки модели ще имплементираш? Какви заключения ще правиш с тях? Избери си - интернет, файл или и двете? По какъв начин ще се ползва?
Също, тъй като ще е библиотека, държим на много хубава и изчерпателна документация, както и на много тестове за коректност.
Въпросите ми към идеята ти трябва да се имат в предвид в контекста на това, че разбиранията ми по статистика са възможния минимум да оцелявам :Д Бих се радвал да използвам проекта ти да го подобря малко тук и сега!
Здравей!
Ето разяснения относно идеята : )
Абстрактно казано имаме някакви наблюдения направени в някакъв контекст. Искаме да намерим статистически (по- правилно е вероятностен) модел, чиито характеристики “достатъчно” добре съвпадат с характеристиките проявявани от направените наблюдения (има си критерии, по определяме кога “достатъчно” е в сила ). Ако намерим такъв модел бихме могли да на негова база да направим някакво заключение относно естеството на наблюденията или контекста. Бихме могли и да тестваме хипотези или да се опитаме да предскажем какви наблюдения е вероятно да очакваме. Пример 1: Ако игнорираме предварителното познание, че имаме мъжки и женски пол, ако съберем информация за производството на обувки с различни номера ще забележим, че най- масово се произвеждат обувки с номера 42 и 36. Това от една страна ни казва, че най- вероятно е да срещнем индивид от популацията, който носи обувки номер 36 и 42, от друга ни казва, че има някаква по-фундаментална разлика в индивидите от популацията (в случая- имаме мъжки и женски пол) Пример 2: Имаме 10 декара земя, 5 декара от нея я наторяваме с тор от тип 1, другите 5 декара с тор от тип 2. Искаме да видим дали има разлика в количеството реколта в зависимост от използваната тор. Съществуват специални модели които дават отговор от статистическа гледна точка, най- известният е ANOVA (http://en.wikipedia.org/wiki/Analysis_of_variance) Пример 3: Събираме информация за индекси на някаква фондова борса през определен интервал. Бихме желали да предвидим какви ще са индексите в бъдеще, за да вземем голямата пара (уви това е екстремно сложно от математическа гледна точка). Модели, които се занимават с подобни ситуации са така наречените time series analysis (http://en.wikipedia.org/wiki/Time_series)
За да се анализират данните трябва да се избере най-подходящия модел- това става или директно от контекста, или от контекста и допълнителни характеристики на данните (като например тяхното количество, дали има рязко отличаващи се от другите наблюдения, дали има имплицитна зависимост между данните и т.н.)
И така идеята ми за проекта е следната: 1. Подават се данни и контекста, в който са направени. 2. Прави се предварителен анализ за да се определи кои модели са удачни- дават се ключови индикатори. 3. Прави се анализ. 4. В зависимост от целите ни се дава някакво заключение (например: “тор 1 е по-добър от тор 2” или “няма разлика”) и ключовите индикатори (независимо какво им даваме моделите винаги ни връщат някакъв резултат- чрез индикаторите разбираме доколко надеждни са резултатите). 5. Понеже графиките са нещо важно мисля и да се пробвам да накарам програмата да ми чертае някакви прости графики (уви не знам колко усилие ще ми коства това :D)
Мисля да реализирам колкото се може повече модели в програмата, но определено мисля да заобиколя някои понеже не мисля, че не разбирам достатъчно добре нещата в тях. Във всеки случай моята програма ще е нещо доста основно.
Документацията ще е изчерпателно- всякаквите източници имат лошия навик да омазват терминологии и детайли от процедурите, така че документацията ще е полезна и за мен.
Ако искаш да използваш програмата ще ти е нужно да почетеш малко в интернет за да можеш да я използваш коректно :P
Ако има още въпроси- давай ги!
Поздрави!
Не, добре отговори на всички.