Аутор Тема: Методологија приликом израде статистике на основу резултата из јавних база  (Прочитано 272 пута)

Ван мреже Небојша

  • Помоћник уредника
  • Бели орао
  • *****
  • Поруке: 6734
С обзиром да често правимо статистике заступљености хаплогрупа по регионима, мислим да је важно да дефинишемо који су параметри потребни да тај пресек буде што реалнији. Ту се пре свега јављају проблеми малог и неравномерног узорка, као и плански тестираних родова.

Код анонимних истраживања такав проблем не постоји, зато што су тамо углавном тестирани несродни појединци, пореклом из одређених области. Ту са друге стране постоји проблем што некада не знамо ко је све обухваћен истраживањем.

Што се јавних база тиче, конкретно код нас у пројекту сада већ постоји велики број плански тестираних родова, што може реметити неку реалну слику, која нам је, верујем, свима циљ. Посебно уколико је узорак незадовољавајући.

Први услов је да узорак буде задовољавајућ. Уколико је могуће и равномерно распоређен.

Други, већи проблем, постоји са плански тестираним родовима и/или породицама које се "понављају". Већ смо раније констатовали да се не требају рачунати породице које се у потпуности дуплирају (исто презиме, слава и место порекла).

Главно питање је како регулисати плански тестиране породице, тј. родове који су тестирани да би се потврдила генетска веза на основу литературе, предања, презимена/славе. Да не набрајам, списак таквих породица је сада већ прилично велики.

Некада те породице носе исто презиме, а нису из истог места, мада сматрам да их ни ту не треба рачунати, посебно ако је узорак мали. Исти принцип би можда требао бити и код оних који се сасвим случајно тестирају, а у том крају већ имају презимењаке који припадају истој хаплогрупи/подграни.

Код ових других, где постоји веза на основу литературе, па се "плански" организује и тестирање да би се потврдила иста, треба некако регулисати бројку. Убацити можда само неколико породица, главна братства и сл. То је већ за дискусију.

Да не дужим, немам идеју како би то тачно изгледало. Не бих да звучим грубо са тим "избацивањем" из статистике, увек можемо урадити и комплетну статистику на основу свих тестираних. Ово је више покушај да се креира колико-толико реална генетска слика неког подручја.

Сви предлози су добродошли! :)

 


Ван мреже Uzi

  • Познавалац
  • ******
  • Поруке: 509
  • Y-DNA: N2>P189.2>FGC28435
Претпостављам да доста зависи од тога шта се жели достићи са статистиком. Ако се жели достићи реалнији пресек становништва неке регије, онда се бројније породице и могу убрајати са више тестираним припадницима тог рода.

Али ако се жели само сазнати које су све хаплогрупе присутне међу становништвом неке регије, и колико су оне разширене међу тим становништвом онда дуплициране породице нема смисла убрајати.

Ван мреже Небојша

  • Помоћник уредника
  • Бели орао
  • *****
  • Поруке: 6734
Претпостављам да доста зависи од тога шта се жели достићи са статистиком. Ако се жели достићи реалнији пресек становништва неке регије, онда се бројније породице и могу убрајати са више тестираним припадницима тог рода.

Да, јако је незгодно. Зато треба бити опрезан. У зависности од бројности тестираних родова, узорка, итд. Имамо сада ситуацију нпр. да у неким крајевима узорак износи 50, или 60, а да на плански тестиране родове (одређено племе, род, братство) одлази 30, или 40%. Таква статистика би просто била погрешна, а циљ је нека реална слика заступљености хг у том крају на пример.

Ван мреже Мића

  • Шегрт
  • ***
  • Поруке: 61
  • R1b-PF7562
Да, јако је незгодно. Зато треба бити опрезан. У зависности од бројности тестираних родова, узорка, итд. Имамо сада ситуацију нпр. да у неким крајевима узорак износи 50, или 60, а да на плански тестиране родове (одређено племе, род, братство) одлази 30, или 40%. Таква статистика би просто била погрешна, а циљ је нека реална слика заступљености хг у том крају на пример.
Свакако би требало смањити заступљеност племена/братства/рода на ниво заступљености на одређеној територији. Да се не би изгубиле информације о свим селима и славама где је племе/братство/род забележен може се смањити пондер припадницима братства. У конкретаном случају ако на одређеној територији има 60 тестираних, а од тога су 20 плански тестирани и сви припадају истој грани хаплогрупе и носе различита презимена/славе  ових 20 би требало рачунати као 1. Па би имали "41" тестираног од тога 40 несродних са пондером 1 и 20  тестираних братственика са пондером 0.05, дакле укупно се у статистици броје се као 1.
Наравно, уколико је велико братство/племе треба проценити да ли оно на одређеној територији чини више од 2.5% становништва у овом случају, онда би сразмерно већи пондер дали том братству/племену.

Ван мреже Гмитар

  • Шегрт
  • ***
  • Поруке: 93
  • R1a Z280
Ваљало би да неки математичар поткрепи ово - код обраде података који нису случајни, подаци се могу поделити у две групе, где прва група представља узорак а друга група представља контролу. Одређени број насумично изабраних података из узорка замењује се са насумично изабраним подацима из контроле. На тај начин, насумичним избором уклониће се део података који није случајан.

У нашем случају, ДНК пројекти могу чинити узорак, а научна истраживања могу чинити контролу.

С тиме што не знам колико то има смисла зато што су онда научна истраживања укључена у обе статистике. :)

Да би се уопште могао применити статистички алат, узорак и контрола би требало да дају исте параметре (средња вредност, стандардна девијација итд.) што овде ни мало није случај, тако да нисам сигуран да ово изнад наведено има стабилну математичку основу.

Бојим се да су за приказ стварне слике репрезентстивна само научна истраживања, осим ако се не изврши нека исправка са тежинским коефицијентима (пондер) као што је Мића рекао.
« Последња измена: јануар 27, 2018, 11:53:01 поподне Гмитар »

На мрежи ДушанВучко

  • Порекло
  • Памтиша
  • *
  • Поруке: 1789
  • I2 Динарик југ (род Никшића)
Свакако би требало смањити заступљеност племена/братства/рода на ниво заступљености на одређеној територији. Да се не би изгубиле информације о свим селима и славама где је племе/братство/род забележен може се смањити пондер припадницима братства. У конкретаном случају ако на одређеној територији има 60 тестираних, а од тога су 20 плански тестирани и сви припадају истој грани хаплогрупе и носе различита презимена/славе  ових 20 би требало рачунати као 1. Па би имали "41" тестираног од тога 40 несродних са пондером 1 и 20  тестираних братственика са пондером 0.05, дакле укупно се у статистици броје се као 1.
Наравно, уколико је велико братство/племе треба проценити да ли оно на одређеној територији чини више од 2.5% становништва у овом случају, онда би сразмерно већи пондер дали том братству/племену.
Број плански тестираних родова из неке области, би у некој укупној статистици требало упоредити са бројем осталих тестираних из те области и упоредити са изворима о родовима из те области...Напр., ако има 100 тестираних из неке области, од чега је 40 припадника једног рода плански тестирано (40% тестираних из те области), а у изворима се види да је у тој области 10% популације припадника тог рода који је плански тестиран, онда би требало да се рачуна податак из извора...
« Последња измена: јануар 28, 2018, 12:26:30 пре подне ДушанВучко »

Ван мреже Небојша

  • Помоћник уредника
  • Бели орао
  • *****
  • Поруке: 6734
Број плански тестираних родова из неке области, би у некој укупној статистици требало упоредити са бројем осталих тестираних из те области и упоредити са изворима о родовима из те области...Нпр., ако има 100 тестираних из неке области, од чега је 40 припадника једног рода плански тестирано (40% тестираних из те области), а у изворима се види да је у тој области 10% популације припадника тог рода који је плански тестиран, онда би требало да се рачуна податак из извора...

Хвала Мићи, Душану и Гмитру на конструктивним предлозима. Што се овог последњег тиче, не знам колико би било реално у односу на такав узорак, пошто би онда и остале тестиране требало тражити према литератури, па са толико да буду заступљени и у статистици? У сваком случају и то је једно од решења.

Ван мреже Voljen od Boga

  • Писар
  • *****
  • Поруке: 362
  • I2a1b2a1a1b I Y4460*
Ваљало би да неки математичар поткрепи ово - код обраде података који нису случајни, подаци се могу поделити у две групе, где прва група представља узорак а друга група представља контролу. ......
...
Да би се уопште могао применити статистички алат, узорак и контрола би требало да дају исте параметре (средња вредност, стандардна девијација итд.) што овде ни мало није случај, тако да нисам сигуран да ово изнад наведено има стабилну математичку основу.

Статистика, као научна метода, се може примијењивати само на системе чији елементи су непромјењиви кроз вријеме. Статистика у физици је значајан метод који се примијењујње на вишечестичне системе као што су то гасови али се не може примијенити ако ти гасови међусобно хемијски реагују, јер се елементи у систему мијењају у току времена и дају другачије макроскопске параметре. Човјек није атом, човјек није камен, човјек је јединствена креација створена под утицајем предака и утиче на потомство али није копија предака и никад нико неће бити његова копија. Код ажурирања резултата тестирања на y хромозому никако се не може примијенити статистика типа:
R1a......25 %
R1b......10 %
I2a.......50 %
Е1........15 %
Оваква статистика не само да је неупотребљива у научне сврхе већ и шаље  нетачну информацију да између припадника различитих хаплогрупа постоје расне разлике и занемарује утицај митохондријских гена. Овакво сумирање резултата доводи до тога да се једни сматрају директним потомцима једног народа а други су само "придружени", што опет није тачно, јер генетска културолошка прошлост се не морају поклапати и најчешће се не поклапају. Како се повећава број тестираних и како су тестови све "дубљи" видимо да се све хаплогрупе и све њихове гране појављују код свих народа у Европи, само се разликују проценти те заступљености. С друге стране проценат тестираних још увијек није и проценат цијелог становништва, а и да јесте није исто бити припадник једне хаплогрупе која се ту појављује прије 100 година и припадник те исте хаплогрупегрупе која се ту населила прије 500 година. Дакле, није само проблем колико нам статистичка обрада тих података помаже или не помаже код неког истраживања већ и то колико она шири неистину и утиче на менталну хигијену и озбиљно нагриза алтруизам.
Тачно је да мутације на y хромозому омогућавају праћење развоја и миграција људског рода али је тачно и то да постоје индивидуалне разлике међу људима унутар једне хаплогрупе, као и сличности између људи унутар различитих хаплогрупа. Дакле, припадност некој хаплогрупи не треба схватати преозбиљно и треба водити рачуна каква обрада података се користе унутар неког научног истраживања а какви подаци се пласирају јавности и лаицима.
Наравно, ово је мој скромни допринос овом занимљивом пројекту, свјестан да нас радозналост може одвући тамо гдје не треба.   
 
 

 
Evropa je jedna velika porodica.