some todo done

2019-12-05 22:48:41 +01:00
parent f5f3d85150
commit b15d6130d6
6 changed files with 134 additions and 162 deletions
--- a/src/content/preparation.tex
+++ b/src/content/preparation.tex
@@ -97,52 +97,8 @@ A mérendő függvények nevét egy tömbben tároltam, így egymás után több

 A folyamatos terhel\'est gener\'al\'o m\'er\'es \aref{code:bash-banchmark-for} k\'odr\'eszleten l\'athat\'o. A hey saj\'at\'oss\'agai miatt alkalmaztam azt a megold\'ast, hogy a k\'iv\'ant hossz\'us\'ag\'u fut\'as el\'er\'ese \'erdek\'eben t\"obbsz\"or elind\'itottam az eszk\"ozt. Látható, hogy a Kubeless-be és a Knative-ba telepített függvények meghívása eltér nem csak az alkalmazott http metódusban és a hosztnév sémájában, de a Content-Type fejléc, melynek értékét a –T kapcsolóval lehet megadni, megléte is különbözik. 

-\begin{lstlisting}[float=!ht,caption={Folyamatos terhel\'est gener\'al\'o m\'er\'est v\'egző szkriptr\'eszlet Bash nyelven},label=code:bash-banchmark-for]
-if [[ $* == *"--for"* ]]; then
-  for num in 1 2 3 4 5 6 7 8 9 10; do
-    echo -e "for $num\n"
-      if $kubeless; then
-        if [[ $* == *"--loadtest"* ]]; then
-          loadtest -k -H "Host: $function.kubeless" --rps $rps -c $connection -t $time -p "$function_firendly".body http://$kuberhost/"$function" >./data/"$function"."$num".txt
-        else
-           hey -c "$connection" -q $rps -z "$time" -m POST -o csv -host "$function.kubeless" -D "$function_friendly".body -T "application/json" http://$kuberhost/"$function" >./data/"$function"."$num".csv
-        fi
-      else
-        if [[ $* == *"--loadtest"* ]]; then
-          loadtest -k -H "Host: $function.default.example.com" --rps $rps -c $connection -t $time http://$kuberhost/ >./data/"$function"."$num".for.csv
-        else
-          hey -c "$connection" -q $rps -z "$time" -m POST -o csv -host "$function.default.example.com" http://$kuberhost/ >./data/"$function"."$num".for.csv
-        fi
-      fi
-  done
-fi
-\end{lstlisting}
-
 Mint az \aref{code:bash-banchmark-climb} kódrészleten látszik, a növekvő terhelésű mérés implementációja igen hasonló az egyenletes terhelésűhöz. A hey működését kihasználva, a –rps kapcsoló segítségével beállított limit nem változik a mérés során, csupán a connection objektumok száma emelkedik.

-\begin{lstlisting}[float=!ht,caption={Emelkedő terhel\'est megval\'os\'itő m\'er\'es Bash szkriptnyelven},label=code:bash-banchmark-climb]
-if [[ $* == *"--climb"* ]]; then
-    while [[ $climb -lt $climb_max ]]; do
-        climb_rps=$((rps * climb))
-        echo -e "Rps: $climb_rps"
-        if $kubeless; then
-            if [[ $* == *"--loadtest"* ]]; then
-                loadtest -k -H "Host: $function.kubeless" --rps $climb_rps -c 1 -t $time -p "$function_firendly".body http://$kuberhost/"$function" >./data/"$function"."$climb_rps".climb.txt
-            else
-                hey -c $climb -q $rps -z $time -m POST -o csv -host "$function.kubeless" -D "$function_friendly".body -T "application/json" http://$kuberhost/"$function" >./data/"$function"."$climb_rps".climb.csv
-            fi
-        else
-            if [[ $* == *"--loadtest"* ]]; then
-                loadtest -k -H "Host: $function.default.example.com" --rps $climb_rps -c 1 -t $time http://$kuberhost/ >./data/"$function"."$climb_rps".climb.txt
-            else
-                hey -c $climb -q $rps -z $time -m POST -o csv -host "$function.default.example.com" http://$kuberhost/ >./data/"$function"."$climb_rps".climb.csv
-            fi
-        fi
-        climb=$((climb + 1))
-    done
-fi
-\end{lstlisting}
-
 \section{M\'er\'esi eredm\'enyek automatiz\'alt elemz\'ese}
 Egy mérés eredményeként a mérés típusától függően akár több, nagy méretű csv állomány keletkezik. Ezen fájlok feldolgozása függ attól, hogy azt a Jmeter vagy a hey generálta. A fájlok kézi feldolgozása nyilvánvalóan lehetetlen. Az is előfordulhat, hogy már korábban feldolgozott méréseket egy új szempontból is fel kell dolgozni. Ez elő is fordult, ugyanis a program első verziója még nem volt képes az észlelt késleltetés feldolgozására. Szerencsére a Python programnyelv ilyen feladatok elvégzésére kiváló választás. 

@@ -152,67 +108,12 @@ Mivel egy méréshez több állomány is tartozhat, az egybe tartozó állomány

 Ahogy \aref{code:jmeter-analyze} kódrészleten látszik, hogy a Python eléggé megkönnyíti egy csv fájl feldolgozását. A csv.reader függvény egy generátorral tér vissza, melyen végig iterálva lehet soronként feldolgozni az állományt. Egy sort a Python egy tuple objektumként reprezentál. Az első sorban az oszlopok nevét adja meg a Jmeter, így azt külön tuple objektumba mentve a zip hívással egy dictionary-t kapunk. Ebből a kívánt oszlop nevét megadva lehet kinyerni a keresett mezőt. 

-\begin{lstlisting}[float=!ht,caption={Jmeter kimenet\'et feldolgoz\'o k\'odr\'eszlet, Python nyelven},label=code:jmeter-analyze]
-class JmeterAnalyzer(CsvAnalyzer):
-    def __init__(self):
-        super().__init__()
-        self.responsepersec = {}
-
-    def processfile(
-            self,
-            fname,
-            shouldprint: bool = False):
-        with open(fname, 'r') as f:
-            data = csv.reader(f)
-            fields = next(data)
-            for row in data:
-                items = zip(fields, row)
-                item = {}
-                for (name, value) in items:
-                    item[name] = value.strip()
-                sec = datetime.datetime.fromtimestamp(
-                    int(item['timeStamp']) / 1000.0).strftime('%c')
-                if sec not in self.responsepersec:
-                    self.responsepersec[sec] = []
-                self.responsepersec[sec].append(float(item['Latency']))
-
-    def collectinfo(self, shouldprint: bool = False) -> None:
-        self.walkresponsepersec(self.responsepersec, shouldprint)
-\end{lstlisting}
-
 A JmeterAnalyzer objektum létrejöttekor létrehoz egy dictionary objektumot, melyben a beolvasott fájl timeStamp mezője lesz a kulcs, az érték pedig az adott másodpercben érzékelt válaszok körbefordulási ideje. Mivel a Jmeter egy Java-ban írt szoftver, a timeStamp mező egy java.utils.Date objektum szerializálva. Ahhoz, hogy ebből Python datetime objektumot lehessen készíteni, az adott számot el kell osztani ezerrel. Az így kapott datetime már másodperc pontosan fogja tárolni az időt. Az adott másodpercben visszaérkezett válaszok számát pedig az adott másodpercben tárolt késleltetési értékek száma adja meg. 

 A feldolgozás végeztével egy-egy listába kigyűjti a másodpercenként összegyűjtött adatokat tartalmazó listák hosszát, valamint az értékek átlagát. 

 Amint \aref{code:hey-analyze} hey esetében máshogy kell csinálni, ugyanis itt a mérés több fájlra bomlik, amelyekben viszont nem lehet feltételezni, hogy pontosan harminc másodpercnyi, vagy egyéb konstans időtartamnyi mérés adatát tartalmazza egy-egy fájl, ugyanis a munka során ez változott. Emiatt egy fájl feldolgozása után gyűjti ki két listába az összegyűjtött adatokat tartalmazó lista hosszát és a késleltetések átlagát. 

-\begin{lstlisting}[float=!ht,caption={Hey kimenet\'et feldolgoz\'o k\'odr\'eszlet, Python nyelven},label=code:hey-analyze]
-class HeyAnalyzer(CsvAnalyzer):
-    def __init__(self):
-        super().__init__()
-
-    def processfile(
-            self,
-            fname,
-            shouldprint: bool = False):
-        with open(fname, 'r') as f:
-            data = csv.reader(f)
-            fields = next(data)
-            responsepersec = {}
-            for row in data:
-                items = zip(fields, row)
-                item = {}
-                for(name, value) in items:
-                    item[name] = value.strip()
-                sec = int(item['offset'].split('.')[0])
-                if sec not in responsepersec:
-                    responsepersec[sec] = []
-                else:
-                    responsepersec[sec].append(float(item['response-time']))
-            self.walkresponsepersec(responsepersec, shouldprint)
-
-\end{lstlisting}
-
 Miután a Knative Autoscaler naplóállománya analizálásának igénye felmerült, a méréseket automatizáló bash szkript módosítva lett úgy, hogy minden mérés kezdetének és végeztének másodpercre pontos dátumát egy külön fájlba menti. Ez által a naplófájl bejegyzéseit lehet szűrni a két dátum köztire. 

 A Knative Autoscaler a naplóbejegyzéseket json objektumként menti, melyből a Python képes dictionary objektumot készíteni. Amennyiben az adott bejegyzés ts mezője a mérés kezdési és befejezési ideje közé esik, akkor az msg mezőben lévő üzenet feldolgozásra kerül. Az üzenetben kulcs-érték párok vannak szóközzel elválasztva egymástól. A kulcs és az érték között egyenlőségjel van. Ezt egy reguláris kifejezéssel listává lehet konvertálni. Sajnos a Python reguláris kifejezés API-jában nincs arra lehetőség, hogy ilyen esetben dictionary objektumot adjon vissza, így azt kézzel kell konvertálni kihasználva azt, hogy az értékek mindig egy kulcs után következnek. Ezután a Podok száma, valamint a megfigyelt stabil konkurencia érték letárolható. Ennek folyamat\'at \aref{sec:log-analyze} f\"uggel\'ekben l\'atni.