edgecloudsim/scripts/sample_app5/ai_trainer/data_convertor.py

import pandas as pd
import json
import sys

if len (sys.argv) != 5:
    print('invalid arguments. Usage:')
    print('python data_conventor.py config.json [edge|cloud_rsu|cloud_gsm] [classifier|regression] [train|test]')
    sys.exit(1)
    
with open(sys.argv[1]) as json_data_file:
    data = json.load(json_data_file)
    
target = sys.argv[2]
method = sys.argv[3]
datatype = sys.argv[4]

print("conversion started with args " + target + ", " + method + ", " + datatype)

sim_result_folder = data["sim_result_folder"]
num_iterations = data["num_iterations"]
train_data_ratio = data["train_data_ratio"]
min_vehicle = data["min_vehicle"]
max_vehicle = data["max_vehicle"]
vehicle_step_size = data["vehicle_step_size"]

def getDecisionColumnName(target):
    if target == "edge":
        COLUMN_NAME  = "EDGE"
    elif target == "cloud_rsu":
        COLUMN_NAME  = "CLOUD_VIA_RSU"
    elif target == "cloud_gsm":
        COLUMN_NAME  = "CLOUD_VIA_GSM"
    return COLUMN_NAME

def getClassifierColumns(target):
    if target == "edge":
        result  = ["NumOffloadedTask", "TaskLength", "WLANUploadDelay", "WLANDownloadDelay", "AvgEdgeUtilization", "Result"]
    elif target == "cloud_rsu":
        result  = ["NumOffloadedTask", "WANUploadDelay", "WANDownloadDelay", "Result"]
    elif target == "cloud_gsm":
        result  = ["NumOffloadedTask", "GSMUploadDelay", "GSMDownloadDelay", "Result"]
    return result

def getRegressionColumns(target):
    if target == "edge":
        result = ["TaskLength", "AvgEdgeUtilization", "ServiceTime"]
    elif target == "cloud_rsu":
        result = ["TaskLength", "WANUploadDelay", "WANDownloadDelay", "ServiceTime"]
    elif target == "cloud_gsm":
        result = ["TaskLength", "GSMUploadDelay", "GSMDownloadDelay", "ServiceTime"]
    return result

def znorm(column):
    column = (column - column.mean()) / column.std()
    return column

data_set =  []

testDataStartIndex = (train_data_ratio * num_iterations) / 100

for ite in range(num_iterations):
    for vehicle in range(min_vehicle, max_vehicle+1, vehicle_step_size):
        if (datatype == "train" and ite < testDataStartIndex) or (datatype == "test" and ite >= testDataStartIndex):
            file_name = sim_result_folder + "/ite" + str(ite + 1) + "/" + str(vehicle) + "_learnerOutputFile.cvs"
            df = [pd.read_csv(file_name, na_values = "?", comment='\t', sep=",")]
            df[0]['VehicleCount'] = vehicle
            #print(file_name)
            data_set += df

data_set = pd.concat(data_set, ignore_index=True)
data_set = data_set[data_set['Decision'] == getDecisionColumnName(target)]

if method == "classifier":
    targetColumns = getClassifierColumns(target)
else:
    targetColumns= getRegressionColumns(target)

if datatype == "train":
    print ("##############################################################")
    print ("Stats for " + target + " - " + method)
    print ("Please use relevant information from below table in java side:")
    train_stats = data_set[targetColumns].describe()
    train_stats = train_stats.transpose()
    print(train_stats)
    print ("##############################################################")

#print("balancing " + target + " for " + method)

#BALANCE DATA SET
if method == "classifier":
    df0 = data_set[data_set['Result']=="fail"]
    df1 = data_set[data_set['Result']=="success"]
    
    #size = min(len(df0[df0['VehicleCount']==max_vehicle]), len(df1[df1['VehicleCount']==min_vehicle]))
    
    size = len(df0[df0['VehicleCount']==max_vehicle]) // 2
    
    df1 = df1.groupby('VehicleCount').apply(lambda x: x if len(x) < size else x.sample(size))
    df0 = df0.groupby('VehicleCount').apply(lambda x: x if len(x) < size else x.sample(size))

    data_set = pd.concat([df0, df1], ignore_index=True)
else:        
    data_set = data_set[data_set['Result'] == 'success']
    
    #size = min(len(data_set[data_set['VehicleCount']==min_vehicle]), len(data_set[data_set['VehicleCount']==max_vehicle]))
    
    size = len(data_set[data_set['VehicleCount']==max_vehicle]) // 3
    data_set = data_set.groupby('VehicleCount').apply(lambda x: x if len(x.index) < size else x.sample(size))

#EXTRACT RELATED ATTRIBUTES
df = pd.DataFrame(columns=targetColumns)
for column in targetColumns:
    if column == 'Result' or column == 'ServiceTime':
        df[column] = data_set[column]
    else:
        df[column] = znorm(data_set[column])

f = open(sim_result_folder + "/" + target + "_" + method + "_" + datatype + ".arff", 'w')
f.write('@relation ' + target + '\n\n')
for column in targetColumns:
    if column == 'Result':
        f.write('@attribute class {fail,success}\n')
    else:
        f.write('@attribute ' + column + ' REAL\n')
f.write('\n@data\n')
df.to_csv(f, header=False, index=False)
f.close()

print ("##############################################################")
print ("Operation completed!")
print (".arff file is generated for weka.")
print ("##############################################################")
Sample application 5 used in IEEE Transactions on Intelligent Transportation Systems is added. 2020-10-30 10:57:07 +01:00			`import pandas as pd`
			`import json`
			`import sys`

			`if len (sys.argv) != 5:`
			`print('invalid arguments. Usage:')`
			`print('python data_conventor.py config.json [edge\|cloud_rsu\|cloud_gsm] [classifier\|regression] [train\|test]')`
			`sys.exit(1)`

			`with open(sys.argv[1]) as json_data_file:`
			`data = json.load(json_data_file)`

			`target = sys.argv[2]`
			`method = sys.argv[3]`
			`datatype = sys.argv[4]`

			`print("conversion started with args " + target + ", " + method + ", " + datatype)`

			`sim_result_folder = data["sim_result_folder"]`
			`num_iterations = data["num_iterations"]`
			`train_data_ratio = data["train_data_ratio"]`
			`min_vehicle = data["min_vehicle"]`
			`max_vehicle = data["max_vehicle"]`
			`vehicle_step_size = data["vehicle_step_size"]`

			`def getDecisionColumnName(target):`
			`if target == "edge":`
			`COLUMN_NAME = "EDGE"`
			`elif target == "cloud_rsu":`
			`COLUMN_NAME = "CLOUD_VIA_RSU"`
			`elif target == "cloud_gsm":`
			`COLUMN_NAME = "CLOUD_VIA_GSM"`
			`return COLUMN_NAME`

			`def getClassifierColumns(target):`
			`if target == "edge":`
			`result = ["NumOffloadedTask", "TaskLength", "WLANUploadDelay", "WLANDownloadDelay", "AvgEdgeUtilization", "Result"]`
			`elif target == "cloud_rsu":`
			`result = ["NumOffloadedTask", "WANUploadDelay", "WANDownloadDelay", "Result"]`
			`elif target == "cloud_gsm":`
			`result = ["NumOffloadedTask", "GSMUploadDelay", "GSMDownloadDelay", "Result"]`
			`return result`

			`def getRegressionColumns(target):`
			`if target == "edge":`
			`result = ["TaskLength", "AvgEdgeUtilization", "ServiceTime"]`
			`elif target == "cloud_rsu":`
			`result = ["TaskLength", "WANUploadDelay", "WANDownloadDelay", "ServiceTime"]`
			`elif target == "cloud_gsm":`
			`result = ["TaskLength", "GSMUploadDelay", "GSMDownloadDelay", "ServiceTime"]`
			`return result`

			`def znorm(column):`
			`column = (column - column.mean()) / column.std()`
			`return column`

			`data_set = []`

			`testDataStartIndex = (train_data_ratio * num_iterations) / 100`

			`for ite in range(num_iterations):`
			`for vehicle in range(min_vehicle, max_vehicle+1, vehicle_step_size):`
			`if (datatype == "train" and ite < testDataStartIndex) or (datatype == "test" and ite >= testDataStartIndex):`
			`file_name = sim_result_folder + "/ite" + str(ite + 1) + "/" + str(vehicle) + "_learnerOutputFile.cvs"`
			`df = [pd.read_csv(file_name, na_values = "?", comment='\t', sep=",")]`
			`df[0]['VehicleCount'] = vehicle`
			`#print(file_name)`
			`data_set += df`

			`data_set = pd.concat(data_set, ignore_index=True)`
			`data_set = data_set[data_set['Decision'] == getDecisionColumnName(target)]`

			`if method == "classifier":`
			`targetColumns = getClassifierColumns(target)`
			`else:`
			`targetColumns= getRegressionColumns(target)`

			`if datatype == "train":`
			`print ("##############################################################")`
			`print ("Stats for " + target + " - " + method)`
			`print ("Please use relevant information from below table in java side:")`
			`train_stats = data_set[targetColumns].describe()`
			`train_stats = train_stats.transpose()`
			`print(train_stats)`
			`print ("##############################################################")`

			`#print("balancing " + target + " for " + method)`

			`#BALANCE DATA SET`
			`if method == "classifier":`
			`df0 = data_set[data_set['Result']=="fail"]`
			`df1 = data_set[data_set['Result']=="success"]`

			`#size = min(len(df0[df0['VehicleCount']==max_vehicle]), len(df1[df1['VehicleCount']==min_vehicle]))`

			`size = len(df0[df0['VehicleCount']==max_vehicle]) // 2`

			`df1 = df1.groupby('VehicleCount').apply(lambda x: x if len(x) < size else x.sample(size))`
			`df0 = df0.groupby('VehicleCount').apply(lambda x: x if len(x) < size else x.sample(size))`

			`data_set = pd.concat([df0, df1], ignore_index=True)`
			`else:`
			`data_set = data_set[data_set['Result'] == 'success']`

			`#size = min(len(data_set[data_set['VehicleCount']==min_vehicle]), len(data_set[data_set['VehicleCount']==max_vehicle]))`

			`size = len(data_set[data_set['VehicleCount']==max_vehicle]) // 3`
			`data_set = data_set.groupby('VehicleCount').apply(lambda x: x if len(x.index) < size else x.sample(size))`

			`#EXTRACT RELATED ATTRIBUTES`
			`df = pd.DataFrame(columns=targetColumns)`
			`for column in targetColumns:`
			`if column == 'Result' or column == 'ServiceTime':`
			`df[column] = data_set[column]`
			`else:`
			`df[column] = znorm(data_set[column])`

			`f = open(sim_result_folder + "/" + target + "_" + method + "_" + datatype + ".arff", 'w')`
			`f.write('@relation ' + target + '\n\n')`
			`for column in targetColumns:`
			`if column == 'Result':`
			`f.write('@attribute class {fail,success}\n')`
			`else:`
			`f.write('@attribute ' + column + ' REAL\n')`
			`f.write('\n@data\n')`
			`df.to_csv(f, header=False, index=False)`
			`f.close()`

			`print ("##############################################################")`
			`print ("Operation completed!")`
			`print (".arff file is generated for weka.")`
			`print ("##############################################################")`