data_generation.py

import numpy as np
import pandas as pd
import os.path


# synthetic case from uds
def correlated_data(m, n, sigma, f):
    l = int(n / 2)
    Z = np.random.normal(0, 1, (m, l))
    A = np.matrix(np.random.uniform(0, 1, (l, l)))
    X1 = Z * A
    B = np.matrix(np.random.uniform(0, 0.5, (l, l)))
    W = X1 * B
    E = np.random.normal(0, sigma, (m, l))
    X2 = f(W) + E
    result = np.append(X1, X2, axis=1)
    print(result)
    return result


def generate_uncorrelated_data(m, n):
    return np.random.normal(0, 1, (m, n))


def func1(X):
    return 2 * X + 1


def func2(X):
    return np.log2(np.abs(X) + 1)


def synthetic_data_uni(m, r, s, sigma=0.1):
    r_dims = np.random.uniform(-0.5, 0.5, (m, r)) if r > 0 else np.empty((m, r))
    parity_dim = -(np.count_nonzero(r_dims > 0, axis=1) % 2 * 2 - 1).reshape(m, 1) * np.random.uniform(0, 0.5,
                                                                                                       (m,
                                                                                                        1)) if r > 0 else np.empty(
        (m, r))
    s_dims = np.random.uniform(-0.5, 0.5, (m, s))
    data = np.concatenate((r_dims, parity_dim, s_dims), axis=1)
    if sigma:
        e = np.random.normal(0, sigma, (m, r + s + 1))
        data = data + e

    return data


def synthetic_data_uni_negative(m, r, s, sigma=0.1):
    r_dims = np.random.uniform(-0.5, 0.5, (m, r)) if r > 0 else np.empty((m, r))
    parity_dim = (np.count_nonzero(r_dims > 0, axis=1) % 2 * 2 - 1).reshape(m, 1) * np.random.uniform(0, 0.5,
                                                                                                      (m,
                                                                                                       1)) if r > 0 else np.empty(
        (m, r))
    s_dims = np.random.uniform(-0.5, 0.5, (m, s))
    data = np.concatenate((r_dims, parity_dim, s_dims), axis=1)
    if sigma:
        e = np.random.normal(0, sigma, (m, r + s + 1))
        data = data + e

    return data


def synthetic_data_gauss(m, r, s, sigma=0.1):
    r_dims = np.random.normal(0, 1, (m, r)) if r > 0 else np.empty((m, r))
    parity_dim = -(np.count_nonzero(r_dims > 0, axis=1) % 2 * 2 - 1).reshape(m, 1) * np.abs(np.random.normal(0, 1,
                                                                                                             (m,
                                                                                                              1))) if r > 0 else np.empty(
        (m, r))
    s_dims = np.random.normal(0, 1, (m, s))
    data = np.concatenate((r_dims, parity_dim, s_dims), axis=1)
    if sigma:
        e = np.random.normal(0, sigma, (m, r + s + 1))
        data = data + e

    return data


def synthetic_with_nearcopies(m, k, l, sigma=0.1):
    k_dims = np.repeat(np.random.uniform(-0.5, 0, (m, 1)), k, axis=1) if k > 0 else np.empty((m, k))
    l_dims = np.repeat(np.random.uniform(0, 0.5, (m, 1)), l, axis=1) if l > 0 else np.empty((m, l))

    data = np.concatenate((k_dims, l_dims), axis=1)
    if sigma:
        e = np.random.normal(0, sigma, (m, k + l))
        data = data + e

    return data


def synthetic_cube_in_cube(m, r, i, side, sigma=0.5):
    if r < 1:
        raise ValueError
    h = int(m * sigma)
    range = [-0.5, 0] if side == 'l' else [-0.25, 0.25] if side == 'm' else [0, 0.5]
    contra_range = [0, 0.5] if side == 'l' else [-0.25, 0.25] if side == 'm' else [-0.5, 0]
    r_dims = np.concatenate((
        # np.concatenate(
        #     (np.random.uniform(range[0], range[1], (h, 1)),
        #      np.random.uniform(contra_range[0], contra_range[1], (h, 1))),
        #     axis=1)
        np.random.uniform(range[0], range[1], (h, r))
        , np.random.uniform(-0.5, 0.5, (m - h, r))), axis=0)
    i_dims = np.random.uniform(-0.5, 0.5, (m, i)) if i > 0 else np.empty((m, i))
    data = np.concatenate((r_dims, i_dims), axis=1)

    return data


def synthetic_cjs():
    return np.concatenate((np.concatenate((np.random.normal(0, 1, (100, 1)), np.random.normal(2, 1, (100, 1))), axis=1),
                           np.concatenate((np.random.normal(4, 1, (100, 1)), np.random.normal(5, 1, (100, 1))),
                                          axis=1)), axis=0)

def blobs():
    # 2d
    n = 4000
    l = int(n/2)
    blob1 = np.random.normal(0, 1, (l, 2)) - np.concatenate((np.ones((l, 1)), np.zeros((l, 1))), axis=1)

    blob2 = np.random.normal(0, 1, (l, 2)) + np.concatenate((np.ones((l, 1)), np.zeros((l, 1))), axis=1)

    return np.concatenate((blob1, blob2), axis=0)


def append_irrelevant_features(file, n):
    if n == 0:
        raise ValueError("# of irrelevant features is 0")
    data = pd.read_csv(file, delimiter=";", header=None, na_values='?')
    rows = data.shape[0]
    last_dim = data.shape[1] - 1
    irrel_data = np.random.uniform(-0.5, 0.5, (rows, n))
    return np.concatenate([data.loc[:, :last_dim - 1], irrel_data, data.loc[:, last_dim].to_frame()], axis=1) if (data[last_dim] == 0).all() \
        else np.concatenate([data, irrel_data], axis=1)


def generate():
    # -------generating dataset
    # data = synthetic_cube_in_cube(rows, rel_features, irrel_features, 'l')
    # data__ = synthetic_cjs()
    data = correlated_data(rows, rel_features + irrel_features, 1, func1)
    #
    # # add zeroes as default class
    data = np.concatenate((data, np.zeros((rows, 1))), axis=1)
    # -------appending irrelevant features to existing dataset
    # data = append_irrelevant_features(source, irrel_features)
    # storing to disk
    pd.DataFrame(data).to_csv(file, sep=';', header=False, index=False, float_format='%.2f')


if __name__ == '__main__':
    # for j in [3,4,5,10]:
    #     for i in [1,2,3,4,5,10]:
    #     #     file = 'synthetic_cases/synthetic_cube_in_cube_10.csv'
    #         file = 'synthetic_cases/synthetic_cube_in_cube_' + str(j) + '_' + str(i) + '.csv'
    #         source = 'synthetic_cases/synthetic_cube_in_cube_' + str(j) + '.csv'
    #
    #         if os.path.isfile(file):
    #             raise ValueError(file + " already exists!")
    #
    #         # parameters
    #         rows = 20000
    #         rel_features = 10
    #         irrel_features = i
    #
    #         generate()
    file = 'synthetic_cases/uds_test_4.csv'

    if os.path.isfile(file):
        raise ValueError(file + " already exists!")

    # parameters
    rows = 4000
    rel_features = 2
    irrel_features = 2

    generate()
	import numpy as np
	import pandas as pd
	import os.path


	# synthetic case from uds
	def correlated_data(m, n, sigma, f):
	l = int(n / 2)
	Z = np.random.normal(0, 1, (m, l))
	A = np.matrix(np.random.uniform(0, 1, (l, l)))
	X1 = Z * A
	B = np.matrix(np.random.uniform(0, 0.5, (l, l)))
	W = X1 * B
	E = np.random.normal(0, sigma, (m, l))
	X2 = f(W) + E
	result = np.append(X1, X2, axis=1)
	print(result)
	return result


	def generate_uncorrelated_data(m, n):
	return np.random.normal(0, 1, (m, n))


	def func1(X):
	return 2 * X + 1


	def func2(X):
	return np.log2(np.abs(X) + 1)


	def synthetic_data_uni(m, r, s, sigma=0.1):
	r_dims = np.random.uniform(-0.5, 0.5, (m, r)) if r > 0 else np.empty((m, r))
	parity_dim = -(np.count_nonzero(r_dims > 0, axis=1) % 2 * 2 - 1).reshape(m, 1) * np.random.uniform(0, 0.5,
	(m,
	1)) if r > 0 else np.empty(
	(m, r))
	s_dims = np.random.uniform(-0.5, 0.5, (m, s))
	data = np.concatenate((r_dims, parity_dim, s_dims), axis=1)
	if sigma:
	e = np.random.normal(0, sigma, (m, r + s + 1))
	data = data + e

	return data


	def synthetic_data_uni_negative(m, r, s, sigma=0.1):
	r_dims = np.random.uniform(-0.5, 0.5, (m, r)) if r > 0 else np.empty((m, r))
	parity_dim = (np.count_nonzero(r_dims > 0, axis=1) % 2 * 2 - 1).reshape(m, 1) * np.random.uniform(0, 0.5,
	(m,
	1)) if r > 0 else np.empty(
	(m, r))
	s_dims = np.random.uniform(-0.5, 0.5, (m, s))
	data = np.concatenate((r_dims, parity_dim, s_dims), axis=1)
	if sigma:
	e = np.random.normal(0, sigma, (m, r + s + 1))
	data = data + e

	return data


	def synthetic_data_gauss(m, r, s, sigma=0.1):
	r_dims = np.random.normal(0, 1, (m, r)) if r > 0 else np.empty((m, r))
	parity_dim = -(np.count_nonzero(r_dims > 0, axis=1) % 2 * 2 - 1).reshape(m, 1) * np.abs(np.random.normal(0, 1,
	(m,
	1))) if r > 0 else np.empty(
	(m, r))
	s_dims = np.random.normal(0, 1, (m, s))
	data = np.concatenate((r_dims, parity_dim, s_dims), axis=1)
	if sigma:
	e = np.random.normal(0, sigma, (m, r + s + 1))
	data = data + e

	return data


	def synthetic_with_nearcopies(m, k, l, sigma=0.1):
	k_dims = np.repeat(np.random.uniform(-0.5, 0, (m, 1)), k, axis=1) if k > 0 else np.empty((m, k))
	l_dims = np.repeat(np.random.uniform(0, 0.5, (m, 1)), l, axis=1) if l > 0 else np.empty((m, l))

	data = np.concatenate((k_dims, l_dims), axis=1)
	if sigma:
	e = np.random.normal(0, sigma, (m, k + l))
	data = data + e

	return data


	def synthetic_cube_in_cube(m, r, i, side, sigma=0.5):
	if r < 1:
	raise ValueError
	h = int(m * sigma)
	range = [-0.5, 0] if side == 'l' else [-0.25, 0.25] if side == 'm' else [0, 0.5]
	contra_range = [0, 0.5] if side == 'l' else [-0.25, 0.25] if side == 'm' else [-0.5, 0]
	r_dims = np.concatenate((
	# np.concatenate(
	# (np.random.uniform(range[0], range[1], (h, 1)),
	# np.random.uniform(contra_range[0], contra_range[1], (h, 1))),
	# axis=1)
	np.random.uniform(range[0], range[1], (h, r))
	, np.random.uniform(-0.5, 0.5, (m - h, r))), axis=0)
	i_dims = np.random.uniform(-0.5, 0.5, (m, i)) if i > 0 else np.empty((m, i))
	data = np.concatenate((r_dims, i_dims), axis=1)

	return data


	def synthetic_cjs():
	return np.concatenate((np.concatenate((np.random.normal(0, 1, (100, 1)), np.random.normal(2, 1, (100, 1))), axis=1),
	np.concatenate((np.random.normal(4, 1, (100, 1)), np.random.normal(5, 1, (100, 1))),
	axis=1)), axis=0)

	def blobs():
	# 2d
	n = 4000
	l = int(n/2)
	blob1 = np.random.normal(0, 1, (l, 2)) - np.concatenate((np.ones((l, 1)), np.zeros((l, 1))), axis=1)

	blob2 = np.random.normal(0, 1, (l, 2)) + np.concatenate((np.ones((l, 1)), np.zeros((l, 1))), axis=1)

	return np.concatenate((blob1, blob2), axis=0)


	def append_irrelevant_features(file, n):
	if n == 0:
	raise ValueError("# of irrelevant features is 0")
	data = pd.read_csv(file, delimiter=";", header=None, na_values='?')
	rows = data.shape[0]
	last_dim = data.shape[1] - 1
	irrel_data = np.random.uniform(-0.5, 0.5, (rows, n))
	return np.concatenate([data.loc[:, :last_dim - 1], irrel_data, data.loc[:, last_dim].to_frame()], axis=1) if (data[last_dim] == 0).all() \
	else np.concatenate([data, irrel_data], axis=1)


	def generate():
	# -------generating dataset
	# data = synthetic_cube_in_cube(rows, rel_features, irrel_features, 'l')
	# data__ = synthetic_cjs()
	data = correlated_data(rows, rel_features + irrel_features, 1, func1)
	#
	# # add zeroes as default class
	data = np.concatenate((data, np.zeros((rows, 1))), axis=1)
	# -------appending irrelevant features to existing dataset
	# data = append_irrelevant_features(source, irrel_features)
	# storing to disk
	pd.DataFrame(data).to_csv(file, sep=';', header=False, index=False, float_format='%.2f')


	if __name__ == '__main__':
	# for j in [3,4,5,10]:
	# for i in [1,2,3,4,5,10]:
	# # file = 'synthetic_cases/synthetic_cube_in_cube_10.csv'
	# file = 'synthetic_cases/synthetic_cube_in_cube_' + str(j) + '_' + str(i) + '.csv'
	# source = 'synthetic_cases/synthetic_cube_in_cube_' + str(j) + '.csv'
	#
	# if os.path.isfile(file):
	# raise ValueError(file + " already exists!")
	#
	# # parameters
	# rows = 20000
	# rel_features = 10
	# irrel_features = i
	#
	# generate()
	file = 'synthetic_cases/uds_test_4.csv'

	if os.path.isfile(file):
	raise ValueError(file + " already exists!")

	# parameters
	rows = 4000
	rel_features = 2
	irrel_features = 2

	generate()