- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据研发面试题
语言方面不做限制,python/java/c++均可。
写出完成的代码,调试通过,输出结果与预期一致
题目描述
输入
输出
考察点
人物实体链接
不同数据源中,人物公司信息不同。
通过数据处理将同一个人的实体连接起来。
数据源1:
张三, {公司1,2,3}
李四,{公司1,2}
数据源2:
张三, {公司4,5}
李四,{公司6}
数据源3:
张三, {公司4,6}
李四,{公司6,7}
数据源4:
李四,{公司7,8}
张三, {公司1,2,3}
张三, {公司4,5,6}
李四, {公司1,2}
李四, {公司6,7,8}
名字+公司,确定人物唯一性的假设。
有重叠公司的集合的并操作
代码:
from collections import defaultdict
# 定义数据源1-4
data_sources = [
{name: 张三, companies: [公司1, 公司2, 公司3]},
{name: 李四, companies: [公司1, 公司2]},
{name: 张三, companies: [公司4, 公司5]},
{name: 李四, companies: [公司6]},
{name: 张三, companies: [公司4, 公司6]},
{name: 李四, companies: [公司6, 公司7]},
{name: 李四, companies: [公司7, 公司8]}
]
# 创建一个字典用于存储连接后的结果
result = defaultdict(set)
# 遍历数据源
for data in data_sources:
name = data[name]
companies = data[companies]
result[name].update(companies)
# 对结果进行排序和拆分
sorted_result = {}
for name, companies in result.items():
sorted_result[name] = sorted(companies)
# 输出连接后的结果
for name, companies in sorted_result.items():
if name == 张三:
for i in range(0, len(companies), 3):
group = companies[i:i+3]
print(f{name}, {group})
elif name == 李四:
group1 = companies[:2]
group2 = companies[2:]
print(f{name}, {group1} )
print(f{name}, {group2} )
您可能关注的文档
- 基于ALK-MCS算法的航空发动机轴承可靠性分析_黄洪钟.pdf
- 基于Stackelberg...网分布式光伏低碳化消纳方法_张涛(1).pdf
- 基于电气距离的电力系统网络拓扑结构可视化研究_杭志.pdf
- 基于多种群遗传算法的分布式光伏接入配电网规划研究_刘科研(1).pdf
- 基于风力机尾流排斥的平坦地形风电场微观选址优化_王洁.pdf
- 基于静力触探的土层自动划分方法与不确定性表征_曹子君(1).pdf
- 基于气动伺服控制的高速气缸自适应缓冲研究_陈雨田.pdf
- 基于有限时间状态观测器的永...步直线电机递归终端滑模控制_王立俊.pdf
- 基于云模型的改进粒子群算法研究与应用_邵岁锋.pdf
- 计算方程 郑劫恒0112.docx
文档评论(0)